跑 简化移动设施操作 起来!我国高校最新钻研 AI让手机义务智能

AI束缚碳基动物双手,甚至能 让你的手机自己玩自己

你没听错——这其实就是移动义务智能化。

在AI飞速开展下,这逐渐成为一个新兴的抢手钻研畛域。

移动义务智能化 应用AI精准捕捉并解析人类用意,进而在移动设施 (手机、平板电脑、车机终端) 上高效口头多样化义务 ,为那些因认知局限、身材条件限度或身处不凡情境下的用户提供史无前例的方便与支持。

妈妈再也不嫌重复设置多个日历事项会意烦了。

最近,来自西安交通大学智能网络与网络安保教育部重点试验室的蔡忠闽传授、宋云鹏副传授团队 (团队关键钻研方向为智能人机交互、混合增强智能、电力系统智能化等) ,基于团队最新AI钻研成绩,翻新性提出了基于视觉的移动设施义务智能化打算 VisionTasker

这项钻研不只为普通用户提供了更智能的移动设施经常使用体验,也展现出了对不凡需求个体的关心与赋能。

基于视觉的移动设施义务智能化打算

团队提出了 VisionTasker ,一个结合基于视觉的UI了解和LLM义务规划的两阶段框架,用于逐渐成功移动义务智能化。

该打算有效消弭了示意UI对视图档次结构的依赖,提高了对不同运行界面的顺应性。

值得留意的是,应用VisionTasker无需少量数据训练大模型。

VisionTasker从用户以人造言语提出义务需求开局上班, Agent开局了解并口头指令。

详细成功如下:

1、用户界面了解

VisionTasker经过视觉的方法做UI了解来解析和解释用户界面。

首先Agent识别并剖析用户界面上的元素及规划,如按钮、文本框、文字标签等。

而后,将这些识别到的视觉信息转换成人造言语形容,用于解释界面内容。

接上去,Agent应用大言语模型导航,依据用户的指令和界面形容信息做义务规划。

将用户义务拆解为可口头的步骤,如点击或滑动操作,以智能推动义务的成功。

每一步成功后,Agent都会依据最新界面和历史举措降级其对话和义务规划,确保每一步的决策都是基于高低文的。

这是个迭代的环节,将继续启动直到判别义务成功或到达预设的限度。

用户不只能从交互中束缚双手,还可以经过可见揭示监控义务进展,并随时终止义务,坚持对整个流程的控制。

首先是识别界面中的小部件和文本,检测按钮、文本框等元素及其位置。

关于没有文本标签的按钮,应用 CLIP 模型基于视觉设计来推断其或许性能。

随后,系统依据 UI 规划的视觉信息启动区块划分,将界面宰割成多个具备不同性能的区块,并对每个区块生成人造言语形容。

这个环节还包含文本与小部件的婚配,确保正确了解每个元素的性能。

最终,一切这些信息被转化为人造言语形容,为大言语模型提供明晰、语义丰盛的界面信息,使其能够有效地启动义务规划和智能化操作。

试验评价

试验评价局部,该名目提供了对三种UI了解的比拟剖析,区分是:

△三种UI了解方法的比拟剖析

对比显示,VisionTasker在多个维度上比其余方法有清楚长处。

此外,在处置跨言语运行时也体现出了良好的泛化才干。

△试验1中经常使用到的经常出现UI规划

标明VisionTasker的以视觉为基础的UI了解方法无了解和解释UI方面具备清楚长处,尤其是在面对多样化和复杂的用户界面时尤为清楚。

△跨四个数据集的单步预测准确性

文章还启动了单步预测试验,依据的义务形态和用户界面,预测接上去应该口头的举措或操作。

结果显示,VisionTasker在一切数据集上的平均准确率到达了67%,比基线方法提高了15%以上。

实在环球义务:VisionTasker vs 人类

试验环节中,钻研人员设计了147个实在的多步骤义务来测试VisionTasker的体现,这些义务涵盖了国际罕用的42个运行程序。

与此同时,团队还设置了人类对比测试,由12名人类评价者手动口头这些义务,而后VisionTasker的结果启动比拟。

结果显示,VisionTasker在大少数义务中能到达与人类相当的成功率,并且在某些不相熟的义务中体现优于人类。

△实践义务智能化试验的结果 “Ours-qwen”是支经常使用开源Qwen成功VisionTasker框架,”Ours”示意经常使用文心一言作为LLM

团队还评价了VisionTasker在不同条件下的体现,包含经常使用不同的大言语模型和编程演示机制。

VisionTasker 在大少数直观义务中到达了与人类相当的成功率,在相熟义务中略低于人类但在不相熟义务中优于人类。

△VisionTasker逐渐成功义务的展现

论断

作为一个基于视觉和大模型的移动义务智能化框架,VisionTasker克制了现阶段移动义务智能化对视图层级结构的依赖。

经过一系列对比试验,证实其在用户界面体现上逾越了传统的编程演示和视图层级结构方法。

它在4个不同的数据集上都展现了高效的UI示意才干,体现出更宽泛的运行性;并在Android手机上的147个实在环球义务中,特意是在复杂义务的处置上,体现了出逾越人类的义务成功才干。

此外,经过集成编程演示机制,VisionTasker在义务智能化方面有清楚的性能优化。

目前,该上班已以正式论文的方式宣布于2024年10月13-16日在美国匹兹堡举行的人机交互顶级会议。

UIST是人机交互畛域专一于人机界面软件和技术翻新的CCF A类顶级学术会议。

您可能还会对下面的文章感兴趣: