让Siri不再智障！苹果定义新的端侧模型大大优于GPT

2024-11-15

撰稿丨诺亚

出品 | 技术栈（微信号：blog51cto）

总被用户吐槽“有点智障”的Siri没救了！

Siri自降生以来就是智能语音助手畛域的代表之一，但很长一段期间里，其体现并不尽善尽美。但是，苹果的人工智能团队最新颁布的钻研成绩有望极大地扭转现状。

在相关的钻研论文中，苹果的AI专家们形容了一个系统，其中Siri不只可以识别图像中的内容，还能做更多的事件，变得更智能、更适用。尤为令人兴奋的是，他们以为自己研发的用于成功这一配置的模型ReALM，其基准性能优于GPT 4.0。

一、动机：处置不同实体的指代解析

苹果的钻研团队指出：“让对话助手能够了解高低文，包括相关的内容指向，十分关键。能让用户依据他们所看到的屏幕内容启动提问，是确保真正成功语音操作体验的关键一步。”

打个比如，在人机交互环节中，用户经常会在对话中提及屏幕上的某个元素或内容，例如批示语音助手拨打电话号码、导航至地图上的特定地点、翻开特定运行程序或网页等。假设对话助手不可了解用户指令面前的实体指代，就不可准确地口头这些命令。

而且人类对话中广泛存在含糊指代的现象，为了成功人造的人机交互，以及在用户与语音助手启动关于屏幕内容查问时准确了解语境，指代解析才干至关关键。

苹果在论文中提到的名为ReALM（Reference Resolution As Language Modeling）的模型，其长处就在于，它能够同时思考用户屏幕上的内容和正在启动的义务，应用大言语模型处置不同类型实体（包括对话实体和非对话实体）的指代解析疑问。

虽然传统的文本模态不便于处置屏幕上显示的实体，但ReALM系统经过将指代解析转化为言语建模疑问，并成功运用LLMs来处置屏幕上非对话实体的指代，极大地推进了这一指标的达成。如此一来，便有望达成高度智能、愈加沉迷的用户体验。

二、重构：打破传统文本模态的限度

传统的文本模态不便于处置屏幕上显示的实体，是由于屏幕上的实体理论蕴含丰盛的视觉消息和规划结构，例如图像、图标、按钮及它们之间的相对位置相关等，这些消息在纯正的文本形容中难以齐全表白。

ReALM系统针对这一应战，发明性地提出了经过解析屏幕上的实体及其位置消息来重建屏幕，并生成一种纯文本示意，这种文天性可视化地反映屏幕内容。

实体局部会被特意标志，以便言语模型了解实体出如今何处及其周围的文本是什么，这样就能模拟“看到”屏幕上的消息，并无了解和解析屏幕上的指代时提供必要的高低文消息。这种方法是初次尝试经常使用大型言语模型从屏幕内容中编码高低文，克制了传统文本模态难以处置的屏幕实体的疑问。

详细来说，ReALM系统为了让大型言语模型能够“了解”并处置屏幕上显示的实体，驳回了以下步骤：

首先，借助下层数据检测器提取屏幕文本中的实体，这些实体会带有类型、边界框以及实体周围非实体文本元素的列表。这象征着，关于屏幕上每一个可视化的实体，系统都会捕捉其基本消息和它所处的高低文环境。

而后，ReALM翻新地提出了一种算法，经过将实体及其周围对象的边界框中心点依照垂直（从上至下）和水平（从左至右）的顺序排序，并稳固陈列。若实体间距离较近，则以为它们在同一行内，并用制表符隔开；若距离超出设定的边距，则将它们置于下一行。这样，经过延续运行上述方法，就可以将屏幕内容按从左到右、从上到下的方式编码成纯文本格局，有效地保管了实体间的相对空间位置相关。

这样一来，原本难以间接被LLM处置的屏幕视觉消息转化成了适宜言语模型输入的文本方式，使LLM能够在处置序列到序列的义务时，充沛思考到了屏幕实体的详细位置和高低文，从而成功对屏幕实体的正确识别和指代解析。

这使得ReALM系统不只在处置对话实体的指代疑问上体现出色，而且在处置非对话类实体——即屏幕上的实体时雷同体现出了清楚的性能优化。

三、细节：义务定义和数据集

便捷来，ReALM系统面临的义务是，依据用户想要口头的义务，在给定的实体汇合中，找出与用户查问相关的实体。

这个义务被构形成一个针对大型言语模型的选用题，希冀从用户屏幕展现的实体当选用一个或多个选项作为答案。当然，在某些状况下，答案或许是“都不是”。

理想上，钻研论文将义务触及的实体分为三类：

1.屏幕实体：是指在用户界面上可见的实体。

2.对话实体：与对话内容相关的实体，或许来自用户的上一轮发言（如用户提到“呼叫妈妈”，则咨询人列表中“妈妈”的条目就是相关实体），也或许由虚构助手在对话中提供（如供用户选用的地点列表）。

3.背景实体：源于后盾进程，不必定间接体如今用户屏幕显示或与虚构助手互动中的相关实体，例如预设会响起的闹钟或正在后盾播放的音乐。

至于用于训练和测试ReALM的数据集，由分解数据和人工标注的数据组成，雷同可划分为三类：

其一，对话数据集：蕴含了与用户与代理交相互关的实体的数据点。这些数据经过让评分员检查含有分解实体列表的截图，并要求他们提供明白指向列表中恣意选定实体的查问来搜集。

其二，分解数据集：驳回模板生成法获取数据，特意是当用户查问和实体类型足以确定指代，无需依赖详细形容时，这种方法特意有用。分解数据集中也可以蕴含多个实体对应同一查问的状况。

其三，屏幕数据集：关键涵盖了用户屏幕上显示的实体的数据，每一条数据都蕴含用户查问、实体列表以及与该查问对应的正确实体（或实体汇合）。每个实体的消息包括实体类型和其余属性，如称号以及其余与实体相关的文本细节（例如，闹钟的标签和期间）。

关于含有屏幕相翻开下文的数据点，高低文消息以实体的边界框以及围绕该实体的其余对象列表的方式提供，同时附带这些周边对象的类型、文本内容和位置等属性消息。整个数据集的大小依据类别分为训练集和测试集，并且各具必定规模。

四、结果：最小的模型也取得了5%的性能优化

在基准测试中，苹果公司将自家系统与GPT 3.5和GPT 4.0启动了比拟。ReALM模型在处置不同类型的指代解析义务方面体现出出色的竞争力。

依据论文所述，即使是ReALM中参数起码的版本，相较于基线系统也成功了超越5%的性能优化。而在更大的模型版本上，ReALM则清楚胜过GPT-4。特意是在处置屏幕上显示的实体时，随着模型规模的参与，ReALM在屏幕数据集上的性能优化更为清楚。

另外，ReALM模型在全新畛域的零样本学习场景上，其性能与GPT-4相当凑近。而在处置特定畛域的查问时，由于经过用户恳求的微调，ReALM模型比GPT-4体现得愈加精准。

比如，关于要求调整亮度这样的用户恳求，GPT-4仅将该恳求关联到设置，而疏忽了背景中存在的智能家居设施也是相关实体，而ReALM由于接受了畛域特有数据的训练，能够更好地理解并正确解析此类特定畛域内的指代疑问。

“咱们证实了ReaLM逾越了以往的方法，并且虽然参数数量远少于最先进的LLM——GPT-4，即使在纯正基于文本畛域处置屏幕内援用时，ReaLM也能到达与其相当的体现水平。此外，关于特定畛域的用户话语，ReaLM的体现还优于GPT-4，因此，ReaLM可以说是在保障性能不打折扣的同时，适用于开发面向实践运行环境、可在设施本地高效运转的指代解析系统的首选打算。”

此外，钻研人员还示意，在资源有限、须要低提前照应或许触及多阶段集成如API调用等实践运行场景中，繁多的大型端到端模型往往并不适用。

在这种背景下，模块化设计的ReALM系统更具备长处，准许在不影响全体架构的状况下，轻松交流和更新原有的指代解析模块，同时提供更好的优化后劲和可解释性。

面向未来，钻研方向则指向了更为复杂的方法，比如将屏幕区域划分为网格并以文本方式编码空间相对位置，虽然颇具应战性，但这是一种有前景的探求路径。

五、写在最后

在人工智能畛域，苹果虽然不时比拟审慎，但也在默默投入。无论是多模态大模型MM1，还是AI驱动的动画生成工具Keyframer，再到如今的ReALM，苹果的钻研团队不时在继续成功着技术打破。

围观谷歌、微软、亚马逊等竞争对手，纷繁在搜查、云服务、办公软件上加码AI，秀了一波又一波肌肉。苹果显然正致力不落人后。随着生成式AI落地成绩不时涌现，苹果更是放慢了追逐的步调。早有知情人士泄漏，在6月举行的环球开发者大会上，苹果将聚焦于人工智能畛域，新的人工智能战略极有或许成为iOS 18更新的外围内容。届时，说不定会给诸君带来惊喜。

参考链接：

本文转载自技术栈，作者：

<<高效打造常识图谱 Relik实事实体关联和相关抽取经常使用LlamaIndex

AIGC卷不了教员会难育教>>

让Siri不再智障！苹果定义新的端侧模型 大大优于GPT