视觉大模型在具身自动上还有很长的路要走! Meta推出开明环球具身问答数据集OpenEQA

构想一个实体化的 AI 代理,充任家庭机器人的大脑或时兴的自动眼镜 。这样的代理须要应用视觉等感知模态来了解周围环境,并能够用明晰、日常言语有效地与人交换。这相似于构建“环球模型”,即代理对外部环球的外部示意,可以经过言语查问。这是一个常年愿景和一个艰难的钻研应战——Meta正在踊跃探求。

近日, Meta颁布了开明词汇体验问答(OpenEQA)框架——一个权衡 AI 代理经过开明词汇疑问来了解其环境的新基准 。这相似于咱们如何评价人类对概念的了解,即经过问疑问并评价他们的答案。OpenEQA 蕴含两个义务:

Meta经常使用OpenEQA对几个最先进的视觉+言语基础模型(VLMs)启动了基准测试,并发现 即使是功能最好的模型(GPT-4V到达48.5%)与人类体现(85.9%)之间也存在清楚差距 。特意值得关注的是, 关于须要空间了解的疑问,即使是最好的VLMs简直是“自觉”的——也就是说,它们的体现并不比仅文本模型好多少 ,这标明应用视觉消息的模型并没有从中取得实质性的好处,并且在回答视觉疑问时依赖于在文本中捕捉的无关环球的先验常识。举个例子,关于疑问“I'm sitting on the living room couch watching TV. Which room is directlybehind me?”, 模型基本上是随机猜想不同的房间,而没有从视觉叙事记忆中取得清楚的好处,这应该提供对空间的了解 。这标明,在实体化AI代理预备好进入干流之前, 须要在感知和推理方面启动额外的改良

OpenEQA将具备应战性的开明词汇疑问与以人造言语回答的才干相结合。这发生了一个直观的基准测试,显示了对环境的弱小了解,并对的基础模型导致了严重应战。咱们宿愿这项上班能激起更多的钻研,协助AI了解和沟通它所看到的环球。

论文:

数据集:

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: