视觉大模型在具身自动上还有很长的路要走！ Meta推出开明环球具身问答数据集OpenEQA

2024-11-15

构想一个实体化的 AI 代理，充任家庭机器人的大脑或时兴的自动眼镜 。这样的代理须要应用视觉等感知模态来了解周围环境，并能够用明晰、日常言语有效地与人交换。这相似于构建“环球模型”，即代理对外部环球的外部示意，可以经过言语查问。这是一个常年愿景和一个艰难的钻研应战——Meta正在踊跃探求。

近日， Meta颁布了开明词汇体验问答（OpenEQA）框架——一个权衡 AI 代理经过开明词汇疑问来了解其环境的新基准 。这相似于咱们如何评价人类对概念的了解，即经过问疑问并评价他们的答案。OpenEQA 蕴含两个义务：

Meta经常使用OpenEQA对几个最先进的视觉+言语基础模型（VLMs）启动了基准测试，并发现 即使是功能最好的模型（GPT-4V到达48.5%）与人类体现（85.9%）之间也存在清楚差距 。特意值得关注的是， 关于须要空间了解的疑问，即使是最好的VLMs简直是“自觉”的——也就是说，它们的体现并不比仅文本模型好多少 ，这标明应用视觉消息的模型并没有从中取得实质性的好处，并且在回答视觉疑问时依赖于在文本中捕捉的无关环球的先验常识。举个例子，关于疑问“I'm sitting on the living room couch watching TV. Which room is directlybehind me?”， 模型基本上是随机猜想不同的房间，而没有从视觉叙事记忆中取得清楚的好处，这应该提供对空间的了解 。这标明，在实体化AI代理预备好进入干流之前， 须要在感知和推理方面启动额外的改良 。

OpenEQA将具备应战性的开明词汇疑问与以人造言语回答的才干相结合。这发生了一个直观的基准测试，显示了对环境的弱小了解，并对的基础模型导致了严重应战。咱们宿愿这项上班能激起更多的钻研，协助AI了解和沟通它所看到的环球。

论文：

数据集：

原文链接：

<<基于LLM的多Agent框架在金融市场数据的运行

假设发现了一个难以复现的bug 你会如何启动调试和定位疑问>>

视觉大模型在具身自动上还有很长的路要走！ Meta推出开明环球具身问答数据集OpenEQA

您可能还会对下面的文章感兴趣：

随便看看