14 项义务测上去 GPT4V Gemini等多模态大模型竟都没什么视觉感知才干

2024-11-14

2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型（Multimodal LLMs）曾经在文本和图像等多模态内容处置方面体现出了绝后的才干，成为技术新浪潮。

但是，关于这些模型的评测多集中于言语上的义务，关于视觉的要求多为便捷的物体识别。相对的，计算机视觉最后试图解读图像作为3D场景的投影，而不只仅处置2D平面“形式”的数组。

为照应这一状况，本文提出了BLINK，这是一个 新的测试集 ，蕴含了从新设想的传统计算机视觉疑问，使咱们能够更片面评价多模态大模型的视觉感知才干，带你揭开GPT4V、Gemini等大模型的视觉界限秘密。

作者置信BLINK将处罚社区协助多模态LLMs到达与人类等同级别的视觉感知才干。

论文链接：

什么是BLINK？

BLINK 是一个针对多模态言语模型（Multimodal LLMs）的 新基准测试 ，专一于评价其外围视觉感知才干，这些才干在其余评价中并未触及。

BLINK蕴含 14 项视觉感知义务 ，领有 3.8k个选用题 和 7.3k张图像 。

人类可以“一眨眼”之间处置这些义务 (例如，相对视深、视觉对应、目的定位，和多视角推理等)；但对的多模态大型言语模型（Multimodal LLMs）而言，这些义务导致了严重应战，由于它们难以经过人造言语处置来处置。

平均而言，人类在这些义务上的准确率为，但是即使是GPT-4V和Gemini也只到达了和的准确率，比随机猜想仅高出和。

BLINK与其余基准测试的区别

（1）BLINK 运用了多种的视觉prompt s, 如圆形、盒形, 和图像遮罩 masks, 而以前的基准测试仅蕴含文本疑问和答案。

（2）BLINK 评价了更片面的视觉感知才干 ，如多视角推理、深度预算和反射率预算。以往的基准测试理论更并重于基于物体识别的视觉问答（VQA）。

（3）BLINK 只蕴含“视觉”知识性疑问 ，这些疑问人类不须要接受教育就可以在一秒钟内回答，而以前的基准测试像MMMU这样的则须要专业畛域知识。

（4）BLINK涵盖了 14个需求感知 的义务，这些义务遭到经典计算机视觉疑问的启示。虽然这些疑问仅需人类“一眨眼”的期间即可处置，但它们超出了多模态大型言语模型的才干。

BLINK 试验结果

本文评价了17个不同大小（即7B，13B，34B）的多模态LLMs在BLINK上的体现。并观察到一个悖论：虽然这些疑问关于人类来说很容易（平均准确率为95.70%），但对现无机器来说却极端艰巨。

7B和13B开源多模态大型言语模型（LLMs） 的平均准确率大概在35-42%之间，与随机猜想（38.09%）相似。

最好的开源模型是LLaVA-v1.6-34B ，到达了45.05%的准确率。

即使是 最新的大模型 ，如GPT-4V、Gemini Pro和Claude 3 OPUS，其准确率也仅为51.26%、45.72%和44.11%。它们的体现仅比随机猜想好13.17%、7.63%和6.02%，并且比人类的体现差44.44%、49.98%和51.59%。

值得留意的是，在某些义务上，如拼图、语义对应、多视角推理、对象定位和相对反射率，一些多模态LLMs甚至体现不如随机猜想。

BLINK展现大模型的失误范例

关于每项义务，该文章展现了LLaVAv1.6-34B、Qwen-VL-Max、Gemini Pro、GPT-4V和人类的选用。白色选项指的是正确答案。请留意，为了视觉成果，作者故意加大了标志，并且将一些图片做成插图以节俭空间。

关于智力检验，第三张图片是经过叠加第一张和第二张图片导致的。

BLINK试验剖析

（1）把图片转换成文字能否是处置多模态疑问的正确选用？

为了回答这个疑问，本文经常使用GPT-4V将图片转换为与义务有关的密集图片字幕，并经常使用基于文本的LLM来实现义务（Caption + LLM）。这种密集字幕应用言语形容了图像及视觉提醒的详细消息（例如，每个圆圈的位置）。

作者在BLINK、MMBench和MMMU上启动了试验。令人惊讶的是，Caption + LLM的性能在MMBench和MMMU上的结果远优于BLINK。这些结果标明，图像字幕携带了回答其余基准所需的大局部视觉消息。同时，BLINK须要的初级感知才干超出了通用字幕目前可到达的范围。

（2）视觉提醒（visual prompts）对多模态大模型能发生多大的影响？

本文剖析了BLINK中多个义务上圆圈大小和色彩的影响。

试验标明，视觉提醒或者对多模态LLM的性能发生严重影响，改良视觉提醒或提高模型对提醒变动的鲁棒性是未来钻研的有前景的方向。依据剖析，作者发现最佳圆圈大小依赖于详细义务，平均而言，10px的圆圈成果最好。雷同，关于一切义务来说，白色比灰色更好。

（3）传统计算机视觉专家模型能处置BLINK义务吗？

专家可以作为多模态LLM或者到达的下限的代理。这提醒了一个或者性，即多模态LLM或者因正确的数据和培训战略而在这些义务上取得停顿。

作者简介：

府星妤（Xingyu Fu） 是宾夕法尼亚大学NLP组的博士生，师从Dan Roth传授。她曾在亚马逊和微软实习。她的钻研重要专一于多模态大模型的感知和推理Reasoning。

胡雨石（Yushi Hu） 是华盛顿大学NLP组的博士生，师从Mari Ostendorf 和 Noah Smith 传授。与此同时，他还是艾伦人工自动钻研所（AI2）在校生钻研员，此前曾在谷歌和腾讯AI 实习。他的钻研重要专一于多模态大模型和基于反应的模型训练。

原文链接:

<<ACM MM24