视觉言语模型能够 看见 吗
来自奥本大学和阿尔伯塔大学的钻研人员发现,最先进的具备视觉才干的大型言语模型(VLMs)无了解触及基本几何状态的空间消息方面体现得十分蹩脚,例如判别两个圆能否堆叠。他们提出了一个名为BlindTest的新基准测试,包括7项便捷义务,这些义务在互联网入地然言语中不太或者有现成答案,以测试VLM像人类一样“看见”图像的才干。
现有的VLM基准(如MMMU和ChartQA)涵盖了宽泛的主题,但输入图像并非总是回答疑问所必须的,即答案或者仅从文本疑问和答案选用中推断进去,或由模型从互联网规模的训练中记住。出于这个差距并遭到验光师对人类启动视觉敏锐度测试的启示,作者设计了7个触及二维几何原型的低级视觉义务。而后他们测试了在现有多模态视觉基准中排名最高的四个VLM——GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet。关于每个义务,他们用两个语义下同等得不同疑问揭示VLM。义务和结果如下:
1、计数线的交叉点
在150张蕴含两条有色彩的图像中,它们恰恰在0、1或2点相交,最佳准确率是77.33%(Sonnet-3.5),最差是48.67%(GPT-4o)。
2、两个圆堆叠或接触
在672张两个大小相等的圆堆叠、相切或分别(具备方向和大小变动)的图像中,最佳准确率是92.78%(Gemini-1.5),最差准确率是72.69%(依然是GPT-4o)。此外,当两个圆靠得很近时,功能往往会降低。
3、字符串中的带圆圈字母
一个白色椭圆叠加在字符串中的某个字母上。作者测试了三个字符串——Acknowledgement、Subdermatoglyphic和一个随机字符串tHyUiKaRbNqWeOpXcZvM。Gemini-1.5(92.81%准确率)和Sonnet-3.5(89.22%准确率)比GPT-4o和Sonnet-3高出近20个百分点。除了GPT-4o,一切模型在两个英文单词上的体现略优于随机字符串,这标明知道单词或者有助于VLM做出更好的猜想。
4、计数堆叠状态
N个堆叠的、雷同大小的圆(N=5,6,7,8,9)像奥运会标记一样陈列成两排。功能范围从20.83%(Gemini-1.5)到44.16%(Sonnet-3.5)。重复相反陈列的五边形,功能差异更大,从9.16%(Gemini-1.5)到75.83%(Sonnet-3.5)。一切四个模型在计数5个圆时都100%准确,但在计数5个五边形时体现不佳(除Sonnet-3.5外)。
5、计数嵌套正方形
2到5个正方形嵌套在一同,每个状态齐全在另一个状态外部。Sonnet-3.5的最佳准确率为87.5%。GPT-4o和Sonnet-3在计数仅2或3个正方形时就体现不佳。
6、计算网格的行数和列数
VLM很难计算空网格中确实切行数和列数,最好的模型(Sonnet-3.5)准确率为59.84%,其他模型的准确率为25-26%。但是,在每个单元格中参与一个单词清楚提高了一切模型的功能。例如,GPT-4o的准确率从26%提高到53%,提高了一倍多。
7、跟踪繁多色彩的门路
最后一个义务需要模型计算简化地铁图中两站之间共同色彩门路的数量。“令人震惊”的是,作者发现即使只要一条门路时,也没有模型到达100%准确率。随着地图复杂性的参与,大少数VLM的体现更差。
总体而言,BlindTest基准测试初次为VLM提供了低级视觉健全性审核。它们在这些便捷(对人类而言)的无需任何先验常识的义务上的体现令人绝望,与它们在现有视觉基准上的令人印象深入的体现构成对比,这些基准存在数据走漏疑问。处置VLM的这些局限性或者是一项不小的应战,并且或者有助于处置多模态模型已知的其他视觉毛病,如了解物体的方向。