中科大等异常发现 大模型不看图也能正确回答视觉疑问!

大模型不看图,竟也能正确回答视觉疑问?!

中科大、香港中文大学、上海AI Lab的钻研团队团队异常发现了这一新奇现象。

他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不论是闭源还是开源,言语模型还是多模态,居然只依据在多模态基准MMMU测试中的疑问和选项文本,就能取得不错的效果。

△蓝色示意能看到图的LVLMs,橘色和绿色区分示意只接纳疑问和选项文本的LLMs和LVLMs

(LLM:大言语模型;LVLMs:多模态大模型)不知道的还以为是大模型的暗藏技艺被发现了。

有网友收回灵魂拷问: 咱们评价多模态模型的方法正确吗?

这一结果也激发了钻研者们的猎奇,于是他们选择对此倒退进一步探求。

大模型暗藏技艺被发现?

针对现有的评价样本和评价环节,钻研人员以为形成这种现象的两个重要疑问。

第一,一些多模态评价样本缺少对视觉内容的依赖性。

这种疑问反映了现有的benchmark中的不正当之处。这个疑问包括了两种状况:

一种是有些评价样本的答案可以被包括在了标题和选项中从而免去了看图的必要。

比如会有这种疑问,这个圆形土圈是什么状态?

另外一种则是有些评价样本可以间接被言语大模型应用嵌入的丰盛环球常识启动解答而无需依赖图片。

比如下图中的疑问:内布拉斯加州的首府是什么?

第二,现有评价环节未思考言语和多模态大模型训练环节中的数据暴露疑问。

LVLM理论由一个vision encoder,一个言语模型基座,以及一个视觉-言语衔接件组成。而且现有的多模态benchmark中有少量的评价样本是从单模态的文本语料中转化上来的(比如从考试标题中转化而来)。

因此假设大言语模型的训练数据中有意间暴露了多模态benchmark中转化不充沛的评价样本,就会影响LVLMs之间的偏心比拟。

为了定量观察大言语模型中宽泛存在的暴露现象,钻研者们驳回了22个大言语模型在6个地下benchmark上启动评价。

这些大言语模型包括了2个闭源模型(GPT4-Turbo以及GeminiPro)和20个大小、架构各异的开源模型(比如Qwen系列,LLaMA2系列,Baichuan系列,Mixtral-8x7B等),并且经常使用了2-shot推理战略来缩小拒绝回答的状况以及对齐回答的格局。

结果看到,闭源模型GeminiPro和开源模型Qwen1.5-72B在极具应战性的MMMU基准上可以区分取得42.7和42.4的惊人效果,一度迫近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多模态模型在能看到图片状况下的体现。

进一步的,他们还定量观察多模态大模型在训练环节中的数据暴露状况:屏蔽了LVLM的图片输入从而只依据文本疑问和选项来启动评价(标志为LVLM-text)。

可以看到,像Sphinx-X-MoE和Monkey-Chat经过多模态训练后在不看图的状况下相比原始大模型在MMMU基准上可以区分优化惊人的17.9和12.6,而它们即使进一步在看到图片的状况下也只能取得1.2和4.7的功能优化。

GPT-4在新基准上没有及格

为了处置上述疑问从而启动更公温和准确的评价,钻研者们设计了一个多模态评价基准——

包括了1,500个具备视觉依赖性的高品质评价样本,涵盖了样本平衡的粗略感知、精细感知,实例推理、逻辑推理、迷信技术、数学这六个外围才干以及18个具体的才干维度。

随同着MMStar benchmark,作者们还提出了multi-modal gain (MG)和 multi-modal leakage (ML)两个评价目的来反映出LVLMs在多模训练环节中的实在功能增益和数据暴露水平。

随后,为了测验所提出的MMStar品质,他们启动了三项评价。

1)用22个大言语模型只依据MMStar中的疑问和选型启动了评价,结果显示,他们的体现都凑近于随机选用,这标明MMStar在现有大模型训练语料中有着很少的数据暴露。

2)评价16个多模态模型在MMStar上的功能。

高分辨率设置下的GPT4V取得了57.1的最高平均功能(但还是没有及格)。

开源模型中InternLM-Xcomposer2取得了平均功能为55.4的好效果,LLaVA-Next在数学维度上的体现要略优于GPT4V和GeminiPro-Vision。

值得留意的是,没有多模态大模型能够在精细感知(FP),逻辑推理(LR),迷信技术(ST)以及数学(MA)上及格。

3)用16个LVLMs在6个地下benchmark以及所提的MMStar上对MG和ML目的启动了宽泛评价。

可以看到,而MMStar展现出了起码的平均数据走漏水平。

钻研团队置信,这种跨模型间的ML目的对社区之后测验新开发的多模态benchmarks也是有益的。

论文链接:​​ ​​ ​​名目链接:​​ ​​ ​

代码链接:​​ ​​ ​

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: