将一切有用的消息整合到一张图片中 大型多模态模型能够启动图片内的学习

论文标题:

All in a Single Image: Large Multimodal Models are In-Image Learners

论文链接:

开源链接:

Learning

近年来,大言语模型取得了清楚的成功。虽然 GPT-4V 有弱小的文本了解和图片输入才干,但仍存在许多疑问。例如,在读取一张复杂图片时,不可齐全了解图像中出现的消息。在本文中,咱们提出了一种新的高低文学习机制——In-Image Learning,它将一切或者有用的消息,包括样例,视觉线索和思想链等等整合在一张图片上,有助于监禁 GPT-4V 的性能。

2. Visual-text interleaved in-context learning(VT-ICL):虽然 T-ICL-Img 取得了清楚的成果,但在将视觉输入转换为文本形容时存在失落消息的危险。

为了防止这个疑问,可认为高低文学习预备交织的图文对,间接整合到大言语模型(LLMs)中。

在本文中,咱们将样例范本、视觉线索、思想链整合在一张图片上。将有价值的消息整合到繁多图像中提供了三个重要好处。

首先,它有效地传播了仅凭文字不可准确形容的复杂图像。其次,它准许消息被搁置在图像的任何位置,不像之前的高低文学习方法那样对消息的排序敏感。第三,仅经常使用一个图像作为输入缩小了对简短输入的需求,从而减轻了输入累赘并防止超出大模型(LMMs)的输入限度(留意:咱们没有蕴含任何揭示在测试样本上)。

为了却合这两种方法的优势,咱们经常使用 GPT-4V 作为一种选用器。首先揭示 GPT-4V 为给定数据示例的图像生成形容。而后让 GPT-4V 依据生成的形容与图像启动对比打分,范畴从 1 到 4 分。1 或 2 分标明图像难以形容,使其更适宜 In-Image Learning 方法,3 或 4 分标明图像易于形容,经常使用 VT-ICL 方法更适宜这个数据示例。

咱们在3个数据集上启动了测试,区分是:(1)MathVista;(2)HallusionBench;(3)VQA.

MathVista minitest 数据集上不同方法和模型上的测试结果如下:

HallusionBench 数据集上不同方法和模型上的测试结果如下: VQA 数据集在不同方法和模型上的测试结果如下:

咱们经常使用 MathVista 数据集上的随机 100 个数据启动消融试验,结果如下,说明 In-Image Learning 方法能激起 GPT-4V 的后劲。

此外,咱们为了摸索其余影响性能的起因。对分辨率比例、示例数量及测试例子位置等各种起因下,经常使用 VQA 数据集启动了测试,结果如下:

在本文中,咱们提出了 In-Image Learning 的方法,以增强 GPT-4V 的才干。In-Image Learning 将示范例子、视觉线索和指令结合到繁多图像中。

In-Image Learning 长于处置复杂图像,而 VT-ICL 更适宜那些可以随便经过文本形容的图像。为了在多模态义务中应用这两种方法的优势,咱们提议经常使用 GPT-4V 作为选用器,以确定给定义务中每个多模态数据示例的适当方法。

经过在 MathVista 和 Hallusionbench 上的片面试验,咱们展现了 In-Image Learning 在复杂推理义务中的有效性,以及在减轻言语幻觉和视觉错觉方面的作用。咱们还审核了图像分辨率和示范例子位置等起因的影响,进一步凸显了图像内学习的多配置性和后劲。

关于未来的上班,咱们方案在更多的文字难以形容的义务上验证 In-Image Learning 的有效性,以及经过训练的模式来增强 In-Image Learning。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: