将一切有用的消息整合到一张图片中大型多模态模型能够启动图片内的学习

2024-11-15

论文标题：

All in a Single Image: Large Multimodal Models are In-Image Learners

论文链接：

开源链接：

Learning

近年来，大言语模型取得了清楚的成功。虽然 GPT-4V 有弱小的文本了解和图片输入才干，但仍存在许多疑问。例如，在读取一张复杂图片时，不可齐全了解图像中出现的消息。在本文中，咱们提出了一种新的高低文学习机制——In-Image Learning，它将一切或者有用的消息，包括样例，视觉线索和思想链等等整合在一张图片上，有助于监禁 GPT-4V 的性能。

2. Visual-text interleaved in-context learning（VT-ICL）：虽然 T-ICL-Img 取得了清楚的成果，但在将视觉输入转换为文本形容时存在失落消息的危险。

为了防止这个疑问，可认为高低文学习预备交织的图文对，间接整合到大言语模型（LLMs）中。

在本文中，咱们将样例范本、视觉线索、思想链整合在一张图片上。将有价值的消息整合到繁多图像中提供了三个重要好处。

首先，它有效地传播了仅凭文字不可准确形容的复杂图像。其次，它准许消息被搁置在图像的任何位置，不像之前的高低文学习方法那样对消息的排序敏感。第三，仅经常使用一个图像作为输入缩小了对简短输入的需求，从而减轻了输入累赘并防止超出大模型（LMMs）的输入限度（留意：咱们没有蕴含任何揭示在测试样本上）。

为了却合这两种方法的优势，咱们经常使用 GPT-4V 作为一种选用器。首先揭示 GPT-4V 为给定数据示例的图像生成形容。而后让 GPT-4V 依据生成的形容与图像启动对比打分，范畴从 1 到 4 分。1 或 2 分标明图像难以形容，使其更适宜 In-Image Learning 方法，3 或 4 分标明图像易于形容，经常使用 VT-ICL 方法更适宜这个数据示例。

咱们在3个数据集上启动了测试，区分是：（1）MathVista；（2）HallusionBench；（3）VQA.

MathVista minitest 数据集上不同方法和模型上的测试结果如下：

HallusionBench 数据集上不同方法和模型上的测试结果如下： VQA 数据集在不同方法和模型上的测试结果如下：

咱们经常使用 MathVista 数据集上的随机 100 个数据启动消融试验，结果如下，说明 In-Image Learning 方法能激起 GPT-4V 的后劲。

此外，咱们为了摸索其余影响性能的起因。对分辨率比例、示例数量及测试例子位置等各种起因下，经常使用 VQA 数据集启动了测试，结果如下：

在本文中，咱们提出了 In-Image Learning 的方法，以增强 GPT-4V 的才干。In-Image Learning 将示范例子、视觉线索和指令结合到繁多图像中。

In-Image Learning 长于处置复杂图像，而 VT-ICL 更适宜那些可以随便经过文本形容的图像。为了在多模态义务中应用这两种方法的优势，咱们提议经常使用 GPT-4V 作为选用器，以确定给定义务中每个多模态数据示例的适当方法。

经过在 MathVista 和 Hallusionbench 上的片面试验，咱们展现了 In-Image Learning 在复杂推理义务中的有效性，以及在减轻言语幻觉和视觉错觉方面的作用。咱们还审核了图像分辨率和示范例子位置等起因的影响，进一步凸显了图像内学习的多配置性和后劲。

关于未来的上班，咱们方案在更多的文字难以形容的义务上验证 In-Image Learning 的有效性，以及经过训练的模式来增强 In-Image Learning。

原文链接:

<<梳理AI智能体运行从原理到应战

开源！斯坦福学者推出专为Android移动设施打造的大模型>>

将一切有用的消息整合到一张图片中 大型多模态模型能够启动图片内的学习

您可能还会对下面的文章感兴趣：

随便看看

将一切有用的消息整合到一张图片中大型多模态模型能够启动图片内的学习