多模态大型言语模型 MLLM 综述

2024-11-15

摘要—最近，以GPT-4V为代表的多模态大型言语模型（MLLM）已成为新兴的钻研热点，它经常使用弱小的大型言语模型（LLMs）作为“大脑”来执行多模态义务。MLLM出乎预料的涌现才干，如基于图像编写故事和无需OCR的数学推理，是传统多模态方法中稀有的，这标明了一条通往人工通用智能的潜在门路。为此，学术界和工业界都努力于开发能够与GPT-4V竞争甚至逾越的MLLM，以惊人的速度推进钻研的极限。在本文中，咱们旨在追踪并总结MLLM的最新停顿。首先，咱们引见了MLLM的基本公式，并概述了与其相关的概念，包括架构、训练战略和数据，以及评价。然后，咱们引见了关于如何扩展MLLM以支持更细粒度、模态、言语和场景的钻研主题。咱们继续讨论多模态幻觉和扩展技术，包括多模态ICL（M-ICL）、多模态CoT（M-CoT）和LLM辅佐视觉推理（LAVR）。为了完结本文，咱们讨论了现有的应战并指出了有宿愿的钻研方向。鉴于MLLM时代才刚刚开局，咱们将始终更新这份综述，并宿愿它能激起更多的钻研。相关的GitHub链接搜集了最新的论文，可在找到。

（注释："无需OCR的数学推理"指的是系统能够间接了解和处置数学内容，而无需首先经过光学字符识别（Optical Character Recognition，OCR）技术将手写或印刷的数学符号转换为机器可读的格局。OCR是一种将图像中的文本转换为机器编码文本的技术，它宽泛运行于将纸质文档数字化。但是，OCR在处置复杂的数学符号和公式时或者会遇到艰巨，由于这些符号的结构和状态或者与普通字母数字字符不同，OCR算法或者难以准确识别。模型能够跳过将数学内容转换为文本的步骤，间接在视觉层面上处置数学消息，这可以提高处置速度和准确性，并且增加因OCR失误而造成的疑问。

多模态高低文学习（Multimodal In-Context Learning，M-ICL）结合了人造言语处置（NLP）和计算机视觉（CV）等畛域的常识，使模型能够了解和处置蕴含多种类型消息（如文本、图像、音频等）的数据。高低文学习是指模型应用给定高低文中的消息来指点其学习和推理环节。在M-ICL中，这通常象征着模型会思索输入的多模态消息，以及它们之间的相关和高低文，来生成输入或做出决策。）

1 引言

近年来，大型言语模型（LLMs）取得了清楚的停顿[1]、[2]、[3]、[4]、[5]。经过扩展数据规模和模型规模，这些LLMs展现出了特殊的涌现才干，通常包括指令追随[5]、[6]、高低文学习（ICL）[7]和思想链（CoT）[8]。虽然LLMs在大少数人造言语处置（NLP）义务上展现了惊人的零样本/少样本推理性能，但它们实质上对视觉是“自觉”的，由于它们只能了解团圆的文本。同时， 大型视觉模型（LVMs） 可以明晰地“看”[9]、[10]、[11]、[12]，但通常在推理上落后。

鉴于这种互补性，LLM和LVM相互接近，引领了 多模态大型言语模型（MLLM） 的新畛域。正式来说，它指的是 基于LLM的模型，具有接纳、推理和输入多模态消息的才干 。在MLLM之前，曾经有很多上班努力于多模态性，可以分为 判别性[13]、[14]、[15]和生成性[16]、[17] 、[18]范式。CLIP[13]作为前者的代表，将视觉和文本消息投影到一致的表示空间，为下游多模态义务搭建了桥梁。相比之下，OFA[16]是后者的代表，它以序列到序列的方式一致多模态义务。依据序列操作，MLLM可以被归类为后者，但与传统对应物相比，它体现出两个代表性特色：(1)MLLM基于具有十亿级参数规模的LLM，这在以前的模型中是无法用的。

(2)MLLM经常使用新的训练范式来监禁其所有后劲，例如经常使用多模态指令调整[19]、[20]来激励模型遵照新的指令。

仰仗这两个特色，MLLM展现出新的才干，例如基于图像编写网站代码[21]，了解梗的深层含意[22]，以及无需OCR的数学推理[23]。

自从GPT-4[3]颁布以来，由于它展现的惊人多模态示例，MLLMs的钻研热潮始终。极速开展是由学术界和工业界的努力推进的。MLLMs的初步钻研集中在基于文本提醒和图像[20]、视频[25]、音频[27]的文本内容生成上。随后的上班曾经扩展了才干或经常使用场景，包括：(1)更好的粒度支持。开发了更精细的对用户提醒的控制，以支持经过框[28]或单击[29]特定对象的特定区域。(2)增强的输入和输入模态支持[30]、[31]，如图像、视频、音频和点云。除了输入，像NExT-GPT[32]这样的名目进一步支持不同模态的输入。(3)改良的言语支持。曾经做出了努力，将MLLMs的成功扩展到其余言语（例如中文）上，这些言语的训练语料相对有限[33]、[34]。(4)扩展到更多畛域和经常使用场景。一些钻研将MLLMs的弱小才干转移到其余畛域，如医学图像了解[35]、[36]、[37]和文档解析[38]、[39]、[40]。此外，开发了多模态代理以协助理想环球交互，例如具身代理[41]、[42]和GUI代理[43]、[44]、[45]。图1展现了MLLM的时期线。

图1：代表性多模态大型言语模型（MLLMs）的时期线。咱们正在见证这一畛域的迅速开展。更多的上班可以在咱们颁布的GitHub页面上找到，该页面每天都在更新。

鉴于该畛域的极速开展和有宿愿的结果，咱们编写了这份综述，为钻研人员提供了对MLLMs的基本思想、关键方法和停顿的掌握。请留意，咱们关键关注视觉和言语模态，但也包括触及视频和音频等其余模态的上班。详细来说，咱们涵盖了MLLMs最关键的方面，并提供相应的总结，并开明了一个将实时更新的GitHub页面。据咱们所知，这是关于MLLM的第一份综述。

综述的后续部分结构如下：综述首先片面回忆了MLLMs的基本方面，包括(1)干流架构（§2）；(2)完整的训练战略和数据配方（§3）；(3)经常出现的性能评价通常（§4）。然后，咱们深化讨论了一些关于MLLMs的关键话题，每个话题都集中在一个关键疑问上：(1)哪些方面可以进一步改良或扩展（§5）？(2)如何缓解多模态幻觉疑问（§6）？综述继续引见了三种关键技术（§7），每种技术都专门用于特定场景：MICL（§7.1）是一种有效的技术，通常在推理阶段经常使用，以提高少样本色能。另一个关键的技术是M-CoT（§7.2），通罕用于复杂的推理义务。然后，咱们概述了一个普通性的想法，开发基于LLM的系统来处置复合推理义务或处置经常出现用户查问（§7.3）。最后，咱们以总结和潜在钻研方向完结咱们的综述。

2 架构

一个典型的多模态大型言语模型（MLLM）可以形象为三个模块，即 预训练的模态编码器、预训练的大型言语模型（LLM），以及衔接它们的模态接口 。类比于人类，模态编码器如图像/音频，编码器是接纳和预处置光学/声学信号的人类眼睛/耳朵，而LLM就像了解并推理处置信号的人类大脑。在两者之间，模态接口用于对齐不同的模态。一些MLLM还包括一个生成器来输入除文本之外的其余模态。架构的图表在图2中绘制。在这一部分，咱们依次引见每个模块。

图2：典型多模态大型言语模型（MLLM）架构的示用意。它包括 一个编码器、一个衔接器和一个大型言语模型（LLM） 。可选的生成器可以附加到LLM上，以生成除文本之外的更多模态。编码器接纳图像、音频或视频并输入特色，这些特色由衔接器处置，以便LLM能更好地理解。大抵有三种类型的衔接器：基于投影的、基于查问的和基于融合的衔接器。前两种类型驳回令牌级融合，将特色处置成令牌，与文本令牌一同发送，而最后一种类型在LLM外部成功了特色级融合。

（注释：一个典型的多模态大型言语模型（MLLM）架构的组成部分和它们之间的上班流程。

图片上半部分：

1. 编码器（Encoder）：编码器是处置输入数据的组件，它可以接纳多种模态的输入，如图像、音频或视频。编码器的义务是将这些原始的多模态数据转换成模型可以了解的特色表示。

2. 衔接器（Connector）：衔接器是衔接编码器输入和大型言语模型（LLM）的桥梁。它的关键作用是将编码器输入的特色进一步处置，使其能够与LLM的输入格局兼容，从而让LLM能够更好地理解这些特色。

3. 大型言语模型（LLM）：LLM是MLLM的外围，通常是一个预训练的言语模型，担任处置和生成文本。它能够依据输入的文本和其余模态的特色，启动言语了解、生成或推理等义务。

4. 生成器（Generator）（可选）：生成器是一个可选组件，它可以附加到LLM上，用于生成除文本之外的其余模态输入，如图像、音频或视频。

图片下半部分，衔接器关键分为三种类型：

- 基于投影的衔接器（Projection-based）：这种衔接器将编码器输入的特色投影到与LLM的词嵌入相反的维度空间，使得特色可以间接与文本令牌一同被LLM处置。

- 基于查问的衔接器（Query-based）：这种衔接器经常使用一组可学习的查问令牌来灵活地从编码器输入的特色中提敞开息。

- 基于融合的衔接器（Fusion-based）：这种衔接器在LLM外部成功特色级别的融合，准许文本特色和视觉特色在模型外部启动更深化的交互和整合。

整个架构的目的是成功对多模态输入的有效处置和了解，以及在此基础上启动的言语生成或推理义务。）

2.1 模态编码器

编码器将原始消息（如图像或音频）紧缩成更紧凑的表示方式。与其从头开局训练，更经常出现的方法是经常使用曾经与其余模态对齐的预训练编码器。例如，CLIP [13]结合了一个经过在图像-文本对上大规模预训练而与文本语义对齐的视觉编码器。因此，经常使用这种最后曾经预对齐的编码器与LLM经过对齐预训练（见§3.1）对齐更容易。

表1：罕用图像编码器的总结。

罕用的图像编码器系列在表1中总结。除了普通的CLIP图像编码器[13]，一些上班还探求经常使用其余变体。例如，MiniGPT-4 [21]驳回了EVA-CLIP [47]、[48]（ViT-G/14）编码器，该编码器经过改良的训练技术启动训练。相比之下，Osprey [29]引入了基于卷积的ConvNext-L编码器[46]以应用更高分辨率和多级特色。一些上班还探求了无编码器架构。例如，Fuyu-8b [49]的图像块在发送到LLM之前间接被投影。因此，模型人造支持灵敏的图像分辨率输入。在选用编码器时，人们通常会思索分辨率、参数大小和预训练语料库等要素。

值得留意的是，许多上班曾经经过实证验证，经常使用更高分辨率可以成功清楚的性能优化[34]、[50]、[51]、[52]。扩展输入分辨率的方法可以分为间接缩放和块宰割方法。间接缩放的方式将更高分辨率的图像输入到编码器，通常触及进一步伐整编码器[34]或用更高分辨率的预训练编码器交流[50]。相似地，CogAgent [44]经常使用双编码器机制，其中两个编码器区分处置高分辨率和低分辨率图像。经过交叉留意力将高分辨率特色注入到低分辨率分支中。块宰割方法将高分辨率图像切成块，偏重用低分辨率编码器。例如，Monkey [51]和SPHINX [53]将大图像分红较小的块，并将子图像与下采样的高分辨率图像一同发送到图像编码器，其中子图像和低分辨率图像区分捕捉部分和全局特色。相比之下，参数大小和训练数据组成与输入分辨率相比不那么关键，这是经过实证钻研发现的[52]。

其余模态也有相似的编码器。例如，Pengi [27]经常使用CLAP [54]模型作为音频编码器。ImageBind-LLM [30]经常使用ImageBind [55]编码器，支持编码图像、文本、音频、深度、热成像和惯性测量单元（IMU）数据。装备弱小的编码器，ImageBind-LLM可以照应多种模态的输入。

2.2 预训练LLM

与其从头开局训练一个LLM，更有效和适用的方法是从一个预训练的模型开局。经过在网络语料库上启动渺小的预训练，LLM曾经嵌入了丰盛的环球常识，并展现了弱小的泛化和推理才干。

咱们在表2中总结了罕用的和地下可用的LLM。值得留意的是，大少数LLM属于因果解码器类别，遵照GPT-3 [7]。其中，FlanT5 [56]系列是在BLIP-2 [59]和InstructBLIP [60]等上班中经常使用的相对早期的LLM。LLaMA系列[5]、[57]和Vicuna家族[4]是吸引了少量学术关注的代表性开源LLM。由于这两个LLM关键在英文语料库上预训练，它们在多言语支持上遭到限度，例如中文。相比之下，Qwen [58]是一个支持中文和英文的双语LLM。

表2：罕用开源大型言语模型的总结。en、zh、fr和de区分代表英语、中文、法语和德语。

值得留意的是，扩展LLM的参数大小也会带来额外的收益，相似于参与输入分辨率的状况。详细来说，Liu等人[50]、[61]发现，将LLM从7B便捷扩展到13B在各种基准测试上带来了片面的改良。此外，当经常使用34B LLM时，模型显示出在训练时期仅经常使用英文多模态数据时的零样本中文才干。Lu等人[62]经过将LLM从13B扩展到35B和65B/70B，发现更大的模型大小在专门为MLLM设计的基准测试上带来了分歧的收益。

也有一些上班经常使用较小的LLM以便于在移动设施上部署。例如，MobileVLM系列[63]、[64]经常使用增加的LLaMA [5]（称为MobileLLaMA 1.4B/2.7B），实如今移动处置器上的高效推理。

最近，对LLM的专家混合（MoE）架构的探求惹起了越来越多的关注[65]、[66]、[67]。与密集模型相比，稠密架构经过选用性激活参数，成功了在不参与计算老本的状况下扩展总参数大小的才干。实证上，MM1 [52]和MoE-LLaVA [68]发现MoE实如今简直一切基准测试上的性能优于密集对应物。

2.3 模态接口

由于LLM只能感知文本，因此有必要弥合人造言语与其余模态之间的差距。但是，以端到端的方式训练一个大型多模态模型将消耗渺小。更实践的方法是在预训练的视觉编码器和LLM之间引入一个可学习的衔接器。另一种方法是应用专家模型，如图像字幕模型，将图像翻译成言语，然后将言语发送到LLM。

可学习的衔接器 。它担任弥合不同模态之间的差距。详细来说，该模块将消息投影到LLM可以高效了解的空间中。依据多模态消息的融合方式，大抵有两种成功此类接口的方法，即令牌级和特色级融合。

关于令牌级融合，编码器输入的特色被转换为令牌，并与文本令牌衔接，然后发送到LLM。一个经常出现且可行的处置方案是应用一组可学习的查问令牌以基于查问的方式提敞开息[69]，这首先在BLIP-2 [59]中成功，随后被多种上班[26]、[60]、[70]承袭。这种Q-Former格调的方法是将视觉令牌紧缩成较少数量的表示向量。相反，一些方法便捷地经常使用基于MLP的接口来弥合模态差距[20]、[37]、[71]、[72]。例如，LLaVA系列驳回一个/两个线性MLP[20]、[50]来投影视觉令牌，并将特色维度与词嵌入对齐。

在相关话题上，MM1 [52]对衔接器的设计选用启动了消融，并发现关于令牌级融合，模态适配器的类型远不如视觉令牌的数量和输入分辨率关键。虽然如此，Zeng等人[73]比拟了令牌级和特色级融合的性能，并实证提醒了令牌级融合变体在VQA基准测试中的性能更好。关于性能差距，作者倡导交叉留意力模型或者须要更复杂的超参数搜查环节才干到达可比的性能。

作为另一条线，特色级融合拔出额外的模块，使文本特色和视觉特色之间能够启动深度交互和融合。例如，Flamingo [74]在LLM的解冻Transformer层之间拔出额外的交叉留意力层，从而用外部视觉线索增强言语特色。相似地，CogVLM [75]在每个Transformer层中拔出一个视觉专家模块，以成功视觉和言语特色之间的双重交互和融合。为了更好的性能，引入模块的QKV权重矩阵是从预训练的LLM初始化的。相似地，LLaMA-Adapter [76]在Transformer层中引入可学习的提醒。这些提醒首先嵌入视觉常识，然后作为前缀与文本特色衔接。

在参数大小方面，可学习的接口通常与编码器和LLM相比只占一小部分。以Qwen-VL [34]为例，Q-Former的参数大小约为0.08B，占整个参数的不到1%，而编码器和LLM区分占约19.8%（1.9B）和80.2%（7.7B）。

专家模型。 除了可学习的接口外，经常使用专家模型，如图像字幕模型，也是弥合模态差距的一种可行方式[77]、[78]、[79]、[80]。基本思想是在不训练的状况下将多模态输入转换为言语。经过这种方式，大型言语模型（LLMs）可以经过转换后的言语了解多模态性。例如，VideoChat-Text[25]经常使用预训练的视觉模型提取举措等视觉消息，并经常使用语音识别模型丰盛形容。虽然经常使用专家模型的方法很间接，但或者不如驳回可学习的接口那样灵敏。将外来模态转换为文本会造成消息失落。例如，将视频转换为文本形容会歪曲空间-时期相关[25]。

3 训练战略和数据

一个成熟的多模态大型言语模型（MLLM）阅历三个训练阶段，即预训练、指令调整和对齐调整。每个训练阶段须要不同类型的数据，并成功不同的目的。在本节中，咱们讨论训练目的，以及每个训练阶段的数据搜集和特点。

3.1 预训练

3.1.1 训练细节

作为第一阶段的训练，预训练关键旨在对齐不同的模态并学习多模态环球常识。预训练阶段通常触及大规模文本配对数据，例如字幕数据。通常，字幕对以人造言语句子形容图像/音频/视频。

这里，咱们思索一个经常出现的场景，即MLLMs被训练以对齐视觉与文本。如表3所示，给定一张图像，模型被训练以自回归方式预测图像的字幕，遵照规范的交叉熵损失。预训练的一个经常出现方法是坚持预训练模块（例如视觉编码器和LLMs）固定，并训练一个可学习的接口[20]、[35]、[72]。这个想法是在不失落预训练常识的状况下对齐不同的模态。一些方法[34]、[81]、[82]也解除了更多模块（例如视觉编码器）的解冻，以使更多的可训练参数用于对齐。须要留意的是，训练方案与数据品质亲密相关。

表3：一个用于结构化题目数据的简化模板。{<image>} 是视觉标志的占位符，{caption} 是图片的题目。请留意，只要标志为白色的部分用于损失计算。

关于冗长和喧闹的字幕数据，可以驳回较低分辨率（例如224）以放慢训练环节，而关于更长和更清洁的数据，最好经常使用更高的分辨率（例如448或更高）以增加幻觉。此外，ShareGPT4V[83]发现，在预训练阶段经常使用高品质的字幕数据时，解锁视觉编码器促成了更好的对齐。

3.1.2 数据

预训练数据关键有两个目的，即(1)对齐不同的模态和(2)提供环球常识。预训练语料库可以依据粒度分为粗粒度和细粒度数据，咱们将依次引见。咱们在表4中总结了罕用的预训练数据集。

粗粒度字幕数据有一些独特的典型特色：(1)数据量大，由于样本通常起源于互联网。(2)由于网络爬取的个性，字幕通常冗长且喧闹，由于它们来自网络图像的alt文本。这些数据可以经过智能工具启动荡涤和过滤，例如，经常使用CLIP[13]模型过滤掉图像-文本对的相似度低于预约义阈值的样本。接上去，咱们引见一些代表性的粗粒度数据集。

CC-3M[84]是一个蕴含3.3M图像-字幕对的网络规模字幕数据集，原始形容起源于与图像关联的alt文本。作者设计了一个复杂的数据荡涤流程：(1)关于图像，过滤掉不适当的内容或纵横比的图像。(2)关于文本，经常使用NLP工具失掉文本注释，并依据设计好的启示式规定过滤样本。(3)关于图像-文本对，经过火类器给图像调配标签。假设文本注释与图像标签不堆叠，相应的样本将被摈弃。CC-12M[85]是CC-3M的后续上班，蕴含12.4M图像-字幕对。与之前的上班相比，CC-12M放宽并简化了数据搜集流程，因此搜集了更多的数据。

SBU字幕 [86]。它是一个蕴含1M图像-文本对的带字幕的照片数据集，图像和形容来自Flickr。详细来说，经过经常使用少量查问词查问Flickr网站取得一组初始图像。附加在图像上的形容因此作为字幕。然后，为确保形容与图像相关，保管的图像满足这些要求：(1)图像的形容长度令人满意，由观察选择。(2)图像的形容至少蕴含预约义词汇列表中的2个词和通常暗示空间相关的命题词（例如“on”，“under”）。

这个系列是大型网络规模数据集，图像从互联网上爬取，并将相关的alt文本作为字幕。为了过滤图像-文本对，执行了以下步骤：(1)文本长渡过短或图像大小太小或太大的被摈弃。(2)基于URL的图像去重。(3)提取CLIP[13]嵌入图像和文本，并经常使用嵌入摈弃或者的合法内容以及嵌入之间余弦相似度低的图像-文本对。在这里，咱们简明总结一些典型的变体：

• LAION-5B[87]：这是一个钻研用数据集，蕴含5.85B图像-文本对。数据集是多言语的，有一个2B的英语子集。

• LAION-COCO[88]：它蕴含从LAION-5B的英语子集提取的600M图像。字幕是分解的，经常使用BLIP[89]生成各种图像字幕，并经常使用CLIP[13]选用最适宜图像的字幕。

[90]。它蕴含747M图像-文本对，这些是从CommonCrawl中提取的。为了数据过滤，作者设计了以下战略：(1)关于图像，过滤掉不适当的大小、内容、格局或纵横比的图像。此外，基于pHash值过滤图像，以去除与公共数据集（如ImageNet和MS-COCO）堆叠的图像。(2)关于文本，只保管长度令人满意、名词方式和适当词汇的英文文本。将删除句子前后的空白，并将延续的空白字符交流为单个空白。此外，出现超越10次的文本（例如“image for”）将被摈弃。(3)关于图像-文本对，基于（图像pHash，文本）元组去除重复样本。

最近，更多上班[83]、[91]、[92]探求了经过提醒弱小的MLLMs（例如GPT-4V）生成高品质的细粒度数据。与粗粒度数据相比，这些数据通常蕴含更长、更准确的图像形容，从而成功更细粒度的图像和文本模态之间的对齐。但是，由于这种方法通常须要调用商业用途的MLLMs，老本更高，数据量相对较小。值得留意的是，ShareGPT4V[83]经过首先经常使用GPT-4V生成的100K数据训练字幕生成器，然后经常使用预训练的字幕生成器将数据量扩展到1.2M，成功了平衡。

3.2 指令微调

3.2.1 引见

指令指的是对义务的形容。直观地说，指令微调旨在教模型更好地理解用户的指令并成功所需的义务。经过这种方式微调，LLM（大型言语模型）可以经过遵照新指令来泛化到未见过的义务，从而优化零样本色能。这个便捷而有效的想法引发了后续NLP上班的成功，例如ChatGPT [2]、InstructGPT [95]、FLAN [19]、[56] 和 OPT-IML [96]。指令微调与相关典型学习范式的比拟如图3所示。监视微调方法通常须要少量特定义务的数据来训练特定义务的模型。提醒工程方法增加了对大规模数据的依赖，可以经过提醒工程成功专门义务。在这种状况下，虽然少样本色能有所提高，但零样本色能依然相当普通[7]。与此不同，指令微调学习如何泛化到未见过的义务，而不是像其余两种方法那样拟合特定义务。此外，指令微调与多义务提醒高度相关[97]。

图3：三种典型学习范式的比拟。图像来自[19]。

在本节中，咱们形容了指令样本的格局、训练目的、搜集指令数据的典型方式以及罕用的数据集。

3.2.2 训练细节

一个多模态指令样本通常包括一个可选的指令和一个输入输入对。指令通常是形容义务的人造言语句子，例如，“详细形容这张图片。”输入可以是图文对，例如VQA义务[99]，也可以仅是图片，例如图像题目义务[100]。输入是依据输入条件生成的指令答案。指令模板是灵敏的，可以依据人工设计启动调整[20]、[25]、[98]，如表5所示。须要留意的是，指令模板也可以推行到多轮对话的状况[20]、[37]、[71]、[98]。

表5：结构化多模态指令数据的简化模板。<instruction>是义务的文本形容。{<image>, <text>}和<output>是数据样本的输入和输入。请留意，关于某些数据集，输入中的<text>或者会缺失，例如图像题目数据集仅有<image>。该示例改编自[98]。

正式地说，一个多模态指令样本可以表示为三元组方式，即 (I, M, R)，其中 I、M、R 区分表示指令、多模态输入和实在照应。MLLM 在给定指令和多模态输入的状况下预测一个答案：

A = f(I, M;θ)

这里，A 表示预测的答案，θ 是模型的参数。训练目的通常是用于训练LLM的原始自回归目的[20]、[37]、[71]、[101]，基于此，MLLM 被激励预测照应的下一个标志。目的可以表示为：

其中 N 是实在照应的长度。

3.2.3 数据搜集

由于指令数据在格局上愈加灵敏，义务方式多样，通常搜集数据样本更为辣手且老本更高。在本节中，咱们总结了三种典型的大规模搜集指令数据的方法，即数据适配、自指令和数据混合。

数据适配 。义务特定的数据集是高品质数据的丰盛起源。因此，许多上班[60]、[70]、[76]、[82]、[101]、[102]、[103]、[104] 应用现有的高品质数据集来构建指令格局化的数据集。以VQA数据集的转换为例，原始样本是一个输入输入对，其中输入包括一张图片和一个人造言语疑问，输入是依据图片的文本答案。这些数据集的输入输入对人造地构成了指令样本的多模态输入和照应（见§3.2.2）。指令，即义务的形容，可以来自人工设计或在GPT的协助下半智能生成。详细来说，一些上班[21]、[35]、[60]、[70]、[102]、[105] 手工制造了候选指令池，并在训练时期从中抽取一个。咱们提供了VQA数据集指令模板的示例，如表6所示。其余上班则手动设计了一些种子指令，并经常使用这些指令来提醒GPT生成更多指令[25]、[82]、[98]。须要留意的是，由于现有的VQA和题目数据集的答案通常冗长，间接经常使用这些数据集启动指令微调或者会限度MLLMs的输入长度。有两种经常出现战略来处置这个疑问。第一种是明白在指令中指定。例如，ChatBridge [104] 明白申明关于冗长答案数据经常使用短小繁复，以及关于传统粗粒度题目数据经常使用一个句子和单个句子。第二种是延伸现有答案的长度。例如，M3IT [105] 提议经过提醒ChatGPT经常使用原始疑问、答案和图像的高低文消息（例如题目和OCR）来从新措辞原始答案。

表6：VQA数据集的指令模板，援用自[60]。<Image> 和 {Question} 区分是原始VQA数据集中的图像和疑问。

自指令。 虽然现有的多义务数据集可以提供丰盛的数据起源，但它们通常不能很好地满足理想环球场景中的人类需求，例如多轮对话。为了处置这个疑问，一些上班经过自指令[106] 搜集样本，应用LLMs经过大批手动注释的样本生成文本指令追随数据。详细来说，一些指令追随样本被手工制造作为演示，然后经过提醒ChatGPT/GPT-4生成更多指令样本，并以这些演示作为指点。LLaVA [20] 将这种方法扩展到多模态畛域，经过将图像翻译成题目和边界框的文本，并提醒仅文本的GPT-4依据要求和演示生成新数据。这样构建了一个多模态指令数据集，称为LLaVA-Instruct-150k。依照这个思绪，后续上班如MiniGPT-4 [21]、ChatBridge [104]、GPT4Tools [107] 和DetGPT [72] 开发了满足不同需求的不同数据集。最近，随着更弱小的多模态模型GPT-4V的颁布，许多上班驳回GPT-4V生成更高品质的数据，如LVIS-Instruct4V [91] 和ALLaVA [92]。咱们总结了经过自指令生成的盛行数据集，如表7所示。

表7：自指令生成的盛行数据集概述。关于输入/输入模态，I：图像，T：文本，V：视频，A：音频。关于数据组成，M-T和S-T区分表示多轮和单轮。

数据混合。 除了多模态指令数据外，仅言语的用户助手对话数据也可以用于提高对话才干和指令追随才干[81]、[98]、[101]、[103]。LaVIN [101] 经过随机抽取言语和多模态数据间接构建小批量数据。MultiInstruct [102] 探求了经常使用单模态和多模态数据融合训练的不同战略，包括混合指令微调（结合两种类型的数据并随机打乱）和顺序指令微调（文本数据后接多模态数据）。

3.2.4 数据品质

最近的钻研标明，指令微调样本的数据品质与数量雷同关键。Lynx [73] 发现，预训练在大规模但噪声较大的图文对上的模型，其性能不如经常使用较小但更洁净的数据集预训练的模型。雷同，Wei 等人[108] 发现较少但品质更高的指令微调数据可以成功更好的性能。为了数据过滤，该上班提出了一些评价数据品质的目的，并相应地提出了一种方法来智能过滤出较差的视觉言语数据。在此，咱们讨论两个关于数据品质的关键方面。

提醒多样性。 提醒的多样性被发现对模型性能至关关键。Lynx [73] 经过试验证明，多样的提醒有助于提高模型的性能和泛化才干。

义务笼罩 。关于训练数据中触及的义务，Du 等人[109] 启动了一项实证钻研，发现视觉推理义务在提高模型性能方面优于题目和问答义务。此外，钻研标明，增强指令的复杂性或者比参与义务多样性和蕴含细粒度空间注释更有益。

3.3 对齐微调

3.3.1 引见

对齐微调通罕用于模型须要与特定人类偏好对齐的场景，例如增加幻觉的照应（见第6节）。目前，经常使用人类反应的强化学习（RLHF）和间接偏好优化（DPO）是对齐微调的两种关键技术。在本节中，咱们依次引见这两种技术的关键思想，并提供一些它们在处置实践疑问中的运行示例，最后汇总相关数据集。

3.3.2 训练细节

[110]，[111]。该技术旨在应用强化学习算法使LLM与人类偏好对齐，训练环节中以人类注释作为监视。以InstructGPT [95] 为例，RLHF 包括三个关键步骤：

1）监视微调。 此步骤旨在对预训练模型启动微调，以出现初步的预期输入行为。RLHF 设置中的微调模型称为战略模型。留意，这一步骤或者会被跳过，由于监视战略模型π可以从指令微调模型初始化（见 §3.2）。

2）处罚建模 。在此步骤中，经常使用偏好对训练处罚模型。给定多模态提醒（例如图像和文本）x 和照应答（y, y），处罚模型 r学习为偏好的照应 y给出更高的处罚，反之亦然，如下目的所示：

其中 D = （x, y, y）是由人类注释者标志的比拟数据集。实践上，处罚模型 r具有与战略模型相似的结构。

3）强化学习。 在此步骤中，驳回近端战略优化（PPO）算法来优化RL战略模型 π。通常在训练目的中参与每个标志的KL处罚，以防止偏离原始战略太远[95]，结果目的为：

其中 β是KL处罚项的系数。通常，RL战略π和参考模型π都从监视模型 π初始化。

经过这个微调环节，希冀取得的RL战略模型与人类偏好对齐。

钻研人员曾经探求了经常使用RLHF技术来更好地成功多模态对齐。例如，LLaVA-RLHF [112] 搜集人类偏好数据，并基于LLaVA [20] 调整一个增加幻觉的模型。

[113]。它应用一个便捷的二元分类损失从人类偏好标签中学习。与基于PPO的RLHF算法相比，DPO罢黜了学习显式处罚模型的需求，从而简化了整个流程为两个步骤，即人类偏好数据搜集和偏好学习。学习目的如下：

[114] 经过纠正模型照应中的幻觉，搜集了细粒度（片段级别）偏好数据对，并经常使用取得的数据执行密集的DPO。Silkie [115] 则经过提醒GPT-4V搜集偏好数据，并经过DPO将偏好监视提炼到一个指令微调模型中。

3.3.3 数据

对齐微调的数据搜集要点是搜集模型照应的反应，即选择哪个照应更好。搜集此类数据通常更低廉，并且用于此阶段的数据量通常比前几个阶段经常使用的数据还少。在本部分，咱们引见了一些数据集并在表8中启动了总结。

表8：用于对齐调优的数据集概述。关于输入/输入模态，I：图像，T：文本。

LLaVA-RLHF [112]。它蕴含10K个依据老实和有用性搜集的人类反应偏好对。该数据集关键用于增加模型照应中的幻觉。

RLHF-V [114]。它搜集了5.7K经过片段级别幻觉纠正的细粒度人类反应数据。

VLFeedback [115]。它应用AI对模型照应提供反应。数据集中蕴含超越380K个由GPT-4V依据有用性、实在性和伦理疑问评分的比拟对。

4 评价

评价是开发MLLMs（多模态大型言语模型）的关键部分，由于它为模型优化提供反应并有助于比拟不同模型的性能。与传统多模态模型的评价方法相比，MLLMs的评价展现了几个新特色：（1）由于MLLMs通常是多才多艺的，因此片面评价MLLMs十分关键。（2）MLLMs体现出许多须要特意关注的新兴才干（例如无OCR的数学推理），因此须要新的评价方案。MLLMs的评价可以依据疑问类型大抵分为两类：敞开集和开明集。

4.1 敞开集

敞开集疑问指的是一种或者答案选项是预约义且有限的疑问类型。评价通常在义务特定的数据集上启动。在这种状况下，可以人造地经过基准目的[20]、[60]、[70]、[76]、[101]、[102]、[103]、[104]来判别照应。例如，InstructBLIP [60] 报告了ScienceQA [116] 的准确性，以及NoCaps [118] 和Flickr30K [119] 的CIDEr得分[117]。评价设置通常是零样本[60]、[102]、[104]、[105]或微调[20]、[35]、[60]、[70]、[76]、[101]、[103]、[105]。前一种设置通常选用笼罩不同普通义务的宽泛数据集，并将它们分为保管集和测试集。在前者上启动调优后，在未见过的数据集或义务上评价零样本色能。相比之下，第二种设置通常出如今特定畛域义务的评价中。例如，LLaVA [20] 和 LLaMA-Adapter [76] 报告了ScienceQA [116] 上的微调性能。LLaVA-Med [35] 报告了动物医学VQA [120]、[121]、[122]的结果。

上述评价方法通常限于选定义务或数据集的较小范围，不足片面的定量比拟。为此，一些努力开发了专门为MLLMs设计的新基准[123]、[124]、[125]、[126]、[127]、[128]、[129]。例如，Fu等人[123] 构建了一个综合评价基准MME，蕴含14个感知和认知义务。MME中的一切指令-回答对均为手动设计，以防止数据走漏。MMBench [124] 是一个专门设计用于评价模型才干多个维度的基准，经常使用ChatGPT将开明照应与预约义选项婚配。Video-ChatGPT [130] 和 Video-Bench [131] 关注视频畛域，并提出了专门的基准和评价工具启动评价。还有一些评价战略设计用于评价模型的特定方面[102]，例如POPE [132] 用于评价幻觉水平。

4.2 开明集

与敞开集疑问相比，开明集疑问的回答更灵敏，MLLMs通常表演聊天机器人的角色。由于聊天内容可以是恣意的，因此判别比敞开式输入更辣手。规范可以分为手动评分、GPT评分和案例钻研。手动评分须要人类评价生成的照应。这种方法通常触及手工制造的疑问，旨在评价特定维度。例如，mPLUG-Owl [81] 搜集了一个视觉相关的评价集，以判别人造图像了解、图表和流程图了解等才干。相似地，GPT4Tools [107] 区分构建了微和谐零样本色能的两个数据集，并从思想、执行、论点和全体上评价照应。

由于手动评价休息强度大，一些钻研人员探求了经常使用GPT评分的方法。这种方法通罕用于评价多模态对话性能。LLaVA [20] 提议经过仅文本的GPT-4从不同方面（如有用性和准确性）对照应启动评分。详细来说，从COCO [133] 验证集中抽取30张图像，每张图像都经过GPT-4自指令关联了一个冗长疑问、一个详细疑问和一个复杂推理疑问。模型和GPT-4生成的答案都被发送给GPT-4启动比拟。后续上班遵照这一思绪，提醒ChatGPT [81] 或GPT-4 [35]、[70]、[101]、[104]、[105] 启动评分[35]、[70]、[81]、[101]、[104] 或判别哪个更好[103]。

运行仅文本的GPT-4作为评价者的关键疑问是评价仅基于图像相关的文本内容，例如题目或边界框坐标，而没有访问图像[35]。因此，在这种状况下，将GPT-4设为性能下限或者是有疑问的。随着GPT视觉接口的颁布，一些上班[77]、[134] 应用更先进的GPT-4V模型评价MLLMs的性能。例如，Woodpecker [77] 驳回GPT-4V依据图像判别模型答案的照应品质。由于GPT-4V可以间接访问图像，因此这种评价被以为比经常使用仅文本的GPT-4更准确。

一种补充方法是经过案例钻研比拟MLLMs的不同才干。例如，一些钻研评价了两个典型的初级商用模型GPT-4V和Gemini。Yang等人[135] 经过在各种畛域和义务中制造一系列样本，对GPT-4V启动了深化的定性剖析，涵盖从基本技艺（如题目和对象计数）到须要环球常识和推理的复杂义务（如笑话了解和作为具身代理的室内导航）。Wen等人[136] 经过设计针对智能驾驶场景的样本，更集中地评价了GPT-4V。Fu等人[137] 经过将模型与GPT-4V启动比拟，对Gemini-Pro启动了片面评价。结果标明，虽然照应格调不同，GPT-4V和Gemini在视觉推理才干上体现出相当的水平。

5 扩展

最近的钻研在扩展MLLMs（多模态大型言语模型）的才干方面取得了清楚停顿，从更弱小的基础才干到更宽泛的场景笼罩。咱们回忆了MLLMs在这方面的关键开展。

粒度支持。 为了促成代理与用户之间的更好互动，钻研人员开发了在模型输入和输入方面具有更细粒度支持的MLLMs。在输入方面，支持用户提醒更粗疏控制的模型逐渐开展，从图像到区域[28]、[138]、[139]，甚至像素[29]、[140]、[141]。详细来说，Shikra [28] 支持区域级输入和了解。用户可以经过指向人造言语方式的边界框，更灵敏地与助手互动。Ferret [141] 更进一步，经过设计一种混合表示方案，支持更灵敏的指向。该模型支持不同方式的提醒，包括点、框和草图。相似地，Osprey [29] 经过应用宰割模型[9] 支持点输入。借助预训练宰割模型的杰出才干，Osprey 使得只要一次性点击即可指定单个实体或其一部分。在输入方面，随着输入支持的开展，定位才干失掉了改良。Shikra [28] 支持带有框注释的图像照应，从而提供更高的精度和更粗疏的指向体验。LISA [142] 进一步支持掩码级了解和推理，使得像素级定位成为或者。

模态支持 。对模态支持的参与是MLLM钻研的一个趋向。一方面，钻研人员探求了使MLLMs支持更多多模态内容输入，例如3D点云[41]、[143]、[144]、[145]。另一方面，MLLMs也扩展了生成更多模态照应的才干，如图像[32]、[146]、[147]、[148]，音频[32]、[147]、[149]、[150] 和视频[32]、[151]。例如，NExT-GPT [32] 提出一个框架，支持混合模态的输入和输入，详细来说，是文本、图像、音频和视频的组合，借助于附加在MLLM上的分散模型[152]、[153]。该框架驳回编码器-解码器架构，并将LLM作为了解和推理的枢纽。

言语支持 。的模型关键是单语的，或者是由于高品质的非英语训练语料稀缺。一些上班努力于开发多语种模型，以笼罩更宽泛的用户。VisCPM [33] 经过设计一个多阶段训练方案，将模型才干转移到多语种环境。详细来说，该方案将英语作为关键言语，领有丰盛的训练语料。应用预训练的双语LLM，在指令微调环节中经过参与一些翻译样本将多模态才干转移到中文。驳回相似的方法，Qwen-VL [34] 由双语LLM Qwen [58] 开发，支持中文和英文。在预训练环节中，中文数据被混合到训练语料中，以保管模型的双语才干，占整个数据量的22.7%。

场景/义务扩展 。除了开发通用助手外，一些钻研专一于须要思索实践条件的特定场景，另一些则将MLLMs扩展到具有特定专业常识的下游义务。

一个典型的趋向是将MLLMs顺应更多特定的理想生存场景。MobileVLM [63] 探求开发小尺寸变体的MLLMs以用于资源受限的场景。一些设计和技术用于在移动设施上部署，例如更小尺寸的LLMs和量化技术以减速计算。其余上班开发了与理想环球互动的代理[41]、[154]、[155]，例如专为图形用户界面（GUI）设计的用户友好助手，如CogAgent [44]、AppAgent [43] 和 Mobile-Agent [45]。这些助手长于布局并指点成功用户指定的义务，作为人机交互的有用代理。另一条线是经过注入特定技艺来增强MLLMs，以处置不同畛域的义务，例如文档了解[38]、[39]、[156]、[157] 和医学畛域[35]、[36]、[37]。关于文档了解，mPLUG-DocOwl [38] 应用各种方式的文档级数据启动微调，从而增强了无OCR文档了解模型。TextMonkey [39] 将与文档了解相关的多个义务结合起来，以提高模型性能。除了传统的文档图像和场景文本数据集，还参与了与位置相关的义务，以增加幻觉并协助模型学习将照应定位在视觉消息中。MLLMs还可以经过灌输医学畛域的常识扩展到医学畛域。例如，LLaVA-Med [158] 将医学常识注入基础LLaVA [20]，开发了一个专一于医学图像了解和问答的助手。

6 多模态幻觉

多模态幻觉是指MLLMs生成的照应与图像内容不分歧的现象[77]。作为一个基本而关键的疑问，这个疑问越来越遭到关注。在本节中，咱们简明引见一些相关概念和钻研停顿。

6.1 初步引见

关于多模态幻觉的钻研可以进一步分为三类[159]：

1. 存在幻觉是最基本的方式，象征着模型失误地宣称图像中存在某些物体。

2. 属性幻觉指的是失误形容某些物体的属性，例如未能正确识别狗的色彩。它通常与存在幻觉相关，由于属性的形容应该基于图像中存在的物体。

3. 相关幻觉是一种更复杂的类型，也基于物体的存在。它指的是对物体之间相关的失误形容，例如相对位置和交互。

接上去，咱们首先引见一些特定的评价方法（§6.2），这些方法关于评价增加幻觉的方法的性能很有用（§6.3）。然后，咱们将依据每种方法的关键类别详细讨论增加幻觉的方法。

6.2 评价方法

CHAIR [160] 是一个早期的度量，用于评价开明式题目中的幻觉水平。该度量权衡带有幻觉对象或一切提到对象的句子比例。相比之下，POPE [132] 是一种评价敞开式选用的方法。详细来说，多个带有二元选用的提醒被制订，每个提醒征询图像中能否存在特定对象。该方法还涵盖了更具应战性的设置，以评价MLLMs的鲁棒性，同时思索数据统计。最终评价经常使用一种便捷的关键词机制，即经过检测关键词“是/否”，将开明式照应转换为敞开式二元选用。驳回相似的评价方法，MME [123] 提供了更片面的评价，涵盖存在、计数、位置和色彩方面，如[77] 所示。

与以前经常使用婚配机制检测和选择幻觉的方法不同，HaELM [161] 提出经常使用仅文本的LLMs作为评判者，智能选择MLLMs的题目能否正确。鉴于仅文本的LLMs只能访问有限的图像高低文并须要参考注释，Woodpecker [77] 经常使用GPT-4V间接评价基于图像的模型照应。FaithScore [162] 是一个更细粒度的度量，基于一个例程，将形容性子句分解并区分评价每个子句。基于以前的钻研，AMBER [163] 是一个不依赖LLM的基准，涵盖区分义务和生成义务，并触及三种或者的幻觉类型（见§6.1）。

6.3 缓解方法

依据上档次的想法，目前的方法可以大抵分为三类：预修正、环节修正和后修正。

预修正。幻觉的一种直观而间接的处置方案是搜集专门的数据（例如负面数据），并经常使用这些数据启动微调，从而增加幻觉照应的模型。

LRV-Instruction [164] 引入了一个视觉指令微调数据集。除了经常出现的侧面指令外，该数据集还结合了在不同语义档次上精心设计的负面指令，以激励照应虔诚于图像内容。LLaVA-RLHF [112] 搜集人类偏好对并经常使用强化学习技术启动微调，造成模型更合乎增加幻觉的答案。

环节修正。另一条途径是在架构设计或特色表示方面启动改良。这些上班试图讨论幻觉的要素，并在生成环节中设计相应的弥补措施来增加幻觉。

HallE-Switch [159] 对对象存在幻觉的或者要素启动了阅历剖析，并假定存在幻觉源于未被视觉编码器定位的对象，它们实践上是基于嵌入在LLM中的常识推断进去的。基于这一假定，引入了一个延续控制要素和相应的训练方案，以在推理环节中控制模型输入中的构想水平。

VCD [165] 以为对象幻觉源于两个关键要素，即训练语料中的统计偏向和嵌入在LLM中的强言语先验。作者留意到，当向图像注入噪声时，MLLMs偏向于依赖言语先验而不是图像内容启动照应生成，从而造成幻觉。相应地，该上班设计了一种加大-对比解码方案，以对消失误的偏向。

HACL [166] 考查了视觉和言语的嵌入空间。基于观察，设计了一种对比学习方案，将配对的跨模态表示拉近，同时推开非幻觉和幻觉文本表示。

后修正。不同于以前的范式，后修正以预先弥补的方式增加幻觉，并在输入生成后纠正幻觉。Woodpecker [77] 是一个不须要训练的通用幻觉修正框架。详细来说，该方法结合专家模型补充图像的高低文消息，并设计了一个管道逐渐纠正幻觉。该方法是可解释的，由于每一步的两边结果都可以审核，对象定位在图像中。另一种方法LURE [167] 训练一个专门的订正器来屏蔽形容中不确定性高的对象，并再次重重生成照应。

7 扩展技术

7.1 多模态高低文学习

ICL（高低文学习）是LLMs的一项关键新兴才干。ICL有两个好的特点：（1）不同于传统的监视学习范式从少量数据中学习隐式形式，ICL的关键在于从类比中学习[168]。详细来说，在ICL设置中，LLMs从一些示例以及可选的指令中学习，并推测新疑问，从而以少样本的方式处置复杂和未见过的义务[22]、[169]、[170]。（2）ICL通常以无训练的方式成功[168]，因此可以灵敏地集成到推理阶段的不同框架中。一项与ICL亲密相关的技术是指令微调（见§3.2），试验证明其可以增强ICL才干[19]。

在MLLM的背景下，ICL已扩展到更多模态，构成了多模态ICL（M-ICL）。基于（§3.2）中的设置，在推理时，M-ICL可以经过向原始样本参与一个示例集（即高低文中的示例集）来成功。在这种状况下，模板可以如表9所示扩展。须要留意的是，咱们列出了两个高低文示例用于说明，但示例的数量和顺序可以灵敏调整。理想上，模型通常对示例的布置敏感[168]、[171]。

表9：结构化M-ICL查问模板的简化示例，改编自[98]。为了说明，咱们列出了两个高低文示例和一个由虚线分隔的查问。{instruction}和{response}是数据样本中的文本。<image>是表示多模态输入的占位符（在本例中为图像）。<BOS>和<EOS>区分是表示输入到LLM的开局和完结的标志。

7.1.1 ICL才干的改良

最近，越来越多的上班专一于在各种场景下提高ICL性能。在本节中，咱们追踪了该畛域的开展，并总结了一些相关上班。

MIMIC-IT [172] 经过构建带有多模态高低文的指令数据集，将高低文学习与指令微调结合起来。在引入的数据集上启动指令微调的模型在题目义务中的少样本色能有所提高。Emu [173] 经过在模型生成和相应的训练语料中引入额外的模态，扩展了Flamingo [74] 的想法。在引入的视觉解码器（即Stable Diffusion）的协助下，模型从额外的视觉监视中学习，并在输入格局和高低文推理中提供更多的灵敏性。详细来说，除了以纯文本回答外，模型还可以以图像的方式给出照应。Sheng等人[174] 驳回了相似的想法，尝试将输入模态扩展到文本和图像。该上班没有驳回专门的图像编码器，而是驳回了一致量化方案和共享嵌入层。

一些其余上班探求了在特定设置下提高少样本学习性能的方法。Link-context learning [175] 专一于增强图像-标签对之间的因果咨询，经过制勘误负图像-形容对来启动对比训练方案。MMICL [176] 旨在增强多张相关图像推理的才干。为了增强图像和文本之间的咨询，该上班提出了一种高低文方案，将交织的图像-文本数据转换为一致格局。Jeong [177] 发现，当拔出一小部分不相关的图像/文本作为噪声时，MLLMs或者会被误导，给出与高低文不分歧的照应。基于这一观察，该上班相应提出了一种预过滤方法，以去除不相关的高低文并促成更连接的照应。

7.1.2 运行

在多模态运行方面，M-ICL关键用于两种场景：（1）处置各种视觉推理义务[22]、[74]、[178]、[179]、[180]，（2）教LLMs经常使用外部工具[169]、[170]、[181]。前者通常触及从一些特定义务示例中学习并泛化到一个新的但相似的疑问。从指令和示例中提供的消息中，LLMs可以了解义务的执行方式和输入模板，最终生成预期的答案。相比之下，工具经常使用的示例更为细粒度。它们通常蕴含一系列可以顺序执行以成功义务的步骤。因此，第二种场景与链式思想（CoT，见§7.2）亲密相关。

7.2 多模态链式思想

正如开创性上班[8]指出的那样，CoT（链式思想）是一系列两边推理步骤，已被证明在复杂推理义务中有效[8]，[182]，[183]。CoT的关键思想是提醒LLMs不只输入最终答案，还输入造成答案的推理环节，相似于人类的认知环节。

受NLP成功的启示，多项上班[184]，[185]，[186]，[187]曾经提出将单模态CoT扩展到多模态CoT（M-CoT）。咱们首先引见失掉M-CoT才干的不同范式（§7.2.1）。然后，咱们形容M-CoT的更多详细方面，包括链式性能（§7.2.2）和形式（§7.2.3）。

7.2.1 学习范式

学习范式也是一个值得钻研的方面。大抵有三种方式来失掉M-CoT才干，即经过微和谐无训练的少/零样本学习。这三种方式对样本数量的要求依次递减。

直观地说，微调方法通常触及为M-CoT学习筹划特定数据集。例如，Lu等人[116]构建了一个蕴含讲座和解释的迷信识答数据集ScienceQA，可以作为学习CoT推理的起源，并在所提出的数据集上微调模型。Multimodal-CoT[185]也经常使用ScienceQA基准，但以两步方式生成输入，即推理环节（链式推理步骤）和基于推理环节的最终答案。CoT-PT[187]经过提醒微和谐特定步骤的视觉偏向相结合来学习隐式链式推理。

与微调相比，少/零样本学习在计算上更高效。它们之间的关键区别在于，少样本学习通常须要手工制造一些高低文示例，以便模型更容易逐渐学习推理。相比之下，零样本学习不须要任何特定的CoT学习示例。在这种状况下，模型经过提醒设计的指令（如“让咱们逐帧思索”或“这两个关键帧之间出现了什么”）学习经常使用嵌入的常识和推理才干，而无需明白指点[184]，[186]。相似地，一些上班[22]，[188]经过形容义务和工具经常使用来提醒模型，将复杂义务分解为子义务。

7.2.2 链式性能

结构和长度是推理链的两个关键方面。在结构方面，以前方法可以分为单链和树形方法。单链推理是各种方法中宽泛经常使用的范式[116]，[185]。详细来说，逐渐推理环节构成了一个疑问-推理-答案的单链。最近，一些方法探求了经常使用更复杂的方案，即树形链启动推理。详细来说，DDCoT[189]将一个疑问分解为多个子疑问，每个子疑问由LLM自身或视觉专家处置生成推理。然后，LLM汇总并应用这些推理生成最终答案。关于链式长度，可以分为自顺应和预约义两种方式。前者要求LLM自行选择何时中止推理链[22]，[116]，[169]，[170]，[185]，[188]，然后者则在预约义长度时中止链式推理[79]，[184]，[186]，[187]。

7.2.3 生成形式

如何构建链式推理是一个值得钻研的疑问。咱们将的上班总结为（1）基于填充的形式和（2）基于预测的形式。详细来说，基于填充的形式要求在高低文（前后步骤）之间推导步骤，以填补逻辑空白[184]，[186]。相比之下，基于预测的形式要求在给定条件（如指令和先前推理历史）的状况下扩展推理链[22]，[116]，[169]，[170]，[185]，[188]。这两种形式的独特要求是生成的步骤应分歧且正确。

7.3 LLM辅佐的视觉推理

7.3.1 引见

遭到工具增强LLMs成功的启示[190]，[191]，[192]，[193]，一些钻研探求了调用外部工具[22]，[107]，[169]，[170]或视觉基础模型[22]，[79]，[80]，[188]，[194]，[195]，[196]启动视觉推理义务的或者性。这些上班将LLMs作为不同角色的助手，构建了义务特定[79]，[197]，[198]或通用[22]，[169]，[170]，[181]，[188]的视觉推理系统。

与传统视觉推理模型[199]，[200]，[201]相比，这些上班体现出几个好处：（1）弱小的泛化才干。装备了从大规模预训练中学到的丰盛开明环球常识，这些系统可以轻松泛化到未见过的对象或概念，体现出清楚的零样本/少样本色能[169]，[170]，[195]，[197]，[198]，[202]。（2）新兴才干。借助LLMs弱小的推理才干，这些系统可以执行复杂义务。例如，给定一张图片，MM-REACT[22]可以解释外表下的意义，例如解释为什么一个模因很幽默。（3）更好的交互性和控制力。传统模型通常准许有限的控制机制，并且通常须要低廉的筹划数据集[203]，[204]。相比之下，基于LLM的系统能够在用户友好界面中启动粗疏控制（例如点击和人造言语查问）[79]。

在这一部分，咱们首先引见构建LLM辅佐视觉推理系统中经常使用的不同训练范式（§7.3.2）。然后，咱们深化讨论LLMs在这些系统中表演的关键角色（§7.3.3）。

7.3.2 训练范式

依据训练范式，LLM辅佐视觉推理系统可以分为两种类型，即无训练和微调。

无训练。借助预训练LLMs中存储的丰盛先验常识，一种直观而便捷的方法是解冻预训练模型，并间接提醒LLMs满足各种需求。依据设置，推理系统可以进一步分类为少样本模型[22]，[169]，[170]，[181]和零样本模型[79]，[197]。少样本模型须要一些手工制造的高低文示例（见§7.1）来指点LLMs生成程序或执行步骤序列。这些程序或执行步骤作为相应基础模型或外部工具/模块的指令。零样本模型则更进一步，间接应用LLMs的言语/语义常识或推理才干。例如，PointCLIP V2[197]提醒GPT-3生成具有3D相关语义的形容，以更好地与相应图像对齐。在CAT[79]中，LLMs被批示依据用户查问改良题目。

微调。一些上班驳回进一步微调，以改良工具经常使用方面的方案才干[107]或系统的定位才干[142]，[205]。例如，GPT4Tools[107]引入了指令微调方法（见§3.2）。相应地，搜集了一个新的工具相关指令数据集并用于微调模型。

7.3.3 性能

为了进一步审核LLMs在LLM辅佐视觉推理系统中究竟表演了什么角色，现有相关上班分为三种类型：

- LLM作为控制器

- LLM作为决策者

- LLM作为语义精炼器

前两种角色与CoT（见§7.2）相关。由于复杂义务须要分解为两边的便捷步骤，因此这些角色经常经常使用。当LLMs作为控制器时，系统通常在单轮中成功义务，而在决策者的状况下，多轮更为经常出现。咱们在以下部分形容LLMs如何在这些角色中施展作用。

LLM作为控制器 。在这种状况下，LLMs充任中央控制器，（1）将复杂义务分解为更便捷的子义务/步骤，（2）将这些义务调配给适当的工具/模块。第一步通常应用LLMs的CoT才干成功。详细来说，LLMs被明白提醒输入义务方案[181]或更间接地调用模块[107]，[169]，[170]。例如，VisProg[170]提醒GPT-3输入一个视觉程序，其中每行程序调用一个模块执行子义务。此外，要求LLMs输入模块输入的参数名。为了处置这些复杂要求，一些手工制造的高低文示例被用作参考[169]，[170]，[181]。这与推理链的优化亲密相关（见§7.2），或更详细地说，是最小到最多提醒技术[206]。经过这种方式，复杂疑问被分解为按顺序处置的子疑问。

LLM作为决策者。 在这种状况下，复杂义务以多轮方式处置，通常是迭代方式[195]。决策者通常实行以下职责：（1）总结高低文和历史消息，选择步骤的消息能否足以回答疑问或成功义务；（2）组织和总结答案，以用户友好的方式出现。

LLM作为语义精炼器 。当LLM作为语义精炼器时，钻研人员关键应用其丰盛的言语和语义常识。详细来说，LLMs通常被批示将消息整分解分歧且流利的人造言语句子[202]，或依据不同的详细需求生成文本[79]，[197]，[198]。

8 应战与未来方向

MLLMs的开展仍处于初级阶段，因此有很大的改良空间，咱们总结如下：

- 的MLLMs在处置长高低文的多模态消息方面有限。这限度了领有更多多模态标志的初级模型的开展，例如长视频了解和交织图像与文本的长文档。

- MLLMs应更新以遵照更复杂的指令。例如，生成高品质问答对数据的干流方法依然是提醒闭源的GPT-4V，由于它具有先进的指令遵照才干，而其余模型通常无法成功这一点。

- 技术如M-ICL和M-CoT仍有很大的改良空间。对这两种技术的钻研依然处于初级阶段，MLLMs的相关才干较弱。因此，探求其潜在机制和改良方向是很有前景的。

- 开发基于MLLMs的具身代理是一个抢手话题。开发能够与理想环球互动的代理是无心义的。这类上班须要模型具有关键才干，包括感知、推理、布局和执行。

- 安保疑问。与LLMs相似，MLLMs或者易受精心设计的攻打[177]，[207]，[208]。换句话说，MLLMs或者会被误导输入成见或不理想的照应。因此，提高模型的安保性将是一个关键课题。

9 论断

在本文中，咱们对现有的MLLM文献启动了综述，并提供了其关键方向的宽泛视角，包括基本配方和相关扩展。此外，咱们强调了须要填补的钻研空白，并指出了一些有前景的钻研方向。宿愿这篇综述能为读者提供明晰的MLLM开展现状，并激起更多的钻研上班。

Yin S, Fu C, Zhao S, et al. A survey on multimodal large language models[J]. arXiv preprint arXiv:2306.13549, 2023.

Shanghai Jiao Tong University ，Amazon Web Services.

AIRoobt ，作者：AIRoobt

原文链接:

<<微软颁布Florence

用Python打造加密货币算法买卖机器人>>