微信等提出多模态大言语模型EE 数据高效和计算高效全都要！中科大&amp

2024-11-15

论文链接：

亮点直击

在多模态钻研畛域，许多钻研应用少量图文对启动模态对齐学习，将大型言语模型（LLMs）转变为多模态LLMs，并在各种视觉言语义务中体现杰出。现有的方法关键分为两类：基于自留意力的方法和基于交叉留意力的方法。虽然基于自留意力的方法由于其便捷的MLP架构具有较高的数据效率，但由于将视觉和文本token衔接为LLM的输入，通常在计算效率上较低。相反，基于交叉留意力的方法虽然由于额外的可学习参数而数据效率较低，但经过防止LLM的长序列输入体现出较高的计算效率。为处置这些掂量，本文引入了 数据高效和计算高效的多模态大型言语模型（EE-MLLM） 。在不引入额外模块或可学习参数的状况下，EE-MLLM成功了数据和计算效率。详细来说，本文将MLLM中的原始自留意力机制修正为复合留意力机制。该机制有两个关键特色：1）消弭视觉token外部自留意力的计算开支以成功计算效率，2）重用LLM每一层的权重以促成视觉和言语之间的有效模态对齐，成功数据效率。试验结果标明，EE-MLLM在一系列基准测试中体现杰出，包括诸如MMBench和SeedBench等通用数据集，以及如TextVQA和DocVQA等细粒度义务。

方法

模型结构

EE-MLLM 包括一个视觉编码器、一个作为投影器的两层 MLP，以及带有复合解码层的大型言语模型（LLM）。本文提出了一种复合留意力机制，并为 EE-MLLM 设计了一个复合解码层，以成功数据效率和计算效率。复合解码层由一个对齐器和一个复合留意力模块组成。

复合留意力模块。 原始的自留意力机制包括视觉token之间的自留意力、文本token之间的自留意力，以及文本token和视觉token之间的交叉留意力。本文观察到视觉token之间的自留意力是多余的，要素有两个：

这可以被视为一个没有留意力机制的解码器块。

计算开支剖析

试验

试验细节

模型性能。 本文驳回 Vicuna-7b-v1.5作为本文的 LLM，并经常使用 SigLIP作为视觉编码器。详细来说，SigLIP 从 Idefics2 初始化，该模型允许灵活分辨率，最大可达980X980 。投影器由一个两层的 MLP 组成，与 LLaVA 相反。

评价基准

通用基准

细粒度基准

与最先进模型的比拟

通用基准测试。 在下表2中，本文将EE-MLLM与各种最先进的MLLM 在八个通用基准上启动了比拟。这些基准测试评价了MLLM的综合才干，包括了解和感知，以及幻觉的严重水平。这些要素独特反映了MLLM在事实场景中的泛化才干和实用性。EE-MLLM在通用基准测试中与最先进的MLLM体现相当。详细来说，EE-MLLM在MMBench中取得了70.4的得分，在MME中取得了1528.1的得分，这些分数清楚高于雷同允许高分辨率图像输入的LLaVA-v1.6。这标明EE-MLLM具有综合的感知和推理才干。此外，EE-MLLM在CCBench和SeedBench上也取得了可喜的效果。

细粒度基准测试。 在下表3中，本文在七个细粒度基准上启动了评价。这些基准测试要求MLLM具有杰出的视觉感知才干，由于它们须要探求图像中的细粒度消息来回答疑问。在传统的VQA基准测试中，例如TextVQA、ChartQA和DocVQA，EE-MLLM体现十分杰出，相较于雷同允许高分辨率的LLaVA-v1.6，在TextVQA上高出4.6分，在ChartQA上高出13.0分。在专门设计用于评价MLLM OCR才干的OCRBench中，EE-MLLM比LLaVA-v1.6高出4.2分。这些结果标明，虽然EE-MLLM清楚缩小了与视觉token相关的计算开支，但它依然有效地坚持了模型的细粒度才干。

推理速度比拟

虽然EE-MLLM在FLOPs方面体现出了清楚的缩小，但在实践场景中，通常会在部署时驳回KVCache和Batch Inference等先进技术。因此，有必要在这些技术下启动推理速度的比拟。本文在单个NVIDIA H800上启动了推理速度的比拟。输入图像的分辨率设置为980X980，生成的tokens数量从2到256不等。本文在下图4中展现了EE-MLLM与LLaVA的速度比。本文的钻研发现，当生成8个tokens时，EE-MLLM的推理速度是LLaVA的三倍。但是，随着生成tokens数量的参与，速度比降低。当生成64个tokens时，EE-MLLM的推理速度是LLaVA的1.6倍。产生这种现象的要素在于本文的EE-MLLM关键在预填充阶段缩小了计算老本，该阶段计算视觉tokens的KV缓存。第一个token的生成比基于自留意力的方法（如LLaVA）更快。但是，推理速度的长处在第一个token之后减小。详细来说，关于两个输入图像，EE-MLLM的推理速度简直是LLaVA的四倍。这清楚地标明，EE-MLLM在多图像输入场景中（包括交织的图像-文本对话和多模态高低文学习）清楚更高效。

EE-MLLM 的 GPU 内存开支

本文评价了EE-MLLM在预训练和微调阶段的GPU内存开支。雷同，本文在分辨率为336X336时，将EE-MLLM与LLaVA启动了比拟。本文在8×H800上启动试验，预训练的全局批量大小为256，微调时为128。

内存经常使用状况的比拟详见下表5。在预训练阶段，EE-MLLM的内存经常使用清楚较低，为32G，而LLaVA的内存经常使用为75G。在微调阶段，由于关键内存经常使用集中在可训练的LLM上，内存经常使用长处变得不太清楚，EE-MLLM消耗66G，而LLaVA-v1.6经常使用69G。

消融钻研

实施细节

依据LLaVA-v1.5，本文驳回Vicuna-7b-v1.5 作为本文的基础LLM。训练数据与LLaVA-v1.5分歧，包括预训练数据和监视微调数据。

与LLaVA的比拟

在下表4中，本文在相反的设置下比拟了EE-MLLM和LLaVA在普通和细粒度基准测试中的体现。关于分辨率为336X336的状况，本文经常使用CLIP-ViT-L-14作为视觉编码器，确保与LLaVA-v1.5齐全对齐。EE-MLLM在普通基准测试中体现与LLaVA相当。在细粒度基准测试中，EE-MLLM在分辨率为336X336时在AI2D和ChartQA上体现杰出，但在OCRBench和TextVQA上略逊于LLaVA。关于336X336分辨率的平均得分为47.1，是LLaVA的48.1的98%。关于分辨率为672X672的状况，本文经常使用SigLIP作为视觉编码器。如表4所示，EE-MLLM在AI2D和TextVQA上取得了相当的结果，平均得分坚持在LLaVA性能的98%。

对齐器的消融试验

在下表6中，本文评价了具有不同映射权重的对齐器变体。本文经常使用从Idefics2（Laurençon等人，2024）初始化的SigLIP在不同的输入分辨率下启动试验。本文移除了对齐器中的不同权重，并在分辨率为336X336下训练模型。对勾token示意在对齐器中经常使用的权重。

本文有三个发现：1）如第一行所示，移除整个对齐器会清楚降低多个基准测试的性能。详细而言，TextVQA的得分从46.1降至44.8，五个基准测试的平均得分从34.5降至33.5。这个结果突显了对齐器在将视觉特色与LLM特色空间对齐方面的有效性，使文本tokens能够经过因果交叉留意模块捕捉关键的视觉消息并处置疑问。2）当消融对齐器中的一般权重时，本文发现坚持结构更为关键。缺少V或O对低分辨率输入的影响相对较小，甚至在缺少V时体现略有优化。但是，当缺少FFN时，对齐器的结构不再相似于transformer块，造成清楚的性能损失。3）本文间接将输入图像分辨率提高到672X672，而无需额外训练，并比拟具有不同对齐器类型的变体。本文观察到，在高分辨率输入下，缺少V或O权重会造成细粒度基准测试（如TextVQA、ChartQA和DocVQA）产生清楚降低。这个发现标明在运行于高分辨率图像时，完整的对齐器是如许关键。

可视化

本文从BLINK 和RealWorldQA 中采样了四个示例，以评价下图3中架构变动的影响。第一个示例展现了EE-MLLM能够感知图像中的细粒度视觉高低文，例如交通讯号灯的色彩。第二和第三个示例强调了EE-MLLM了解物体位置的才干。详细而言，EE-MLLM可以准确识别吉他相关于桌子的位置以及狗的位置。最后一个示例提醒了EE-MLLM能够辨别视觉内容中的纤细差异。

论断

在本文中，本文从新扫视了多模态大言语模型的先前钻研，并将其分为两类：基于自留意力的方法和基于交叉留意力的方法。前者数据效率高但计算效率低，然后者计算效率高但数据效率低。为了在坚持计算效率的同时确保数据效率，本文为EE-MLLM提出了复合留意力机制，该机制结合了复合留意力模块以提高计算效率，以及对齐器以提高数据效率。本文在普通基准和细粒度基准上启动了片面试验，发现EE-MLLM在大少数基准上成功了最先进的性能。本文还评价了EE-MLLM在实践场景中的推理速度，结果标明EE-MLLM在推理方面具有清楚长处。

原文链接:

<<英特尔试验室最新成绩 LLaMA

最近一段期间对于大模型技术的学习及运行的心得体会>>