微信等提出多模态大言语模型EE 数据高效和计算高效全都要!中科大&
论文链接:
亮点直击
在多模态钻研畛域,许多钻研应用少量图文对启动模态对齐学习,将大型言语模型(LLMs)转变为多模态LLMs,并在各种视觉言语义务中体现杰出。现有的方法关键分为两类:基于自留意力的方法和基于交叉留意力的方法。虽然基于自留意力的方法由于其便捷的MLP架构具有较高的数据效率,但由于将视觉和文本token衔接为LLM的输入,通常在计算效率上较低。相反,基于交叉留意力的方法虽然由于额外的可学习参数而数据效率较低,但经过防止LLM的长序列输入体现出较高的计算效率。为处置这些掂量,本文引入了 数据高效和计算高效的多模态大型言语模型(EE-MLLM) 。在不引入额外模块或可学习参数的状况下,EE-MLLM成功了数据和计算效率。详细来说,本文将MLLM中的原始自留意力机制修正为复合留意力机制。该机制有两个关键特色:1)消弭视觉token外部自留意力的计算开支以成功计算效率,2)重用LLM每一层的权重以促成视觉和言语之间的有效模态对齐,成功数据效率。试验结果标明,EE-MLLM在一系列基准测试中体现杰出,包括诸如MMBench和SeedBench等通用数据集,以及如TextVQA和DocVQA等细粒度义务。
方法
模型结构
EE-MLLM 包括一个视觉编码器、一个作为投影器的两层 MLP,以及带有复合解码层的大型言语模型(LLM)。本文提出了一种复合留意力机制,并为 EE-MLLM 设计了一个复合解码层,以成功数据效率和计算效率。复合解码层由一个对齐器和一个复合留意力模块组成。
复合留意力模块。 原始的自留意力机制包括视觉token之间的自留意力、文本token之间的自留意力,以及文本token和视觉token之间的交叉留意力。本文观察到视觉token之间的自留意力是多余的,要素有两个:
这可以被视为一个没有留意力机制的解码器块。
计算开支剖析
试验
试验细节
模型性能。 本文驳回 Vicuna-7b-v1.5作为本文的 LLM,并经常使用 SigLIP作为视觉编码器。详细来说,SigLIP 从 Idefics2 初始化,该模型允许灵活分辨率,最大可达980X980 。投影器由一个两层的 MLP 组成,与 LLaVA 相反。
评价基准
通用基准
细粒度基准
与最先进模型的比拟
通用基准测试。 在下表2中,本文将EE-MLLM与各种最先进的MLLM 在八个通用基准上启动了比拟。这些基准测试评价了MLLM的综合才干,包括了解和感知,以及幻觉的严重水平。这些要素独特反映了MLLM在事实场景中的泛化才干和实用性。EE-MLLM在通用基准测试中与最先进的MLLM体现相当。详细来说,EE-MLLM在MMBench中取得了70.4的得分,在MME中取得了1528.1的得分,这些分数清楚高于雷同允许高分辨率图像输入的LLaVA-v1.6。这标明EE-MLLM具有综合的感知和推理才干。此外,EE-MLLM在CCBench和SeedBench上也取得了可喜的效果。
细粒度基准测试。 在下表3中,本文在七个细粒度基准上启动了评价。这些基准测试要求MLLM具有杰出的视觉感知才干,由于它们须要探求图像中的细粒度消息来回答疑问。在传统的VQA基准测试中,例如TextVQA、ChartQA和DocVQA,EE-MLLM体现十分杰出,相较于雷同允许高分辨率的LLaVA-v1.6,在TextVQA上高出4.6分,在ChartQA上高出13.0分。在专门设计用于评价MLLM OCR才干的OCRBench中,EE-MLLM比LLaVA-v1.6高出4.2分。这些结果标明,虽然EE-MLLM清楚缩小了与视觉token相关的计算开支,但它依然有效地坚持了模型的细粒度才干。
推理速度比拟
虽然EE-MLLM在FLOPs方面体现出了清楚的缩小,但在实践场景中,通常会在部署时驳回KVCache和Batch Inference等先进技术。因此,有必要在这些技术下启动推理速度的比拟。本文在单个NVIDIA H800上启动了推理速度的比拟。输入图像的分辨率设置为980X980,生成的tokens数量从2到256不等。本文在下图4中展现了EE-MLLM与LLaVA的速度比。本文的钻研发现,当生成8个tokens时,EE-MLLM的推理速度是LLaVA的三倍。但是,随着生成tokens数量的参与,速度比降低。当生成64个tokens时,EE-MLLM的推理速度是LLaVA的1.6倍。产生这种现象的要素在于本文的EE-MLLM关键在预填充阶段缩小了计算老本,该阶段计算视觉tokens的KV缓存。第一个token的生成比基于自留意力的方法(如LLaVA)更快。但是,推理速度的长处在第一个token之后减小。详细来说,关于两个输入图像,EE-MLLM的推理速度简直是LLaVA的四倍。这清楚地标明,EE-MLLM在多图像输入场景中(包括交织的图像-文本对话和多模态高低文学习)清楚更高效。
EE-MLLM 的 GPU 内存开支
本文评价了EE-MLLM在预训练和微调阶段的GPU内存开支。雷同,本文在分辨率为336X336时,将EE-MLLM与LLaVA启动了比拟。本文在8×H800上启动试验,预训练的全局批量大小为256,微调时为128。
内存经常使用状况的比拟详见下表5。在预训练阶段,EE-MLLM的内存经常使用清楚较低,为32G,而LLaVA的内存经常使用为75G。在微调阶段,由于关键内存经常使用集中在可训练的LLM上,内存经常使用长处变得不太清楚,EE-MLLM消耗66G,而LLaVA-v1.6经常使用69G。
消融钻研
实施细节
依据LLaVA-v1.5,本文驳回Vicuna-7b-v1.5 作为本文的基础LLM。训练数据与LLaVA-v1.5分歧,包括预训练数据和监视微调数据。
与LLaVA的比拟
在下表4中,本文在相反的设置下比拟了EE-MLLM和LLaVA在普通和细粒度基准测试中的体现。关于分辨率为336X336的状况,本文经常使用CLIP-ViT-L-14作为视觉编码器,确保与LLaVA-v1.5齐全对齐。EE-MLLM在普通基准测试中体现与LLaVA相当。在细粒度基准测试中,EE-MLLM在分辨率为336X336时在AI2D和ChartQA上体现杰出,但在OCRBench和TextVQA上略逊于LLaVA。关于336X336分辨率的平均得分为47.1,是LLaVA的48.1的98%。关于分辨率为672X672的状况,本文经常使用SigLIP作为视觉编码器。如表4所示,EE-MLLM在AI2D和TextVQA上取得了相当的结果,平均得分坚持在LLaVA性能的98%。
对齐器的消融试验
在下表6中,本文评价了具有不同映射权重的对齐器变体。本文经常使用从Idefics2(Laurençon等人,2024)初始化的SigLIP在不同的输入分辨率下启动试验。本文移除了对齐器中的不同权重,并在分辨率为336X336下训练模型。对勾token示意在对齐器中经常使用的权重。
本文有三个发现:1)如第一行所示,移除整个对齐器会清楚降低多个基准测试的性能。详细而言,TextVQA的得分从46.1降至44.8,五个基准测试的平均得分从34.5降至33.5。这个结果突显了对齐器在将视觉特色与LLM特色空间对齐方面的有效性,使文本tokens能够经过因果交叉留意模块捕捉关键的视觉消息并处置疑问。2)当消融对齐器中的一般权重时,本文发现坚持结构更为关键。缺少V或O对低分辨率输入的影响相对较小,甚至在缺少V时体现略有优化。但是,当缺少FFN时,对齐器的结构不再相似于transformer块,造成清楚的性能损失。3)本文间接将输入图像分辨率提高到672X672,而无需额外训练,并比拟具有不同对齐器类型的变体。本文观察到,在高分辨率输入下,缺少V或O权重会造成细粒度基准测试(如TextVQA、ChartQA和DocVQA)产生清楚降低。这个发现标明在运行于高分辨率图像时,完整的对齐器是如许关键。
可视化
本文从BLINK 和RealWorldQA 中采样了四个示例,以评价下图3中架构变动的影响。第一个示例展现了EE-MLLM能够感知图像中的细粒度视觉高低文,例如交通讯号灯的色彩。第二和第三个示例强调了EE-MLLM了解物体位置的才干。详细而言,EE-MLLM可以准确识别吉他相关于桌子的位置以及狗的位置。最后一个示例提醒了EE-MLLM能够辨别视觉内容中的纤细差异。
论断
在本文中,本文从新扫视了多模态大言语模型的先前钻研,并将其分为两类:基于自留意力的方法和基于交叉留意力的方法。前者数据效率高但计算效率低,然后者计算效率高但数据效率低。为了在坚持计算效率的同时确保数据效率,本文为EE-MLLM提出了复合留意力机制,该机制结合了复合留意力模块以提高计算效率,以及对齐器以提高数据效率。本文在普通基准和细粒度基准上启动了片面试验,发现EE-MLLM在大少数基准上成功了最先进的性能。本文还评价了EE-MLLM在实践场景中的推理速度,结果标明EE-MLLM在推理方面具有清楚长处。
原文链接: