多模态大模型基础架构

2024-11-15

大模型技术论文一直，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业通常和工程量产。若在某个过程发生卡点，可以回到大模型必备声调或许LLM面前的基础模型从新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型畛域最新技术跟踪。若关于具身智能感兴味的请移步具身智能专栏。技术宅费事死磕AI架构设计。当然最关键的是订阅“鲁班模锤”。

多模态大型言语模型（MLLM）是人工智能畛域的前沿翻新，它联合了言语和视觉模型的配置，可以处置复杂的义务，如视觉问答和图像字幕。这些模型应用大规模预训练，集成了多种数据模态，以清楚提高其在各种运行程序中的性能。

1.架构概览

较为经常出现的MLLM框架可以分为三个关键模块：接纳且有效编码的多模态编码器、多模态之间数据对齐的投影器、和接纳对齐信号并口头推理的大言语模型。当然各种名目总有自己的差异化设计，例如Chameleon或许Octo。<可以随链接检查！>

MLLM的关键的提升方向，在于处置高分辨率图像、紧缩视觉标志（token）、多模态对齐、高效结构和应用紧凑言语模型等。

上图是一些MLLM的部分例子，将其中的基座LLM、视觉编码器、图像分辨率和投影器列具进去。

2.视觉编码器

来看看视觉编码器，与干流MLLM通常分歧，基本上都是选用CLIP<链接检查概略！>的预训练模型。这种方法有助于更好地对齐视觉和文本输入的特色空间。视觉编码器在MLLM参数中所占比例相对较小，因此与言语模型相比，轻量级提升不是刚需。

繁多的编码器必需不可在不同的义务中一直体现杰出，将各种偏向的数据编码器启动联动则能够发生令人惊讶的相似结果。

BRAVE的深度消融试验证实了上述的论断。BRAVE按顺序衔接了K个不同视觉编码器的特色（上图左）。之后这些串联特色被MEQ-Former进一步提炼（上图右）。

多个视觉编码器确实有助于捕捉宽泛的视觉表征，从而增强模型对视觉数据的了解。Cobra将DINOv2和SigLIP集成为其视觉骨干，其原理是将DINOv2的低级空间特色与 SigLIP提供的语义属性相联合将提高后续义务的性能。SPHINX-X驳回两个视觉编码器DINOv2和CLIP-ConvNeXt。

鉴于这些基础模型曾经经过不同的学习方法（自监视与弱监视）和网络架构（ViT与 CNN）启动预训练，应该能够提供互补和复杂的视觉表征。

这些术语将在后续的文章中逐个解说！可以关注“具身智能”专栏！

轻量级视觉编码器Vision Transformer架构在实践运行中因为配件和环境限度而面临应战。ViTamin代表一种轻量级视觉模型，专门针对视觉和言语模型量身定制。依照下图所示，经过两层的MBC外加一层的留意力块成功视觉编码，而后和文本一同启动对比学习。

值得一提，ViTamin-XL的参数数量只要436M，却到达了ImageNet zero-shot82.9%的准确率，超越了EVA-E的准确率82.0%。要知道EVA-E的参数数量为4.4B。

3.视觉投影器

视觉投影器的目标在于将视觉嵌入（Visual embeddings）等输入映射到文本空间（Text Embeddings）中。换句话说也就是将不同模态启动对齐。

1)投影，置信读者最直观的就是线性投影仪或多层感知器（MLP）来成功，可以了解就是最普通的神经网络。比如几层的神经网与非线性激活函数组合而成。

2)部分的投影基于留意力机制。BLIP2引入Q-Former，这是一种轻量级转换器，它经常使用一组可学习的查问向量从解冻的视觉模型中提取视觉特色。

Q-former基于对比学习启动训练，上图右侧展现了由Flamingo提出的感知重采样器（Perceiver Resampler）思考在交叉留意力中经常使用earned Queries（上图黑白序列块）作为Q，而图像特色倒退与Q衔接起来，在交叉留意力中充任K和V。

上图为BLIP-2的第二阶段架构，经过这种模式，在Learned Queries的相应位置的转换器输入被作为视觉特色的聚合示意，从而将可变长度的视频帧特色规范化为固定大小的特色。

3)部分的投影基于CNN。MobileVLMv2提出了LDPv2，这是一种新的投影。由三部分组成：特色转换、Token紧缩和位置消息增强。经过经常使用逐点卷积层、平均池化和具备腾跃衔接的PEG模块，LDPv2成功了更高的效率，与原始LDP相比，参数缩小了99.8%，处置速度略快。

4)最后还有基于小名鼎鼎的Mamba，VL-Mamba在其视觉言语投影仪中成功了2D视觉选用性扫描（VSS）技术，促成了不同窗习方法的融合。

5)和一切文治都有最后一式一样，投影可以驳回混合架构。Honeybee提出了两种视觉投影仪的组合，即C-Abstractor和D-Abstractor，它们遵照两个关键设计准则：（i）在视觉Token数量生成方面提供顺应性，以及（ii）有效地保养本地高低文。下图具体的展现了Honeybee的投影混合架构：

C-Abstractor，或卷积形象器，专一于经过驳回卷积架构来熟练地对部分高低文启动建模。该结构由L个ResNet块组成，而后紧接着是额外的L个ResNet块，这有助于将视觉特色形象为恣意平方数量的视觉标志。而D-Abstractor是基于Deformable留意力的Abstractor。

4.视觉Token紧缩

MLLM在须要复杂识别的义务中面临着相当大的应战，尤其是带有OCR的场景。虽然提高图像分辨率可以处置，但是参与视觉Token的数量给MLLM带来了渺小的计算累赘，这关键是因为Transformer架构中计算老本与输入Token数量呈二次比例，因此如何提升则成为这个畛域很抢手的主题。

间接经常使用高分辨率视觉编码器启动细粒度感知的老本高，并且不合乎实践经常使用要求。为了让MLLM能够感知细节且成功低分辨率的编码才干，普通会应用全局视图启动图片规模的紧缩以及经过拆分衍生部分的图像块(Patch)。

LLaVA-UHD提出了一种图像模块化战略，将原生分辨率的图像划分为更小的可变大小切片，以成功高效和可裁减的编码。留意下图左侧，这个框架智能的选用最优的切分打算。

此外，InternLM-XComposer2-4KHD 引入了一种经过智能规划陈列灵活调整分辨率的战略，不只可以坚持图像的原始纵横比，还可以自顺应地扭转Patch规划和计数，从而提高图像消息提取的效率。

经过对不同分辨率的图像实施自顺应输入战略，可以在感知才干和效率之间成功平衡。如上图所示，说白了就是将原图紧缩和切块一同启动编码。

Mini-Gemini由两个编码器组成，一个用于高分辨率图像，另一个用于低分辨率视觉嵌入。它提出了patch的消息开掘，它经常使用低分辨率的视觉嵌入作为查问，经过交叉留意力从高分辨率候选者那里检索关系的视觉线索。

Scaling on Scales标明，多尺度较小模型的学习才干与较大模型相当，并且预训练较小的模型可以在MLLM基准测试上婚配甚至超越较大模型的长处，同时计算效率更高。

S2-Wrapper是一种便捷的机制，它可以以无参数的模式将任何预训练的视觉模型裁减到多个图像尺度。以ViT-B为例，S2-Wrapper将输入图像插值到不同的尺度（例如2242和4482），而后将每个尺度宰割成几个与默逞强入大小相反的子图像（4482→4×2242）。关于每个尺度，一切子图像都被输入到同一个模型中，输入（例如4×162）被兼并到整个图像的特色图中（322）。不同尺度的特色图被平均池化到原始空间大小（162）并衔接在一同。最终的多尺度特色具备与单尺度特色相反的空间状态，但有更高维度（例如1536 vs 768）。

5.小结

MLLM的关键疑问是资源需求，训练这些模型须要少量的计算资源，通常只要领有少量估算的大型企业才干经常使用。例如，在 NVIDIA A100 GPU上训练像MiniGPT-v2这样的模型须要超越800个GPU小时，这关于许多学术钻研人员和小公司来说老本是渺小的。此外，推理的高计算老本进一步加剧了这个疑问，使得在边缘计算等资源受限的环境中部署这些模型变得窘迫。OpenAI的GPT-4V和谷歌的Gemini等模型经过大规模预训练取得了清楚的性能，但它们的计算需求限度了它们的经常使用。

目前应答这些应战的方法集中在提升MLLM的效率上，须要MLLM驳回多种翻新技术来处置资源消耗疑问。其中包含引入更轻的架构，旨在降落参数和计算复杂性。例如，MobileVLM和LLaVA-Phi等模型经常使用视觉Token紧缩和高效的视觉言语投影器来提高效率。

经过驳回Token紧缩和轻量级模型结构，这些模型成功了计算效率的清楚提高，并拓宽了其运行范围。例如，与以前的型号相比，LLaVA-UHD允许处置分辨率高达6倍的图像，只要94%的计算量。这使得在学术环境中训练这些模型成为或许，一些模型只要23小时即可经常使用8个A100 GPU启动训练。值得一提的是，这些效率的提高不是以就义性能为代价的。

本文转载自，作者：

<<MLC vLLM AI架构系列 LMDeploy

不平衡场景下的多模态常识图谱补全>>

多模态大模型 基础架构