一致多模态大模型!PUMA 条件生成和了解 多粒度战略笑傲生成 修复 编辑 着色

文章链接:名目链接:

总结速览

处置的疑问 :现有的多模态大模型(MLLMs)在视觉内容生成方面没有充沛处置不同图像生成义务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及图像编辑中的准确可控性。

提出的打算 :提出了一种名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在经过一致多粒度视觉特色作为MLLMs的输入和输入,优雅地处置不同义务的粒度需求。

运行的技术 :驳回了多模态预训练和义务特定的指令微调,将多粒度视觉生成配置融入到一致的MLLM框架中。

到达的成果 :PUMA在宽泛的多模态义务中体现杰出,能够顺应不同视觉义务的粒度需求,向真正一致的MLLM迈出了关键一步。

方法

现有的方法理论仅优化细粒度或粗粒度特色,从而在准确控制和生成多样性之间存在权衡。为克制这一局限性,本文提出了,一个一致的多粒度MLLM范式。本文的方法能够在一致的MLLM框架中同时处置多个档次的特色粒度,促成跨多种多模态义务的无缝转换。

本文的框架包含三个关键组成部分:图像编码器、基于不同粒度特色的图像解码器汇合以及多粒度自回归MLLM。这些组件协同上班,以提取、处置和生成多尺度图像特色,顺应各种义务特定的粒度需求。为了优化MLLM,驳回了预训练和指令微调的两阶段环节,使其能够口头包含图像了解、生成、编辑和条件图像生成在内的多种义务。

图像编码与多粒度特色提取

多粒度视觉解码

不同粒度的图像特色编码了不同档次的消息。驳回基于分散模型的解码器,由于它们能够灵敏处置多尺度特色。在处置粗粒度语义特色时,解码器能够有效地利用它们学习到的图像先验,补充缺失的细粒度消息,并生成多样化且语义对齐的图像。另一方面,在处置细粒度特色时,它们能够准确重构准确的图像细节。这种在不同粒度下生成或重构图像的多样性使基于分散模型的解码器十分适宜多粒度的方法。

下图4展现了不同粒度图像解码的训练环节,其中图像编码器被解冻以保管语义属性。

下图3展现了多粒度解码器的视觉解码才干。这些可视化结果显示了在不同粒度下解码图像的保真度,细粒度特色能够生成与原始输入更凑近的重构图像,而粗粒度特色则依据输入图像的语义疏导生成图像。这验证了本文方法在保管和应用多粒度视觉消息方面的有效性。

该多粒度解码框架与档次化特色提取相结合,为MLLM架构的后续阶段奠定了基础,为前期训练阶段中的多样化视觉义务铺平了路线。

自回归MLLM中的渐进多粒度图像建模

为了应用一个能够顺应各种具有不同粒度需求的视觉-言语义务的一致框架,设计了一个自回归MLLM来处置和生成文本tokens及多粒度图像特色。

自回归MLLM,记为 M,逐渐处置文本和多粒度图像特色,如下图2所示。模型一一tokens地处置特色,在每个粒度级别内依次预测每个token,并从最粗的粒度级别N逐渐过渡到最细的粒度级别0。这种方法准许模型在失掉更多具体消息时逐渐改良其预测。

将输入序列构建为文本tokens和来自多个粒度级别的展平图像特色tokens的拼接。该渐进方法使模型能够捕捉不同尺度间的依赖相关,从粗略的全局结构到精细的部分细节。

MLLM经过自回归的下一个token预测目的启动训练,结合了文本和图像的损失。

多模态预训练和指令微调

为了展现一致多粒度范式的有效性,为PUMA实施了一个片面的两阶段训练流程:首先是多模态预训练,随后是义务特定的指令微调。这种方法使模型首先取得宽泛的多模态才干,而后在后续的指令微调阶段专一于目的视觉言语义务。

多模态预训练 :多模态预训练应用了一组多样化的大规模数据集:Laion-2B、Laion-Aesthetics、GRIT、The Pile、OCR-VQA-200K 和 LLaVAR。这些数据集的组合提供了丰盛的图文对、文本数据和特定的视觉问答样本。为了增强模型对图文相关的双向了解,驳回了一种灵活训练战略,随机交替每个图文对的文本生成图像和图像生成文转义务。

指令微调 :在预训练之后,启动针对性的指令微调,使模型顺应特定的视觉言语义务。为了评价PUMA在不同义务类型上的体现,针对四种义务区分微调了四个模型,每个模型都从预训练审核点初始化。

试验

试验结果如下:首先具体形容了试验设置。再评价了多粒度特色编码和基于分散的多粒度图像解码器的有效性。随后展现了 PUMA 在多项义务中的多配置性:多样化的文本生成图像、图像编辑、条件图像生成和视觉言语了解。

设置

一致多粒度多模态言语模型 (MLLM) 驳回 LLaMA-3 8B 作为言语模型主干,经常使用 CLIP-Large (224×224 输入) 作为图像编码器。图像解码器则初始化自预训练的 SDXL 模型。

多粒度视觉解码

细粒度图像重构

细粒度图像重构关于坚持图像细节至关关键,但对模型如 SEED-LLaMA、SEED-X 和 Emu2 而言是个严重应战。SEED-LLaMA 和 SEED-X 在具体重构上体现不佳,限度了它们在不经常使用如条件图像输入(SEED-X 中经常使用的)等额外技术的状况下准确操作图像的才干。Emu2 尝试经过将其图像编码器扩展至40亿参数来改良重构。本文的办规律经过更高效的架构成功了优越的重构品质。

下图5也直观展现了本文方法在重构品质上的优越性。

语义疏导的生成

多样化文本生成图像

为定量评价,在 MSCOCO 30K 验证数据集上评价了模型,并在下表2中展现了 CLIP-I、CLIP-T 和 LPIPSd 目的,前两者权衡分歧性,而 LPIPSd 权衡生成多样性。与近期上班相比,本文的模型在生成品质、多样性和揭示词相关性上体现出了优越的性能。

图像编辑

为了评价PUMA的图像编辑才干,在Emu-Edit测试基准上启动了评价。结果显示在下表3中,包含CLIP-I、CLIP-T和DINO得分。CLIP-I和DINO得分权衡模型保管源图像元素的才干,而CLIP-T反映输入图像与目的题目之间的分歧性。

发现标明,PUMA展现了弱小的保管才干,仅次于的最先进模型EMU-Edit。值得留意的是,PUMA在CLIP-T得分上清楚更高,甚至逾越了最先进模型,这标明其在编辑图像与目的题目之间的对齐才干更强。图8中的可视化结果展现了PUMA在图像操控义务中的有效性。

条件图像生成

图像了解

在多个MLLM基准(如MMB、MME、GQA、VQAv2、POPE和Vizwiz)上评价了PUMA的图像了解性能。该评价的结果见下表4。虽然PUMA的参数数量相对较少(8B参数),且经常使用了224 × 224分辨率的图像编码器,但它在图像了解性能上展现出竞争力,并且在许多状况下优于其余一致了解和生成模型。

值得留意的是,在某些目的上,PUMA的体现甚至超越了一些仅启动了解的基线模型。这种性能可以归因于PUMA经常使用多粒度延续视觉tokens作为输入到MLLM。关于不同尺度特色输入对图像了解义务影响的具体消融钻研可在附录中找到,为PUMA的多粒度战略的有效性提供了进一步的见地。

消融钻研

论断

本文引见了PUMA,一种新的一致多粒度MLLM,它整合了视觉生成和了解中的各种粒度义务。经过应用多粒度示意,PUMA有效地处置了图像生成义务中平衡多样性和可控性的应战。本文的方法在多种视觉义务中展现了优越的性能,包含多样化的文本到图像生成、图像编辑、修复、上色、条件生成和了解。PUMA在繁多框架内顺应不同粒度需求的才干标记着MLLM才干的严重提高。这项上班为更通用和弱小的多模态人工智能系统开拓了新或者性,助力成功多模态畛域的人工通用智能的更宽泛目的。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: