Lumina

2024-11-15

近年来，随着分散模型在生成义务中的宽泛运行，它们曾经成为了生成式人工自动畛域的关键组成局部。从Stable Diffusion到Sora，这些模型在生成实在图像和视频方面取得了清楚成功，标记着从经典U-Net架构向基于Transformer的分散骨干架构的转变。最新的停顿是Lumina-T2X系列模型，它经过基于流的大型分散Transformer（Flag-DiT），成功了图像、视频、音频和3D对象的生成。

一、背景与应战

只管诸如Sora和Stable Diffusion这样的模型曾经证实了它们在生成高品质图像和视频方面的后劲，但它们理论专一于繁多模态的义务，且不足具体的成功说明和预训练模型，这限度了它们在社区中的宽泛经常使用。此外，这些模型往往不足跨模态的顺应性，难以处置多种模态的数据。

二、Lumina-T2X与Flag-DiT

为了处置上述疑问，上海AI Lab、香港中文大学和英伟达的钻研人员联结推出了Lumina-T2X系列模型，其中包括一个领有70亿参数的大型分散Transformer——Flag-DiT，以及一个蕴含130亿参数的多模态大言语模型SPHINX。

Flag-DiT架构

Flag-DiT基于Diffusion Transformer（DiT）启动了改良，具备杰出的稳固性、灵敏性和可裁减性。它经过交流LayerNorm为RMSNorm和引入键查问归一化（KQ-Norm），提高了训练的稳固性。此外，Flag-DiT还驳回了相对位置编码（RoPE）以允许恣意分辨率的图像生成。

Lumina-T2X的全体流程

Lumina-T2X在训练环节中关键由四个组件组成：不同模态的逐帧编码、多种文本编码器启动文本编码、输入和指标构建，以及网络架构和损失函数的定义。这些组件协同上班，确保模型能够有效地处置和生成不同模态的数据。

三、模型才干展现

Lumina-T2X系列模型能够生成高品质的图像、视频、3D对象和语音，成功了真正的“大一统”。例如，Lumina-T2I模型不只可以生成高品质的图像，还允许分辨率外推、高分辨率编辑、构图生成等配置。

Lumina-T2I的初级运行

Lumina-T2I允许多种初级配置，包括：

试验结果

在ImageNet上的试验显示，Flag-DiT在不经常使用无分类指点的状况下，FID分数清楚降落，证实了参与模型参数可以清楚提高样本品质。此外，Flag-DiT的训练效率也获取了优化，每秒可处置更多图像。

四、论断

Lumina-T2X系列模型及其外围组成局部Flag-DiT代表了分散模型畛域的一项关键停顿。经过集成图像、视频、音频和3D对象的生成才干，这些模型为钻研人员和开发者提供了一个弱小的工具箱，用于创立跨模态的生成式运行。

本文转载自，作者：

<<文本间接生成多视角3D图像 Meta推出翻新模型

Informer 拒绝消息暴露！VMD滚动合成>>