Lumina
近年来,随着分散模型在生成义务中的宽泛运行,它们曾经成为了生成式人工自动畛域的关键组成局部。从Stable Diffusion到Sora,这些模型在生成实在图像和视频方面取得了清楚成功,标记着从经典U-Net架构向基于Transformer的分散骨干架构的转变。最新的停顿是Lumina-T2X系列模型,它经过基于流的大型分散Transformer(Flag-DiT),成功了图像、视频、音频和3D对象的生成。
一、背景与应战
只管诸如Sora和Stable Diffusion这样的模型曾经证实了它们在生成高品质图像和视频方面的后劲,但它们理论专一于繁多模态的义务,且不足具体的成功说明和预训练模型,这限度了它们在社区中的宽泛经常使用。此外,这些模型往往不足跨模态的顺应性,难以处置多种模态的数据。
二、Lumina-T2X与Flag-DiT
为了处置上述疑问,上海AI Lab、香港中文大学和英伟达的钻研人员联结推出了Lumina-T2X系列模型,其中包括一个领有70亿参数的大型分散Transformer——Flag-DiT,以及一个蕴含130亿参数的多模态大言语模型SPHINX。
Flag-DiT架构
Flag-DiT基于Diffusion Transformer(DiT)启动了改良,具备杰出的稳固性、灵敏性和可裁减性。它经过交流LayerNorm为RMSNorm和引入键查问归一化(KQ-Norm),提高了训练的稳固性。此外,Flag-DiT还驳回了相对位置编码(RoPE)以允许恣意分辨率的图像生成。
Lumina-T2X的全体流程
Lumina-T2X在训练环节中关键由四个组件组成:不同模态的逐帧编码、多种文本编码器启动文本编码、输入和指标构建,以及网络架构和损失函数的定义。这些组件协同上班,确保模型能够有效地处置和生成不同模态的数据。
三、模型才干展现
Lumina-T2X系列模型能够生成高品质的图像、视频、3D对象和语音,成功了真正的“大一统”。例如,Lumina-T2I模型不只可以生成高品质的图像,还允许分辨率外推、高分辨率编辑、构图生成等配置。
Lumina-T2I的初级运行
Lumina-T2I允许多种初级配置,包括:
试验结果
在ImageNet上的试验显示,Flag-DiT在不经常使用无分类指点的状况下,FID分数清楚降落,证实了参与模型参数可以清楚提高样本品质。此外,Flag-DiT的训练效率也获取了优化,每秒可处置更多图像。
四、论断
Lumina-T2X系列模型及其外围组成局部Flag-DiT代表了分散模型畛域的一项关键停顿。经过集成图像、视频、音频和3D对象的生成才干,这些模型为钻研人员和开发者提供了一个弱小的工具箱,用于创立跨模态的生成式运行。
本文转载自,作者: