详解Latte 运行于文生视频的DiT模型

2024-11-15

随着 Sora 的成功颁布，视频 DiT 模型获取了少量的关注和探讨。设计稳固的超大规模神经网络不时是视觉生成畛域的钻研重点。DiT [1] 的成功为图像生成的规模化提供了或许性。但是，因为视频数据的高度结构化与复杂性，如何将 DiT 扩展到视频生成畛域却是一个应战，来自上海人工自动试验室的钻研团队联结其余机构经过大规模的试验回答了这个疑问。早在去年 11 月，该团队就曾经开源了一款与 Sora 技术相似的自研模型：Latte。作为环球首个开源文生视频 DiT，Latte 遭到了宽泛关注，并且模型设计被泛滥开源框架所经常使用与参考，如 Open-Sora Plan (PKU) 和 Open-Sora (ColossalAI)。

论文标题：

Latte: Latent Diffusion Transformer for Video Generation

论文链接：

开源链接：

名目主页：

先来看下Latte的视频生功成果。

一、方法引见

总体上，Latte 蕴含两个关键模块：预训练 VAE 和视频 DiT。预训练 VAE 编码器将视频逐帧从像素空间紧缩到隐空间，视频 DiT 对隐式表征提取 token 并启动时空建模，最后 VAE 解码器将特色映射回像素空间生成视频。为了获取最优的视频品质，作者着重探求了 Latte 设计中两个关键内容，(1) 视频 DiT 模型全体结构设计以及 (2) 模型与训练细节的最优设计（The best practices）。

1.1 Latte 全体模型结构设计探求

图 1. Latte 模型结构及其变体

作者提出了 4 种不同的 Latte 变体 (图 1)，从时空留意力机制的角度设计了两种 Transformer 模块，同时在每种模块中区分钻研了两种变体（Variant）：

1.单留意力机制模块 ，每个模块中只蕴含 期间或许空间留意力 。

时空交织式建模 (Variant 1): 期间模块拔出到各个空间模块之后。

时空顺序式建模 (Variant 2): 期间模块全体置于空间模块之后。

2. 多留意力机制模块 ，每个模块中 同时蕴含期间与空间留意力机制 (Open-sora所参考变体) 。

串联式时空留意力机制 (Variant 3): 时空留意力机制串行建模。

并联式时空留意力机制 (Variant 4): 时空留意力机制并行建模并特色融合。

试验标明（图 2），经过对 4 种模型变体设置相反的参数量，变体 4 相较于其余三种变体在 FLOPS 上有着清楚的差异，因此 FVD 上也相对最高，其余 3 种变体总体功能相似，变体 1 取得了最优秀的功能，作者方案未来在大规模的数据上做愈加粗疏的探讨。

图 2. 模型结构 FVD

1.2 Latte 模型与训练细节的最优设计探求（The best practices）

除了模型总体结构设计，作者还探求了其余模型与训练中影响生功成果的要素。

1. Token 提取 ：探求了单帧 token（a）和时空 token（b）两种方式，前者只在空间层面紧缩 token，后者同时紧缩时空消息。试验显示 单帧 token 要优于时空 token （图 4）。与 Sora 启动比拟，作者猜想 Sora 提出的时空 token 是经过视频 VAE 启动了期间维度的预紧缩，而在隐空间上与 Latte 的设计相似都只启动了单帧 token 的解决。

图 3. Token 提取方式，(a) 单

帧 token 和 (b) 时空 token

图 4. Token 提取 FVD

2. 条件注入形式 ：探求了（a）S-AdaLN 和（b）all tokens 两种方式 (图 5)。S-AdaLN 经过 MLP 将条件消息转换为归一化中的变量注入到模型中。All token 方式将一切条件转化为一致的 token 作为模型的输入。试验证实， S-AdaLN 的方式相较于 all token 关于取得高品质的结果愈加有效 (图 6)。要素是，S-AdaLN 可以使消息被间接注入到每一个模块。而 all token 须要将条件消息从输入逐层传递到最后，存在着消息流动环节中的损失。

图 5. (a) S-AdaLN 和 (b) all tokens。

图 6. 条件注入方式 FVD

3. 时空位置编码 ：探求了相对位置编码与相对位置编码。 不同的位置编码对最后视频品质影响很小 (图 7)。因为生成时长较短，位置编码的不同无余以影响视频品质，关于长视频生成，这一要素须要被从新思考。

图 7. 位置编码方式 FVD

4. 模型初始化 ：探求经常使用 ImageNet 预训练参数初始化对模型功能的影响。试验标明， 经常使用 ImageNet 初始化的模型具有较快的收敛速度，但是，随着训练的启动，随机初始化的模型却取得了较好的结果 (图 8)。或许的要素在于 ImageNet 与训练集 FaceForensics 存在着比拟大的散布差异，因此未能对模型的最终结果起到促成作用。而关于文生视频义务而言，该论断须要被从新思考。在通用数据集的散布上，图像与视频的内容空间散布相似，经常使用预训练 T2I 模型关于 T2V 可以起到极大的促成作用。

图 8. 初始化参数 FVD

5. 图像视频联结训练 ：将视频与图像紧缩为一致 token 启动联结训练，视频 token 担任优化所有参数，图像 token 只担任优化空间参数。 联结训练关于最终的结果有着清楚的优化 (表 2 和表 3)，无论是图片 FID，还是视频 FVD，经过联结训练都获取了降落，该结果与基于 UNet 的框架 [2][3] 是分歧的。

6. 模型尺寸 ：探求了 4 种不同的模型尺寸，S，B，L 和 XL (表 1)。 扩展视频 DiT 规模关于提高生成样本品质有着清楚的协助 (图 9)。该论断也证实了在视频分散模型中经常使用 Transformer 结构关于后续 scaling up 的正确性。

表 1. Latte 不同尺寸模型规模

图 9. 模型尺寸 FVD

三、定性与定量剖析

作者区分在 4 个学术数据集（FaceForensics，TaichiHD，SkyTimelapse 以及 UCF101）启动了训练。定性与定量（表 2 和表 3）结果显示 Latte 均取得了最好的功能，由此可以证实模型全体设计是具有优秀性的。

表 2. UCF101 图片品质评价

表 3. Latte 与 SoTA 视频品质评价

三、文生视频扩展

为了进一步证实 Latte 的通用功能，作者将 Latte 扩展到了文生视频义务，应用预训练 PixArt-alpha [4] 模型作为空间参数初始化，依照最优设计的准则，在经过一段期间的训练之后，Latte 曾经初步具有了文生视频的才干。后续方案经过扩展规模验证 Latte 生成才干的下限。

四、探讨与总结

Latte 作为全环球首个开源文生视频 DiT，曾经取得了很有前景的结果，但因为计算资源的渺小差异，在生成明晰度，流利度上以及时长上与 Sora 相比还具有不小的差距。团队欢迎并在踊跃寻求各种协作，宿愿经过开源的力气，打造出功能出色的自主研发大规模通用视频生成模型。

参考文献

[1] Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[2] Ho, Jonathan, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303 (2022)

[3] Wang, Yaohui, et al. "Lavie: High-quality video generation with cascaded latent diffusion models." arXiv preprint arXiv:2309.15103 (2023).

[4] Chen, Junsong, et al. "PixArt-: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis." arXiv preprint arXiv:2310.00426 (2023).

IllustrationFrom IconScout By22

本文转载自将门创投，作者：

<<史上最丑AI生图一夜爆火！又一款妙鸭级爆品来了

AI写简历罕用的指令大全>>