Meta SOTA 新的视频生成模型 Gen Movie

2024-11-14

一、背景

前段时期 Meta 颁布了对标 OpenAI SORA 和快手可灵的视频生成模型 Movie Gen，这里咱们启动相关的技术解读。本文关键聚焦在其图像和视频生成模型局部，启动详细引见；而后对视频共性化、编辑和音频生成启动便捷概述。

对应的论文：Movie Gen: A Cast of Media Foundation Models

对应的 Blog：How Meta Movie Gen could usher in a new AI-enabled era for content creators

更多的 Video：Meta Movie Gen

咱们在之前的文章中也详细引见过各种文生图相关的技术打算、OpenAI SORA 技术原理以及 Meta 的 LLaMA 3 技术报告和大规模 GPU 集群树立，可以参考：

二、摘要

Movie Gen 是一组基础模型，可生成具有不同宽高比、同步音频的高品质 1080P 高清视频。此外，作者还展现了其余的才干，比如基于指令的准确视频编辑、依据用户图像生成共性化视频等。

作者的模型在多个义务上都到达了新的 SOTA 水平，包括：文本->视频生成、视频共性化、视频编辑、视频->音频生成、文本->音频生成等。

最大的视频生成模型是一个 30B 参数的 Transformer 模型，经过训练，最大高低文长度可达 73K 视频 Token，对应以每秒 16 帧的速度生成 16 秒的视频。此外，作者还展现了相应的多项技术翻新和简化，比如模型结构、隐空间、训练目的和打算、数据治理、评价以及并行化打算和推理优化打算，使得能够从裁减预训练数据、模型大小以及训练估算中获益，以最终训练大规模视频生成模型。

三、概览

总体来说，Movie Gen 蕴含 4 个模型以及 3 个基准。

3.1 四个模型

与 LLM 模型不同，LLM 聚焦与生成文本，而本文的 Movie Gen 模型聚焦于生成图像、视频和音频。蕴含 2 个基础模型、1 个共性化模型以及一个编辑模型。

两个基础模型为：

如下图所示为上述两个模型的经常使用示例：

共性化模型和视频编辑模型为：

如下图所示为上述两个模型的经常使用示例：

3.2 三个基准

为了更好的启动基准评价，作者也进一步颁布了 3 个评价基准：

四、图像和视频生成

4.1 概览

针对文本->图像和文本->视频生成，作者训练了一个一致的基座模型。作者将图像看做一个单帧的视频，给定一个文本揭示作为输入，模型可以生成蕴含一个或多个 RGB 图像作为输入的视频帧。

如下图 Figure 2 所示为 Movie Gen Video 模型的训练环节，其蕴含 3 个阶段：

为了优化训练和推理效率，生成是在紧缩的时空隐空间（spatio-temporally latent space）启动。因此作者训练了一个时序自编码模型（Temporal Autoencoder Model，TAE），以便将图像、视频编码到紧缩的时空隐空间。关于用户输入的文本优化，经常使用预训练的 Text Encoder 模型启动编码，以取得文本 Embedding，这也将作为生成模型的 Condition 输入。此外，作者经常使用 Flow Matching 训练目的来训练生成模型。将采样噪声和一切 Condition 作为输入，使 Generative 模型生成输入隐向量。而后经常使用 TAE 的 Decoder 将其映射回像素空间，以便生成图像和视频。整个环节如下图 Figure 3 所示（蕴含了上述的 TAE、Text Encoder 以及 Generative 模型）：

在对基座模型的一切组件启动设计选型时，作者都尽量器重便捷化，包括训练目的、骨干架构以及 TAE 的时空紧缩。详细来说，这些选用包括：

4.2 图像、视频基座模型

4.2.1 TAE 模型

上述提到的 TAE 模型是一个规范的 VAE（Variational AutoEncoder）模型。假定输入的空间维度为 T’ x 3 x H’ x W’，经过 TAE 的 Encoder 后将编码为 T x C x H x W 的隐空间向量，在空间、时期维度均是 8 倍下采样，也就是 T’/T=H’/H=W’/W=8；而 Decode 是 8 倍上采样。经过这种模式，可以大幅降低输入生成模型（Transformer Backone）的维度，以便生生长时期、高分辨率的视频帧。如下图 Figure 4 所示为相应的流程：

TAE 模型结构来自 [2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models （也就是 Stable Diffusion）中的 Image AutoEncoder 模型，并启动相应的修正以参与时序消息。详细来说：

TAE 模型的训练目的：如下图 Figure 5 所示，之前 StableDiffusion 中的训练目的容易造成 Spot Artifact 疑问，为了缓解这个疑问，作者在损失函数上参与了一个意外损失处罚（Outlier Penalty Loss，OPL），如下图公式（1）所示：

经过期序 tiling 成功高效推理：间接编码、解码高分辨率长视频的代价很高，比如 1024x1024 分辨率、256 帧须要十分大的存储空间。为了处置这个疑问，作者在时序维度将长视频切分为不同的 tile，而后每个 tile 区分启动编码和解码，最后再将结果融合到一同。在切片的时刻准许必定的 Overlap，假设口头 Overlap，则结果要对应线性加权。经常使用 Overlap 可以防止边界处的 Artifact，但是也会引入额外的计算开支。在作者的通常中，Encoder212!!@2121 并没有经常使用 Overlap，对应的 tile size 为 32（32个视频帧，降采样后关于隐空间 4 帧）；而在 Decoder 中经常使用了 16 帧的 Overlap（对应隐空间 2 帧）。如下图 Figure 6 所示为推理阶段对应的切片打算：

4.2.2 视频和图像生成训练目的

生成模型训练驳回了 [2210.02747] Flow Matching for Generative Modeling 提出的 Flow Matching 框架。

4.2.3 视频和图像生成 Backbone 架构

驳回了类 LLaMA 3 模型架构，并且经常使用了 RMSNorm 和 SwiGLU。关键做了 3 点变革：

对应的模型超参如下图 Table 1 所示，共蕴含 30B 参数量，由于间接基于 LLaMA 3 变革而来，也就可以间接运行 LLaMA 3 的相关阅历，比如模型结构超参性能，学习率和 Batch Size 设置等。

4.2.4 丰盛的文本 Embedding 和视觉-文本生成

如下图所示，作者经常使用了 3 个预训练的文本 Embedding 模型：UL2、ByT5 和 Long-prompt MetaCLIP，以便提早语义级（Semantic-Level）和字符级（Character-Level）文本 Embedding。

控制 FPS：经常使用 FPS Condition 来控制生成视频的长度，方法是将每个训练视频的采样 FPS 值预先参与到输入文本揭示（例如，“FPS-16”）。在预训练时期，以原始 FPS 采样视频切片，最小维 16 FPS；在微调中，以 16 和 24 两个固定 FPS 值采样视频切片。

4.2.5 空间上采样

须要说明的是，上述的模型生成最终只能生成 768 px 的视频，作者用过一个空间上采样模型（Spatial Upsample）将 768 px 的视频转换为 full HD(1080P) 分辨率的视频。可以大幅降低视频生成模型的计算开支，关键是低分辨率会大幅降低文本->视频模型处置的 Token 数。

如下图 Figure 7 所示，作者将空间上采样看做一个视频->视频的生成义务，低分辨率视频作为输入，高分辨率视频作为输入。

成功细节：空间上采样模型是一个文本->视频 Transformer 模型的变种，蕴含 7B 参数量，并经常使用 1024 px 训练的文本->视频模型来初始化，以便更好的应用高分辨率图像数据。空间上采样模型训练用于预测视频的隐向量，而后经常使用 VAE Decoder 逐帧生成视频帧。

如下图 Fig 3 所示，在 [2311.10709] Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning（也是 Meta 的上班）中，首先会经常使用文本揭示生成视频首帧 I，而后将生成的首帧 I 作为条件输入，同时经常使用 Mask m 标识首帧 I，而后经常使用生成模型 F 生成视频 V。

与上述 Emu Video 相似，空间上采样模型中编码视频在通道维度也会与生成视频拼接，一同输入空间上采样 Transformer 模型。由于拼接，输入初的附加参数也将初始化为 0。

作者在 K 高清视频上以 24 FPS、14 帧切片的模式训练空间上采样模型。并且驳回了二阶退步（[2107.10833] Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic>这种便捷的架构可以用于各种倍数的超分辨；但是，本文中作者只训练了 2x 的空间超分模型。与上述 TAE tail 相似，雷同会经常使用滑动窗口模式对视频启动上采样，窗口大小为 14，堆叠 4 个 Latent 帧。

这种便捷的架构可用于各种倍数的超分辨率；但是，咱们为咱们的案例训练了一个 2⇥ 的空间超分辨率模型。与 TAE 平铺（第 3.1.1 节）相似，咱们经常使用滑动窗口方法对视频启动上采样，窗口大小为 14，堆叠 4 个潜在帧。

内存限制造成不可经常使用更长的视频训练 Spatial Upsample。所以才经常使用上述滑动窗口的打算，但是，这也造成在边界处发生清楚不分歧的现象。为了防止这种状况，作者驳回了 MultiDiffusion（[2302.08113] MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation）打算，其无需训练，可以经过解放条件来保障不同生成阶段的分歧性。详细来说，在每个 Denoising Step 中，经常使用堆叠帧隐向量的加权平均值来促使窗口间的消息交流，以增强输入的时序分歧性。

4.2.6 模型裁减和训练效率

这个局部作者详细引见了高效训练 Movie Gen Video 30B 模型的打算，包括 Meta 的 AI Infra 树立，与 SOTA 模型训练的对比以及驳回的散布式并行战略等。

Infrastructure：咱们在前面的文章中引见过，Meta 有 2 个 24K H100 GPU 的>

Scheduler：训练义务调度驳回的是 Meta 在 MAST: Global Scheduling of ML Training across Geo-Distributed>

与 LLM 对比：LLM 通常驳回 Causal Mask Attention，而 Movie Gen Video 中驳回双向 Full Attention，这样就造成 Movie Gen Video 中 Attention 计算代价更高，简直是 LLM 的 2x。

此外，在 LLaMA 3 中会经常使用 GQA 来替代 MHA，以便降低 KV Cache 大小和计算量，推理时也可以进一步减速。由于 Movie Gen Video 不是自回归模型，也就不须要 KV Cache，因此作者并没有驳回 GQA。

和 LLaMA 3 相似，模型雷同支持可变的高低文长度，高低文长度与空间分辨率亲密相关。关于 768x 的训练，其高低文长度将到达 73K（768x768， 256 帧，8x8x8 的下采样 -> 768x768x256/8/8/8=294912，失掉 294912 个隐向量，而后经常使用 3D 卷积（2x2x1）失掉 73728 个 Token）。LLM 通常先在短高低文（比如 4K、8K）上预训练，而后裁减到长高低文，关键训练估算破费在短高低文预训练上；而 Movie Gen Video 的训练关键破费在 768x 的预训练上。

模型并行：由于模型比拟大，高低文序列很长，同时又是关键的训练开支，因此就须要尽或许高效的训练。为此，作者驳回了 3D 并行战略，准许灵敏的裁减 GPU 规模；详细来说，作者结合了 FSDP、TP、SP（Megatron-LM SP）和 CP（Megatron-LM CP）打算。

序列并行的打算有很多，上述提到 SP 和 CP 与 Megatron-LM 对应。如下图 Figure 5 所示为 Megatron-LM SP，其关键是为了处置 TP 中不可摊派的显存。作者剖析后发现 LayerNorm 和 Dropout 的输入输入没有被摊派到不同的 GPU。实践上它们在不同的 Token 上并没有依赖相关，因此可以依照 Sequence 维度启动切分，不同 GPU 只保管序列的一局部，也只计算这一局部：

在 Megatron-LM 中还有Megatron-LM CP（高低文并行，Context Parallelism），实践上就是依照输入序列启动切分。如下图所示为 Megatron-LM 中 TP 和 CP 的组合，其中 AG/RS 示意 Forward 为 All Gather，Backward 为 Reduce Scatter；RS/AG 示意 Forward 为 Reduce Scatter，Backward 为 All Gather。详细可参考 Context parallelism overview - NVIDIA Docs：

如下图 Figure 8 所示，作者展现了本文中如何在 Transformer 模型的不同局部运行这些并行打算：

其余局部的切分：

通讯和计算堆叠：只管并行打算可以经过跨 GPU 切分 FLOP 和内存需求来训练长序列 Transformer 模型，但是间接的成功或许带来额外的开支并造成效率低下。因此，作者构建了一个剖析框架来对计算和通讯时期启动建模，能够识别出须要 GPU 间通讯的重复 Activation，从而设计出高度优化的模型并行打算。作者自定义了相关并行化成功，用 PyTorch 编写并编译成 CUDAGraph，以最大限制的降低泄露的通讯时期、优化可用的 Activation 内存。

4.3 预训练

4.3.1 预训练数据

预训练数据集蕴含 O(100)M 视频-文本对数据和 O(1)B 图像-文本对数据。关于图像-文本数据驳回相似 [2311.10709] Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning 的打算，本文中作者关键聚焦在视频数据。

数据池中蕴含 4s-120s 的视频数据，蕴含各种场景，比如人类、人造、生物和物体等，最终会生成 4s-16s 的视频切片-文本对训练数据集。如下图 Figure 9 所示为其数据处置环节，总共蕴含 3 个过滤阶段和 1 个形容生成阶段：

如下图 Table 38 所示为各阶段的过滤阈值，最终只保管了不到 1% 的数据：

多阶段数据子集：作者整顿了 3 个预训练数据子集，具有逐渐严厉的 Visual、Motion 和 Content 阈值，以满足预训练不同阶段的需求。

时长和大小分桶：为了支持不同的视频长度和宽高比，作者依据宽高比和时长对数据启动分桶。每个桶中的视频最终都会生成齐全相反的隐空间大小，从而可以比拟轻松地对训练数据启动批处置。作者对图像和视频数据集经常使用 5 个宽高比，比如 1024x576，576x1024；此外，也蕴含 5 个时长桶（4s-16s）。经过在文本形容中参与 FPS Token 来引入 FPS 控制，从而准许以不同的帧率对视频启动采样（16-32 FPS）。

4.3.2 训练

与 Emu Video 相似，作者的 30B 模型训练雷同蕴含多个阶段，如下图 Table 3 所示：

如上图 Table 3 所示，在上述 768 px T2I/V 联结训练环节中其实阅历了多个子阶段，关键不同就是学习率和相应 Batch Size 的扭转。这是由于作者发如今训练到 10K 个 Step 时验证损失极速颤抖并且不怎样降低。因此，在 19.6K 个 Step 时将学习率减半。同时后续当验证损失不怎样降低时就降低学习率，如下图所示：

4.4 微调

与之前的上班相似，作者雷同在一个小的高品质视频数据集上微调预训练模型来优化生成视频的举措和美学品质。微调视频和形容是人工构建的，因此作者将这个阶段成为监视微调。在这个阶段作者训练了多个模型，而后经过模型平均打算将它们组合起来成为最终的模型。只管模型自身可以生成高品质的图像，但是作者发现专门针对图像的后训练可以进一步优化品质，将在后续局部引见。

微调数据集：目的是搜集一组用于微调的高品质视频，这些视频具有良好的举措、实在度、好看度，同时具有宽泛的概念和高品质的形容。为此，作者从少量视频开局，经过智能和人工过滤打算来失掉视频，详细来说蕴含 4 个关键阶段：

监视微调打算：SFT 中，经常使用预训练的 Checkpoint 初始化启动微调。经常使用了相对比拟小的 Batch Size 和 64 个节点（512 H100 GPU）来训练模型，并经常使用 Cosine 学习率调度。与预训练相似，16s 视频经常使用 16FPS 训练，10.6s-16s 视频经常使用 24FPS 训练。经过训练，可以更好地支持 10s 和 16s 视频生成。

模型平均：作者试验标明，选用不同的微调数据集、超参数以及 Checkpoint 会清楚影响模型成果，包括举措、分歧性和相机控制。为了应用这些模型的不同长处，作者驳回了模型平均打算。和 LLaMA 3 相似，对经常使用各个版本的微调数据、超参数和 Checkpoint 试验取得的模型启动平均。

4.5 推理

4.5.1 推理揭示改写

推理时的文本揭示或许和训练时有比拟大的差异，比如写作格调，长度等，比如很多用户揭示都少于 10 个单词，远小于训练时揭示的平均长度。为了减小差异，作者应用 LLaMA3（推理改写模型，Rewrite Model）将冗长揭示转换为详细形容。详细来说：

为了提高 Rewrite Model 的计算效率，作者额外提出了一种蒸馏打算。详细来说，经常使用基座模型训练集中的详细揭示说明和高低文学习示例，基于 LLaMA3-70B 模型构建揭示改写老师模型，而后搜集人机协同（Human-in-the-loop，HITL）微调数据。详细来说，是经常使用 LLaMA3 70B 揭示改写模型对大规模 Prompt Pool 中的样本启动推理，并依照品质指南经过人工评价选用高品质的改写。最后在挑选出的 HITL 数据集上微调了一个 8B LLaMA3 模型，失掉最终的改写模型。

4.5.2 优化推理效率

作者发现，与图像生成相比，视频生成额外引入了时期维度，增加视频生成中的推理步数比图像生成更有应战，视频生成的举措品质等对推理步数更为敏感。比如，经常使用 250、500 和 1000 个线性步骤生成的视频在场景构图和举措品质方面有清楚的差异。只管可以驳回蒸馏等打算减速，但是须要引入额外的训练，为此作者驳回了一种比拟便捷的纯推理打算，只有几行代码就可以提速 20x。

作者发现，经过实施线性二次 t-schedule，可以仅用 50 个 Step 就取得凑近 N Step 生成的品质。这种方法保管 N Step 线性 schedule 的前 25 个 Step，而后在后 25 个 Step 驳回二次搁置近似。这样做是由于作者观察到一些共同的现象，如下图 Figure 10 所示，作者统计了每个推理 Step 中每个 Transformer Block 输入和输入的平均变动。可以看出，在前期变动很快，而后很快就趋近于比拟稳固，变动很小。通常中，作者经常使用 50 Step 的线性二次 schedule 模拟 N=250 的线性 Step 可以取得最佳结果。

4.6 评价

4.6.1 评价维度

作者从 3 个维度启动评价：文本对齐（Text-alignment）、视觉品质（Visual quality）以及实在度和好看度（realness、aesthetics）。如下图 Table 4 所示：

4.6.2 评价基准

作者构建了 Movie Gen Video Bench 评价基准，蕴含 1000 个揭示，笼罩上述提到的各种起因。该基准比之前的基准大 3x。如下 Table 5 所示，该基准中关键蕴含 5 类概念：人类优惠、生物、人造景色、物理、不经常出现物体或优惠。

如下图 Figure 11 是相应的评价集散布：

4.7 结果

4.7.1 与之前上班对比

如下图 Table 6 所示，作者与之前的 SOTA 打算启动对比，包括 Runway Gen3，LumaLabs，OpenAI Sora 以及快手 Kling1.5。净胜率的计算是基于 Movie Gen Video 与其余模型在视频生成义务中的间接对比，范畴 [-100%，100%]，其中正数示意 Movie Gen Video 的胜率高于对比模型，正数则示意其体现不如对比模型。σ 示意每个维度下的规范差。可以看出：

如下图 Figure 15 所示，作者对比了不同迭代阶段 Checkpoint 的评价结果以及对应的验证损失，可以看出，验证损失在继续降低，同时全体评价品质在越靠后的 Checkpoint 上体现越好，证实 Flow Matching 验证损失可以作为模型开发环节中人工评价的有效代理：

4.7.2 消融试验

作者经常使用 5B 参数量的 Movie Gen Video 模型来启动消融试验，其生成 4-8s 352x192 px 的视频。

如下图 Table 8 所示，作者启动了一系列对比试验，其中 Q 示意全体品质，A 示意文本对齐。试验包括包括：

如下图所示为上述类 LLaMA 3 结构和 DiT 结构的差异，其余都坚持相反：

4.7.3 TAE 结果

如下图 Table 10 所示，作者进一步对比了本文 TAE 与 Frame-wise 的 AutoEncoder 的性能差异

4.7.4 TAE 消融试验

如下图 Table 11 所示，作者也对比了 TAE 中 2.5D Attention/Convolution（先 2D 空间口头，而后 1D 时序维口头）与 3D Attention/Convolution 的性能差异。3D 打算有更好的重建品质，但是优化不大，而 2.5D 打算在 FID 上有清楚长处，因此驳回 2.5D：

如下图 Table 12 所示，作者也对比了能否参与意外处罚损失（OPL）的影响，可以看出，参与 OPL 后有比拟清楚的优化：

4.7.5 空间上采样结果

如下图 Figure 17 所示，经过空间上采样后明晰度和视觉品质有了清楚优化：

4.8 文本 -> 图像生成

4.8.1 方法

关于文本->图像模型，目的是生成真切的图像。作者经常使用 Movie Gen 模型作为初始化，将 TAE 交流为 Image AutoEncoder。而后，在文本->图像生成义务上训练模型，使其能依据文本形容生成图像，最终分辨率为 1024 px。在 Post Training 中，作者依照 [2309.15807] Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack 中的模式构建了 O(1000) 张高品质图像，并训练了 6K Step，学习率 0.00001，Batch Size 64，并且 Warmup 2000 Step。

4.8.2 结果

如下图所示，作者应用 ELO 评级系统对 SOTA 模型启动对比，本文的模型取得了最优性能：

五、共性化视频

5.1 模型

如下图 Figure 20 所示，其关键的不同是将人脸图像经 Long-prompt MetaCLIP 的 Vision Encoder 提取 Vision Embedding，而后经过投影与文本 Embedding 拼接在一同作为 Condition 输入模型：

5.2 预训练

5.2.1 预训练数据

从原始的 T2V 视频数据当选用人类相关的子集，而后每 1s 提取一张人脸，并计算人脸相似性（ArcFace cosine similarity score 超越 0.5 以为是一团体）。而后挑选仅蕴含一团体的视频，失掉 O(1) M 文本-视频数据对。

而后作者将其分为 “paired” 和 “cross-paired” 数据，区别是对应的 Reference 人脸能否来自对应的视频切片。作者发现，假设只经常使用 “paired” 数据，也就是视频切片中蕴含对应的 Reference 人脸，则会造成过拟合，也就是发生间接拷贝人脸的成果。

5.2.2 预训练打算

作者发现间接训练生生长视频比拟艰巨，因此也分为多个阶段训练，如下图 Figure 21 所示：

5.3 监视微调

与 Movie Gen Video 的 Post Training 相似，作者也额外搜集了一批高品质的微调数据，目的是生成具有良好举措品质的高度好看的视频。作者从 T2V 微调数据集开局，挑选蕴含只蕴含一团体的视频。然前人工选用具有不同人类举措的视频，确保数据集蕴含各种举措和行为。最终数据集蕴含 O(1000) 个高品质视频，其中 “paired” 和 “cross-paired” 的比例为 1:1。

5.4 评价&结果

如下图 Figure 22 所示为本文打算与 ID-Animator 生功成果的对比：

如下图 Table 12 所示，提出的 PT2V 模型清楚优于之前的 ID-Animator 打算：

如下图 Table 14 和 Table 16 所示，训练 Vision Encoder 在一切目的上都有所优化，而 Cross-Paired 训练会造成 Identity 目的降低，但对改善生成视频的面部表情和人造举措至关关键：

如下图 Table 15 所示，PT2V 微调后一切目的上均优于 ID-Animator；PT2V 相比没有视觉 Condition 的 T2V 相比，全体品质更高，分歧性也更好，但是举措完整性和文本对齐方面稍弱：

六、指令疏导准确编辑

6.1 模型

鉴于监视视频编辑数据的稀缺性，训练模型来口头视频编辑容易发生训练和测试阶段的偏向，从而造成生成品质欠佳。为了应答这一应战，作者引入了一种多阶段打算，以逐渐增加这些差异。如下图 Figure 24 所示：

6.2 评价

6.2.1 视频编辑基准测试

TGVE+ 基准测试：这是最近提出的基准测试，包括 76 个视频，每个视频附带 7 个编辑指令，笼罩多种编辑义务，如物体修正、背景修正等。但这些视频分辨率比拟低，都是 480x480 px，时长比拟短，10FPS 的 3.2s 视频或 16FPS 的 8s 视频。

Movie Gen Edit Bench 基准测试：为了评价新一代的视频编辑模型，作者提出了新的基准，包括不同分辨率、帧率、长度和宽高比的视频。初始数据来自 Segment-Anything V2 数据集的 51000 个视频，经过好看度和举措得分过滤，构建了验证集和测试集，验证集蕴含 64 个视频，测试集蕴含 128 个视频。此外，经过众包为每个视频和编辑操作编写编辑指令，以支持经常使用基于 CLIP 的图像编辑评价目的。作者额外为每个视频针对每个编辑义务构建了 1 个输入和输入形容，最终的基准蕴含 1152 个样本。(128+64)x6=1152。

6.2.2 视频编辑评价目的

关键评价模型编辑输入视频的才干，同时准确遵照提供的揭示指令，并保管那些应坚持不变的结构和元素。经常使用人工评价和智能化评价目的来评价。

6.3 结果

6.3.1 与之前上班对比

如下图 Table 17 所示，作者评价了 Movie Gen Edit 模型与多个视频编辑模型的性能，包括无需训练的打算（如 SDEdit）和须要训练的打算（如 InsV2V 和 EVE 等），可以看出：

6.3.2 消融试验

第一阶段：如下图 Table 18 所示，作者对比了两种变体的影响，人工评价标明本文的模型在图像编辑义务上具有更好性能。

第二阶段：如下图 Table 19 所示，评价了经常使用 Animated Frame Editing 相比 Animated Image Editing 的成果，人类评价员更青睐 Animated Frame Editing 的结果：

第三阶段：如下图 Table 20 所示，对比经常使用 BackTranslation 打算与规范微调打算，人类评价员更青睐 BackTranslation 打算的结果：

不同阶段对比：经过比拟每个训练阶段的模型，作者发现每个后续阶段的模型都在人类评价中更受偏好，标明多阶段训练方法的有效性。

七、声响和音乐生成

7.1 模型

Movie Gen Audio 模型的目的是为视频切片和短片生成音轨（soundtrack），时期或许从几秒到几分钟不等。触及的音轨包括环境声响、音效（Foley）和器乐（instrumental music），但是不包括语音或带人声的音乐。特意是，环境声响应与视觉幻觉相婚配，音效应在时期上与举措坚持分歧，并且关于视觉对象应该正当。

为了支持可变时长视频的音轨，作者构建了一个音频生成打算，即可以给定视频生成音频，也可以给定局部音频来裁减。如下图 Figure 27 所示为生成环节，其外围是有 Overlap 的分块生成：

如下图 Figure 28 所示为对应的 Movie Gen Audio 模型架构，其驳回了 Flow Matching + DiT 的打算，其中黄色示意输入，蓝色示意预训练后解冻的局部，灰色示意没有可学习参数，绿色为可学习的模块：

7.2 数据

如下图所示为不同的数据类别：

如下图 Table 24 所示为对应的预训练数据集类别及数量：

如下图 Table 25 所示为微调数据集的散布：

7.3 评价&结果

如下图 Table 29 和 Table 30 所示，作者对比了本文 Movie Gen Audio 模型与以前 SOTA 模型，净胜率范畴为 [-100%, 100%]，正值示意 Movie Gen Audio 的品质更优。可以看出，Movie Gen Audio 简直在一切义务上都取得更好的成果：

八、参考链接

本文转载自，作者：

<<10 KimiChat 秒让给你画个流程图

NiFi 的利器十年一剑初识这把 1>>

Meta SOTA 新的 视频生成模型 Gen Movie