成果逾越Gen 10倍速度打破品质瓶颈

2024-11-15

论文链接:

名目链接：

基于分散的文本到视频（T2V）模型取得了清楚的成功，但依然遭到迭代采样环节速度缓慢的影响。为了处置这一应战，一些分歧性模型被提进去促成极速推理，虽然以就义样本品质为代价。在这项上班中， 旨在打破视频分歧性模型（VCM）的品质瓶颈，成功极速且高品质的视频生成 。本文引入了 T2V-Turbo，未来自不同可微分鼓励模型混合的反应集成到预训练T2V模型的分歧性蒸馏（CD）环节中 。值得留意的是，本文间接优化与单步生成关系的鼓励，这些鼓励人造发生于计算CD损失，有效地绕过了经过迭代采样环节反向流传梯度所施加的内存限度。值得留意的是，本文的T2V-Turbo发生的4步生成在VBench上取得了最高的总分，甚至超越了Gen-2和Pika。

本文进一步启动了人类评价来证明结果，验证了本文的T2V-Turbo发生的4步生成优于它们的老师模型发生的50步DDIM样本，这示意 视频生成品质的优化了十倍以上，同时减速了视频生成的环节。

引见

分散模型（DM）曾经成为神经图像和视频分解的弱小框架，减速了文本到视频（T2V）模型的前沿开展，例如Sora，Gen-2和Pika。虽然这些基于分散的模型的迭代采样环节确保了高品质的生成，但它清楚减慢了推理速度，阻碍了它们的实时运行。另一方面，现有的开源T2V模型，包含VideoCrafter和ModelScopeT2V，是在网络规模的视频数据集上训练的，例如WebVid-10M，视频品质各不相反。因此，生成的视频通常在视觉上看起来不吸引人，并且不可准确与文本揭示对齐，偏离了人类的偏好。

为了处置上述列出的疑问，曾经启动了一些致力。为了减速推理环节，Wang等人运行了分歧性蒸馏（CD）切实，从老师T2V模型中蒸馏出一个视频分歧性模型（VCM），使得在只有4-8个推理步骤中便能生成正当的视频。但是，VCM生成的品质遭到老师模型功能的人造瓶颈限度，并且缩小的推理步骤进一步降落了其生成品质。另一方面，为了使生成的视频与人类偏好坚持分歧，InstructVideo自创了图像生成技术，并提出经过迭代视频采样环节反向流传可微分鼓励模型（RM）的梯度。但是，计算完整的鼓励梯度老本过高，造成了渺小的内存老本。因此，InstructVideo经过将梯度计算限度为仅在最终DDIM步骤中截断采样链，从而侵害了优化精度。此外，InstructVideo受限于其依赖于图像文本RM，不可充沛捕捉视频的过渡灵活。从阅历上看，InstructVideo仅对有限的一组用户揭示启动试验，其中大少数与生物关系。因此，它对更宽泛范畴揭示的泛化性依然是未知的。

本文旨在 经过打破VCM的品质瓶颈，成功极速且高品质的视频生成 。本文引见了T2V-Turbo，它未来自多种RM混合的鼓励反应集成到从老师T2V模型中蒸馏VCM的环节中。除了应用图像文本RM来使单个视频帧与人类偏好对齐之外，本文进一步结合了来自视频文本RM的鼓励反应，片面评价生成视频中的期间灵活和过渡。本文强调，本文的鼓励优化防止了经过迭代采样环节反向流传梯度所触及的高度消耗内存的疑问。相反，本文间接优化由计算CD损失而发生的单步生成的鼓励，有效地规避了传统方法面临的优化DM时的内存限度。

依据阅历，本文展现了T2V-Turbo在4-8个推理步骤内生成高品质视频的优越性。为了说明本文方法的实用性，区分从VideoCrafter2和ModelScopeT2V中提取T2V-Turbo（VC2）和T2V-Turbo（MS）。值得留意的是，T2V-Turbo的两个变体在4个步骤生成的结果都优于视频评价基准VBench上的SOTA模型，甚至超越了经常使用少量资源训练的专有系统，如Gen-2和Pika。本文进一步经过经常使用EvalCrafter基准中的700个揭示启动人类评价来证明这些结果，验证了T2V-Turbo的4步生成优于其老师T2V模型的50步DDIM样本，这代表了十倍以上的推理减速和增强的视频生成品质。

本文的奉献有三点：

经常使用混合鼓励反应训练T2V-Turbo

特意是，本文应用图像文本 RM 的鼓励反应来提高每个独自视频帧的人类偏好，并进一步应用视频文本 RM 的反应来改善生成视频中的期间灵活和过渡。

优化人类对团体视频片段的偏好

优化Video-Text反应模型

总结

为了缩小内存和计算老本，将本文的T2V-Turbo初始化为老师模型，并且仅优化LoRA权重，而不是口头完整的模型训练。在成功训练后，本文兼并LoRA权重，使得本文的T2V-Turbo每步推理老本坚持与老师模型相反。

试验结果

本文的试验旨在展现T2V-Turbo在4-8个推理步骤内生成高品质视频的才干。本文首先在规范基准测试集VBench上启动智能评价，以综合评价本文的方法在各个维度上的功能，并与宽泛的基线方法启动比拟。而后，本文经常使用来自EvalCrafter的700个揭示启动人类评价，比拟T2V-Turbo的4步和8步生成与老师T2V模型的50步生成以及基线VCM的4步生成。最后，对主要设计选用启动消融钻研。

VBench 智能求值

本文评价了本文的T2V-Turbo（VC2）和T2V-Turbo（MS），并将它们与宽泛的基线方法启动比拟，经常使用了规范视频评价基准VBench。VBench旨在从16个解耦维度片面评价T2V模型。VBench中的每个维度都依据特定的揭示和评价方法启动了定制。

下表1比拟了本文方法的4步生成与VBench排行榜上各种基线方法的比拟，包含Gen-2、Pika、VideoCrafter1、VideoCrafter2、Show-1、LaVie和 ModelScopeT2V。原文附录中的表4进一步将本文的方法与VideoCrafter0.9、LaVie-Interpolation、Open-Sora和 CogVideo 启动了比拟。每个基线方法的功能间接来自于VBench排行榜。为了取得本文方法的结果，本文严厉遵照VBench的评价协定，为每个揭示生成5个视频以计算目的。本文进一步从VideoCrafter2和ModelScopeT2V中提取VCM（VC2）和VCM（MS），并将它们的结果启动比拟，而不包含鼓励反应。

VBench曾经制订了自己的规定来计算 总得分、品质得分和语义得分 。品质得分是经常使用顶部表格中的7个维度计算的。语义得分是经常使用底部表格中的9个维度计算的。而总得分是品质得分和语义得分的加权和。正如上表1所示，本文的T2V-Turbo（MS）和T2V-Turbo（VC2）的4步生成在总得分方面超越了VBench上的一切基线方法。这些结果尤其有目共睹，由于本文甚至超越了经常使用少量资源训练的专有系统Gen-2和Pika。即使从一个较不先进的老师模型ModelScopeT2V启动提取，本文的T2V-Turbo（MS）也取得了第二高的总得分，仅次于本文的T2V-Turbo（VC2）。此外，本文的T2V-Turbo经过逾越其老师T2V模型打破了VCM的品质瓶颈，清楚优于基线VCM。

经常使用 700 个 EvalCrafter 揭示启动人工评价

为了验证本文的T2V-Turbo的有效性，本文将T2V-Turbo的4步和8步生成与相应老师T2V模型的50步DDIM样本启动比拟。本文进一步比拟了从相反老师T2V模型提取时，本文的T2V-Turbo的4步生成与它们基线VCM的4步生成。

本文应用来自EvalCrafter视频评价基准的700个揭示，这些揭示是基于实在环球的用户数据构建的。本文从亚马逊的 Mechanical Turk 平台雇用人类标注员来比拟经常使用相反揭示生成的不同模型的视频。关于每次比拟，标注员须要回答三个疑问：

下图3提供了完整的人类评价结果。本文还在图4中对不同的方法启动了定性比拟。附录F进一步包含了额外的定性比拟结果。值得留意的是，与其老师T2V模型的50步生成相比，本文的T2V-Turbo的4步生成遭到人类的青眼，示意推理减速了25倍并优化了功能。经过将推理步骤参与到8步，本文可以进一步改善从本文的T2V-Turbo生成的视频的视觉品质和文本-视频对齐，理想上，本文的8步生成在一切3个评价目的中都更受人类喜欢，相比本文的4步生成。此外，本文的T2V-Turbo清楚优于其基线VCM，证明了将混合鼓励反应归入模型训练的方法的有效性。

消融试验

论断 & 限度

在本文中，提出了T2V-Turbo，经过打破VCM的品质瓶颈，成功了极速和高品质的T2V生成。详细来说，本文将混合鼓励反应集成到老师T2V模型的VCD环节中。从阅历上讲，本文经过从VideoCrafter2和ModelScopeT2V中提取T2V-Turbo（VC2）和T2V-Turbo（MS）来说明本文方法的实用性。值得留意的是，本文的两个T2V-Turbo的4步生成都优于VBench上的SOTA方法，甚至超越了它们的老师T2V模型和专有系统，包含Gen-2和Pika。人类评价进一步证明了这些结果，显示出本文的T2V-Turbo的4步生成遭到人类的青眼，而不是它们的老师的50步DDIM样本，这代表了超越十倍的推理减速和品质改良。

原文链接:

<<LLM的数数才干有多弱一个意想不到的罪魁祸首

Zyphra颁布Zamba2>>