定制化视频生成新榜样!零样本主体驱动 阿里等颁布DreamVideo 准确静止控制!复旦&
文章链接:名目链接:
亮点直击
总结速览
处置的疑问
现有的视频定制生成方法须要在测试时启动复杂的微调,且难以平衡主体学习与静止控制,限度了其在实践运行中的成果。
提出的打算
提出了DreamVideo-2,一种无需测试时微调的零样本视频定制框架,经过单张图像和一组边界框序列指点视频生成,确保生成视频的特定主体和静止轨迹。
运行的技术
到达的成果
在一个新构建的数据集上的少量试验标明,DreamVideo-2在主体定制和静止控制方面均优于现有的先进方法。
方法
给定一个定义主体外观的单个主体图像和一个形容静止轨迹的边界框序列, DreamVideo-2 旨在生成蕴含指定主体和静止轨迹的视频,无需在推理时启动微调或修正,如下图2所示。为了学习主体外观,应用模型的固有才干,并引入了参考留意力。关于静止控制,提出经常使用mask作为静止控制信号,并设计了 mask 疏导静止模块。此外,为了平衡主体学习和静止控制,经过混合 mask (即mask参考留意力)增强参考留意力,并设计了重加权分散损失。最后,详细引见了训练、推理和数据集构建环节。
经过参考留意力启动主体学习
经过mask疏导的静止模块成功静止控制
为了从mask 序列中捕捉静止消息,设计了一个mask 疏导的静止模块,该模块经常使用一个时空编码器和一个空间 ControlNet,如前面图 2 所示。虽然先前的钻研证明了 3D ControlNet 从序列输入中提取控制消息的有效性,但其高昂的训练老本在实践运行中存在潜在毛病。鉴于mask 序列中便捷的时序相关,经常使用一个轻量级的时空编码器足以提取所需的时序消息。因此,仅在该编码器上附加一个空间 ControlNet 以进一步提高控制精度。时空编码器由重复的二维卷积和非线性层组成,后接两个时序留意力层和一个输入卷积层,如前面图 2 右侧所示。此外,空间 ControlNet 提取多尺度特色,并将其减少到 VDM 解码器块的卷积层输入中。
平衡主体学习与静止控制
虽然上述两个组件已成功其预期配置,依据阅历观察到,静止控制往往占主导位置,这或者削弱主体ID坚持的品质。如下图 3(b) 所示,模型仅需大批步骤即可学会静止控制,局部说明了在指定位置生成主体相比于学习外观细节更便捷。在图 3(c) 中,即使在延伸训练步骤的状况下,参考留意力和静止模块的联结训练也依然使静止控制占主导位置,从而造成主体ID被破坏。相比之下,如图 3(d) 所示,本文的方法经过以下两个关键设计有效平衡了主体学习和静止控制。
重加权分散损失 为了平衡主体学习和静止控制,进一步提出了一种重加权分散损失,以辨别边界框内外区域对规范分散损失的奉献。详细而言,加大边界框内区域的奉献,以增强主体学习,同时保管边界框外区域的原始分散损失。设计的重加权分散损失可以定义为
训练、推理和数据集构建
训练 从训练视频中随机选用一帧并启动宰割,以取得带有空白背景的主体图像,这相比于经常使用首帧能缓解过拟合。同时,从训练视频的一切帧中提取主体的边界框,并将其转换为mask 作为静止控制信号。在训练环节中,解冻原始的 3D UNet 参数,并依据公式 (6) 联结训练新减少的mask 参考留意力、时空编码器和 ControlNet。
推理 DreamVideo-2 在推理时无需微调,且不须要修正留意力求。用户只有提供主体图像和边界框序列,即可灵敏生成蕴含指定主体和静止轨迹的定制视频。边界框可以从多种信号中取得,包括首帧和末帧的边界框、首帧边界框及静止轨迹,或参考视频。这些信号随后被转换为二值mask作为输入。
数据集构建 为了便于主体和静止控制的零样本视频定制义务,从 WebVid-10M数据集和外部数据中策展了一个蕴含视频mask 和边界框的单主体视频数据集。注释是经常使用 Grounding DINO、SAM和 DEVA模型生成的。本文的数据集与之前的数据集的比拟见下表 1。目前已处置 230,160 个视频用于训练。
试验
试验设置
数据集 在策展的视频数据集上训练 DreamVideo-2,并经过蕴含 50 个主体和 36 个边界框的测试集启动评价。主体图像起源于之前的文献和互联网,而边界框来自 DAVIS 数据集中的视频和 FreeTraj 中经常使用的框。此外,设计了 60 个文本揭示用于验证。
基线方法 将本文的方法与 DreamVideo和 MotionBooth启动主体定制和静止控制的对比。此外,还与 DreamVideo 和 VideoBooth启动独立的主体定制对比,并与 Peekaboo、Direct-a-Video和 MotionCtrl启动静止轨迹控制的对比。
评价目的 经过 9 个目的评价方法,重点关注三个方面:总体分歧性、主体保真度和静止控制精度。
重要结果
主体定制和静止控制的联结 对比了本文的方法与基线方法生成带有指定主体和静止轨迹视频的品质,结果如下图 4 所示。观察到,DreamVideo 和 MotionBooth 难以在主体保管和静止控制之间取得平衡,尤其是在训练繁多主体图像时。主体与静止的控制强度不平衡影响了它们的体现,造成在增强某一方面时侵害了另一方面的成果。相较之下,DreamVideo-2 能够在各种高低文中谐和地生成带有希冀主体外观和静止轨迹的定制视频。此外,本文的方法有效地将主体限度在边界框内,更好地合乎用户的偏好,增强了其在实践运行中的实用性。
定量比拟结果 如下表 2 所示。DreamVideo-2 在文本对齐、主体保真度和静止控制精度方面一直优于一切基线方法,同时在时序分歧性上也到达了可比的体现。值得留意的是,本文的方法在 mIoU 和 CD 目的上清楚逾越了基线方法,验证了在静止控制方面的持重性。相比之下,DreamVideo 在 CLIP-I 和 DINO-I 目的上体现第二优,但在 mIoU 和 CD 上较弱,标明其在主体ID保管方面具备长处,但在静止控制方面存在局限性。MotionBooth 因为对整个模型启动了微调,CLIP-T 得分最低,但在 mIoU 和 CD 目的上比 DreamVideo 更好,标明经常使用显式静止控制信号(例如边界框)或者比从参考视频学习更为有效。
主体定制 还评价了独立的主体定制才干。下图 5 展现了定性比拟结果。观察到,VideoBooth 关于其训练数据中未蕴含的主体体现出有限的泛化才干,而 DreamVideo 在单张图像训练时未能捕捉到外观细节。相反,当在与 VideoBooth 相反的数据集上训练时,DreamVideo-2 结合参考留意力和重加权分散损失,可以生成合乎文本揭示的目的主体视频。
表 3 的定量比拟结果 显示,虽然 DreamVideo-2 在 CLIP-I 和时序分歧性上坚持相当的体现,但它在 CLIP-T、DINO-I 和灵活水平上取得了最高分,验证了本文的方法在文本对齐、主体保真度和静止灵活方面的优越性。
静止控制 除了主体定制之外,还评价了静止控制才干,如图 6 所示。结果标明,一切基线方法在准确控制主体按边界框定义的静止方面都存在艰巨。同时,Direct-a-Video 或者会因修正留意力求值而造成生成的物体外观损坏。相比之下,仅经常使用静止编码器的 DreamVideo-2 能够成功准确的静止控制,并有效地确保主体坚持在边界框内,展现了持重的控制才干。
如下表 4 所示,虽然与 MotionCtrl 相比在时序分歧性(T. Cons.)上略低,本文的方法在 CLIP-T 上取得最高得分,并且在 mIoU 和 CD 目的上大幅逾越基线方法。
用户钻研 为进一步评价 DreamVideo-2,启动了用户钻研,约请 15 名标注员对三种方法生成的 300 组视频启动评分。每组蕴含 3 个生成的视频、一个主体图像、文本揭示和对应的边界框。依据文本对齐度、主体保真度、静止对齐度和总体品质四个方面启动评价,并经过少数投票得出结果。下图 7 显示,用户在四个方面均更偏好本文的方法。
消融试验
各组件的成果 本文启动了消融试验以探求各组件的成果,如下图 8(a) 所示。观察到,去除mask 机制或重加权分散损失后,主体ID的品质因静止控制的主导性而降低。虽然在mask 参考留意力中经常使用二值mask 有助于保管主体ID,但因为疏忽了留意力中的背景消息,往往造成背景含糊、视频品质低下。值得留意的是,在没有静止编码器的状况下,mask 参考留意力依然能够成功粗略的轨迹控制。
下表 5 的定量结果标明,去除mask 机制、静止编码器或重加权分散损失后,一切目的的性能均会降低。这证明了各组件对全体性能的奉献;
论断
本文提出了 DreamVideo-2,这是一种翻新的零样本视频定制框架,能够生成具备特定主体和静止轨迹的视频。引入了参考留意力用于主体学习,并设计了mask 疏导的静止模块以成功静止控制。针对 DreamVideo-2 中静止控制主导性的疑问,在参考留意力中引入了混合mask 并设计了重加权分散损失,从而有效地平衡了主体学习和静止控制。少量试验结果标明,DreamVideo-2 在主体定制和静止轨迹控制方面均具备长处。
局限性 虽然本文的方法能够定制单个主体与繁多轨迹,但在生成蕴含多个主体和多重轨迹的视频时仍存在无余。一种处置打算是构建更为多样化的数据集并训练通用模型。
原文链接: