视觉文本视频生成最强打算！Text

2024-11-14

文章链接：

github链接：laulampaul.github.io/text-animator.html

视频生成在游戏、电子商务和广告等各行业中都是一个具备应战性但至关关键的义务。在文本到视频（T2V）生成畛域中，有效地在生成的视频中视觉文本是一个尚未处置的关键方面。虽然在文本到视频生成方面取得了一些停顿，但现有的方法依然不可间接在视频中有效地视觉文本，由于它们关键集中在总结语义场景消息、了解和描画举措。虽然最近在图像级别的视觉文本生成方面的停顿显示出了一些宿愿，但将这些技术转移到视频畛域面临着一些疑问，特意是在坚持文本保真度和静止分歧性方面。

本文提出了一种名为 Text-Animator 的翻新方法，用于视觉文本视频生成。Text-Animator蕴含一个文本embedding注入模块，可以准确地描画生成视频中视觉文本的结构。此外，还开发了一个摄像机控制模块和一个文本优化模块，经过控制摄像机静止和视觉文本的静止来提高生成的视觉文本的稳固性。定量和定性试验结果标明， Text-Animator在生成视觉文本的准确性方面优于最先进的视频生成方法 。

关键奉献 可以概括为：

方法

本节首先引见Text-Animator的流程。而后区分引见关键组件的具体消息。

文本条件的视频生成流程

首先，引见下网络的全体框架，如下图2所示。

文本embedding注入模块

在生成蕴含视觉文本的视频时，首先须要思考的是如何将所需文本的视觉特色有效地embedding到基础模型（预训练的UNet模型）中。遭到之前在图像中视觉文本方法的启示，经过结合文本框的位置和渲染的字形，将文本条件embedding到潜在空间中。文本框批示了在生成的图像中启动渲染的位置，而渲染的字形应用现有的字体样式（即‘Arial Unicode’）来预初始化字符的样式。此外，与图像生成不同，视频生成触及跨多个帧处置特色。为了应用用于图像生成的预训练特色提取器，经常使用逐帧特色提取器从每个帧中提取特色，而后在输入预训练UNet模型之前衔接这些特色。

稳固文本生成的摄像机控制

在引入文本embedding注入模块后，Text-Animator如今能够生成视觉文本视频，并使文本随场景移动。但是，这种文本移动有时会与视频中物体的移动脱节。例如，在揭示“写有‘STOP’的标记”中，“STOP”局部或者会向右移动，而标记则向左移动。为了生成更稳固的视频，须要设计额外的控制模块。因此，倡导经常使用摄像机位姿消息来控制文本的移动，并确保与场景内容的分歧性。本节关键探讨如何将摄像机位姿消息embedding到基础模型中。

辅佐文本字形和位置优化

为了成功摄像机控制模块与文本embedding注入模块之间的单干，有必要经常使用视频中的摄像机位置消息作为指点，经过思考第一帧的指点来生成后续帧的位置图和字形图。生成方法如下：

试验

成功细节

选用AnimateDiffV3作为基础文本到视频（T2V）模型。模型的静止模块权重经常使用AnimateDiffV3启动初始化。其余局部的权重经常使用DreamShaper或原始的SD1.5启动初始化。摄像机控制网和文本及位置控制网的训练方法和数据集经常使用[11]和[27]中的方法。最后，将一切局部整兼并固定参数启动推理。G和P的图像尺寸区分设置为1024×1024和512×512。裁减尺寸e设置为1.2。在采样环节中，随机选用一些揭示语（如“这些文本写在下面：xxx”）并将它们衔接到题目上。推理步骤和指点尺度区分设置为25和7.5。最终，模型输入尺寸为16×256×384的视频。

数据集和目的

由于不足用于视觉文本生成评价的文本到视频数据集，经常使用AnyText-benchmark的LAION子集来评价视觉文本视频生成的成果。但是，在该数据集中，有些图像的文本和关键内容是离开的，而有些图像只要文本没有任何图像内容，这关于视频生成是没无心义的。因此，从数据集当选用了约90张图像组成测试集，命名为LAION子集。

首先，须要评价文本生成的准确性和品质。依据论文[27]，驳回了句子准确率（Sen. Acc）目的，其中每一行生成的文本依据指定位置裁剪并输入OCR模型以取得预测结果。此外，经常使用归一化编辑距离（NED）来权衡两个字符串之间的相似性。为了确保Text-Animator具备更好的视频生成才干，应用弗里切特embedding距离（FID）来评价生成视频与实在视频之间的视频外观品质。此外，还驳回了揭示相似性和帧相似性目的。前者评价输入形容与输入视频之间的语义相似性，后者评价生成视频的连接性。

定量结果

定量结果如下表1所示。比拟方法分为两局部。第一局部是特定图像视觉文本生成上班的组合（GlyphControl和 Anytext）+ 最先进的图像到视频（I2V）上班（AnimateLCM，I2VGEN-XL）。第二局部是一阶段方法。经常使用Animatediff-SDXL作为基础模型，并经常使用CIVIAI的两个微调lora权重，区分示意为Animatediff-SDXL（Text Lora A）1和Animatediff-SDXL（Text Lora B）2。这两个lora权重经常使用一些具备视觉文本的图像启动微调。从表1可以看出，这些方法的参数比Text-Animator大得多（超越41%）。

此外，Text-Animator在生成视觉文本的准确性方面清楚优于其余方法，依据评价目的Sen. ACC和NED（区分比最佳方法高出191.8%和30.4%）。这反映了本文方法生成文本的准确性，且生成的视频中文本没有解体。关于权衡生成视频与输入文本相似度的目的（FID和Prompt相似度），Text-Animator取得了第二好的结果。在揭示相似度方面，与最佳方法的差距仅为0.6%。在权衡视频稳固性和帧相似度的目的上，Text-Animator取得了第二好的结果。观察到，最佳方法Pika偏差于生成移动较小的视频，使其在该目的上具备长处。

此外，在下表2中，还与Open-SORA和最近的三个最先进API，Morph Studio，Pika 和Gen-2启动了比拟。Open-SORA和Morph Studio没有Sen. ACC得分，由于它们不可生成正确的句子或单词。Text-Animator在Sen. ACC方面清楚优于其余方法，并且在NED方面也体现优于其余方法。

定性结果

钻研者们首先将本文模型与文本到视频生成畛域的最先进T2V模型或API启动比拟（包括ModelScope、SVD（Stable Video Diffusion）、AnimatedDiff、Open-SORA和Pika），如下图3所示。这些模型展现了对高低文的了解才干，但不可生成特定文本并坚持文本分歧性。与SVD相比，本文的模型不只能准确渲染每个字符（本文的：‘HELLO’ vs SVD：‘HELO’或Pika：‘HHLLLO’），而且还能坚持分歧性。SVD未能学习文本的静止消息，造成文本随着时期的推移变得越来越凌乱。

至于与特定视觉文本生成上班的比拟，由于目前没有专门为视觉文本生成设计的T2V上班，将Text-Animator与特定T2I上班的组合（如GlyphControl和Anytext）和最先进的I2V上班（如AnimateLCM、I2VGen-XL和SVD ）启动对比。如下图4所示，Text-Animator在生成文本与背景的整合方面体现优越，而Anytext不可生成海边背景。当经常使用I2V方法从参考帧图像生成视频时，文本局部往往会变得含糊或歪曲。Text-Animator很好地坚持了文本局部的明晰度，并与图像内容协调移动。

此外，在下图5中，展现了LAION子集数据集的一个示例。只要Text-Animator能够正确显示视觉字符（CHRISTMAS）和包的数量（两个）。

同时，还启动了试验以验证本文方法的鲁棒性。在下图6中，展现了Text-Animator在文本区域大幅移动时的鲁棒性。现有的SOTA方法在小幅移动时期变形了文本区域（如上例所示），因此这些方法的可视化结果未在此展现。这两个示例的文本区分为“带有‘cafe’字样的办公室桌上的咖啡杯”和“带有‘MILK’字样的牛奶瓶”。移动方向从右到左。可以看到，即使在大范围的相机移动下，Text-Animator依然能够坚持文本的结构。

下图7展现了在相反的相机消息下，经过采样距离帧的相机消息，可以控制其移动速度。即使在原速的4倍或6倍速度下，Text-Animator依然能够坚持文本的结构。

消融钻研

在这一局部中，为了说明本文方法的奉献，在LAION子集上启动了消融钻研。定量比拟结果如表3所示。

双重控制： 启动了消融钻研以剖析双重控制设计的有效性。普通来说，仅经常使用位置框启动疏导而不经常使用相机姿态是可行的。因此，设计了“没有相机控制”的模型，该模型相关于原始模型去掉了相机疏导模块。此外，还移除了位置块，仅经常使用相机姿态和字形embedding，并将此模型命名为“没有位置控制”。在上表3中，可以看到，在NED目的上，“没有相机控制”模型的功能比原始模型降低了0.016，而“没有位置控制”模型的功能比原始模型降低了0.027。

位置精细化和裁减尺寸： 钻研者们还启动了试验，以剖析提出的精细化模块的有效性。当移除视频位置精细化时，经常使用LAION子集中的自动位置，并在上表3中将模型示意为“没有位置精细化”。可以看到，经常使用自动位置会降低准确性。此外，还启动了适当裁减尺寸的试验。尝试了两个裁减系数：0.9（小于1.2）和1.4（大于1.2）。可以观察到，虽然较小的裁减系数提高了视频中文本的准确性，但对视频生成的品质发生了负面影响。另一方面，较大的裁减系数造成一些字符在视频中重复发生，从而降低了文本的准确性。

论断

本文提出了Text-Animator，一种翻新的方法，用于处置在视觉文本视频生成畛域中将文本元素有效地集成到生成视频中的应战。Text-Animator不只强调文本的语义了解，还器重细粒度的文本语义，确保视觉文本在灵活集成到视频内容中的同时坚持静止连接性。Text-Animator引入了双重控制机制——相机和位置控制，以同步文本动画与视频静止，从而增强文本元素与视频场景之间的一致性和协调性。经过宽泛的定量和视觉试验，证实了Text-Animator在视频品质和文本示意的保真度方面优于现有的T2V和混合T2I/I2V方法。

本文的奉献不只处置了的应战，还激起了对这一极速开展的多媒体内容生成畛域的进一步探求和翻新。

原文链接:

<<Agent上班流记忆

清华大学提出视频去含糊畛域顺应打算硬盘里的收藏电影可以更明晰了>>