行将开源模型StreamingT2V 文本间接生成2分钟视频

2024-11-15

Picsart人工智能钻研所、德克萨斯大学和SHI试验室的钻研人员联结推出了StreamingT2V视频模型。经过文本就能间接生成2分钟、1分钟等不同期间，举措分歧、连接、没有卡顿的高品质视频。

只管StreamingT2V在视频品质、多元化等还不可与Sora媲美，但在高速静止方面十分低劣，这为开发长视频模型提供了技术思绪。

钻研人员示意，切实上，StreamingT2V可以有限裁减视频的长度，并正在预备开源该视频模型。

论文地址：

github地址：（行将开源）

传统视频模型不时受训练数据、算法等困扰，最多只能生成10秒视频。Sora的产生将文生视频畛域带向了一个全新的高度，打破了诸多技术瓶颈，仅经过文本就能生成最多1分钟的视频。

而StreamingT2V驳回了翻新的自回归技术框架，经过条件留意力、外观坚持和随机混合三大模块，极大的延伸了视频的期间，同时保障举措的连接性。

便捷来说，StreamingT2V经常使用了一种“击鼓传花”的方法，每一个模块经过提取前一个视频块中的示意特色，来保障举措分歧性、文本语义恢复、视频完整性等。

条件留意力模块是一种“短期记忆”,经过留意力机制从前一个视频块中提取特色,并将其注入到视频块的生成中,成功了流利人造的块间过渡,同时保管了高速静止特色。

先经常使用图像编码器对前一个视频块的最后几帧(例如20帧)启动逐帧编码,获取相应的特色示意 ，并将这些特色送入一个浅层编码器网络(初始化自主模型的编码器权重)进后退一步编码。

而后将提取到的特色示意注入到StreamingT2V的UNet的每个长程腾跃衔接处，从而借助前一视频块的内容消息来生成新的视频帧 ,但不会遭到先前结构、状态的影响。

为了保障生成视频全局场景、外观的分歧性，StreamingT2V经常使用了外观坚持这种“常年记忆”方法。

外观坚持从初始图像（锚定帧）中提取初级场景和对象特色，并将这些特色用于一切视频块的生成流程 。这样做可以协助在自回归环节中，坚持对象和场景特色的延续性。

此外，现有方法通常只针对前一个视频块的最后一帧启动条件生成，漠视了自回归环节中的常年依赖性。经过经常使用外观坚持，可以经常使用初始图像中的全局消息，从而更好地捕捉到自回归环节中的常年依赖性。

前两个模块保障了StreamingT2V生成的视频大框架，然而在分辨率、品质方面还有短少，而随机混合模块重要用来增强视频的分辨率。

假设间接增强品质会消耗少量AI算力、期间，所以，随机混合驳回了自回归增强的方法。

首先，钻研人员将低分辨率视频划分为多个长度为24帧的视频块,这些块之间是有堆叠的。而后,应用一个高分辨率的视频模型,对每一个视频块启动增强,获取对应的高分辨率视频块。

例如，有两个堆叠的视频块A和B,堆叠局部蕴含20帧。关于堆叠局部的每一帧,随机混合模块会从A块和B块中各取出一帧,而后对这两帧启动加权平均,生成一个新的混合帧。经过这种模式,堆叠局部的每一帧都是A块和B块对应帧的随机混合。

而关于不堆叠的局部,随机混合模块则间接保管原始视频块中的帧。经过随机混合后的视频块就可以输入到高分辨率模型中启动增强。

钻研人员指出， 假设让相邻的两个视频块间接共享齐全相反的堆叠帧,会造成视频在过渡处产生不人造的解冻和重复成果 。而随机混合模块经过生成新的混合帧,很好地规避了这个难题,使得块与块之间的过渡愈加平滑人造。

试验数据显示, StreamingT2V生成的1分钟、2分钟长视频，不只坚持了高分辨率和明晰画质,全体的期间连接性也获取了很大优化。视频中的物体静止姿态丰盛，场景和物体随期间的演化愈加人造流利,没有突兀的断层或解冻状况产生。

原文链接: