CVPR 2024

构想一下,你仅须要输入一段便捷的文本形容,就可以生成对应的 3D 数字人动画的骨骼举措。而以往,这理论须要低廉的举措捕捉设施或是专业的动画师逐帧绘制。这些骨骼举措可以进一步的用于游戏开发,影视制造,或许虚构事实运行。来自阿尔伯塔大学的钻研团队提出的新一代 Text2Motion 框架,MoMask,正在让这一切变得或许。

MoMask 框架是基于多层团圆化举措示意的,应用生成式掩码技术,能够生成更高品质的 3D 人体举措。如视频 1 中展现,MoMask 可以依据文本形容,精细控制生成的举措内容。在 HumanML3D 数据集上,MoMask 的生成品质可到达 FID 为 0.045,超越了现有的最优上班如 T2M-GPT(0.141)和 ReMoDiffuse(0.103)。这项钻研成绩已被 CVPR 2024 收录,并且其代码和模型已在 GitHub 上开源,领有 500 + 星标。

MoMask 模型引见

图 2:MoMask 框架结构与训练流程

MoMask 框架重要蕴含三个关键的神经网络模块:

举措序列团圆化。 MoMask 驳回基于团圆表白的生成式框架,首先将延续的举措表白启动团圆化。如图 3,传统的 VQ-VAE 在量化(Quantization)环节中存在消息损失疑问,由于它将每个隐向量交流为码书(Codebook)中最相近的码向量,这两个向量之间的差异造成了消息的失落。为了处置这个疑问,MoMask 驳回了多层量化的方法(图 2.a),逐层对隐向量和码向量之间的残差进一步量化,从而提高了隐向量的预计精度。随着层数加深,每一层所建模的消息量(即残差)也逐渐缩小。训练时,为了尽或许参与每一个量化层的容量,咱们随机摈弃掉末尾的若干个残差层。最终,举措序列被转化为多层的团圆举措标志,其中基层标志蕴含了举措的重要内容,而残差层则用于填补举措的细节。接上去,MoMask 经常使用 Masked Transformer 生成基层举措标志,并经常使用 Residual Transformer 逐层预测残差层的举措标志。

生成式掩码建模。 如图 2.b,文本形容首先经过 CLIP 编码成语义向量,同时基层的举措标志序列被随机掩码。而后,这些掩码的举措标志序列和 CLIP 文本向量一同输入到 Transformer 中启动训练,其目的是准确预测被掩码掉的举措标志。与以往基于掩码的预训练模型不同的是,这里掩码标志的比例是随机的,并且可以在 0 到 1 的区间取值,这象征着掩码的水平也是随机的。最坏状况下,一切标志都被掩码,而最好状况下,一切标志都被保管。

残差层标志预测。 由于残差层蕴含了更细粒度的举措消息,因此依据前面 j > 1 层的举措标志内容,可以基本确定第 j 层的举措标志。在训练时,随机选用一个残差层 j 启动预测,将已知的前 j 层的举措标志、CLIP 文本向量以落第 j 层的编码输入到 Transformer 中,经常使用交叉熵损失函数来优化模型。

生成环节。 图 4 形容了 MoMask 框架中的生成环节。从基层的举措标志序列开局,一切的举措标志都被掩码,而后经过 Masked Transformer 启动预测,获取完整的标志序列。接着,仅置信度最高的一局部标志被保管,剩下的标志将被从新掩码(Remask),并从新预测。经过一个预设的调度函数 (Schedule function),在经过必定次数的掩码与预测后,获取最终的基层举措标志序列。而后,Residual Transformer 依据基层的标志序列,逐层地预测残差层的标志序列。最终,一切标志序列被输入到 RVQ-VAE 的解码器中,并解码取得对应的举措序列。因此,无论举措序列的长度为多少,MoMask 只有要固定步数去生成该序列。理论状况下,MoMask 仅须要启动不超越 20 步的迭代,包括基础与残差层的生成。

试验结果

在视频 2 中,MoMask 与其余三个基线方法启动了对比,包括干流的分散模型(MDM、MLD)和 GPT 模型(T2M-GPT)。MoMask 在应容许战性举措(如绊脚和抱脚)以及更精细的文本控制方面体现更杰出。

在下表中,咱们对 MoMask 在 HumanML3D 和 KIT-ML 数据集上的功能启动了更片面的剖析。可以看出,MoMask 框架在 R-Precision 和 FID 等目的上一直体现最优,在 HumanML3D 数据集上,生成品质到达了 FID 为 0.045。

图 5 展现了 Masked Transformer 推断步数对生成举措的全体品质影响,其中 FID 和 MM-Dist 区分批示了举措生成品质以及举措与文本内容的婚配水平,值越低代表功能越好。从图中可以看出,仅须要启动 10 步推断,生成品质就可以收敛到最优水平。

图 5: 推断步数对生成品质影响

运行:举措时序补齐

MoMask 还可用于举措序列的时序补齐,即依据文本对举措序列指定的区间启动编辑或修正。在视频 3 中,展现了基于 MoMask 对举措序列的前缀、两边局部和后缀,依据给定的文本启动内容补齐。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: