音乐驱动数字人技术详解

2024-11-15

一、音乐驱动体系 Music XR Maker

Music XR Maker 源于天琴试验室，天琴试验室是腾讯音乐首个音视频试验室，努力于经过 AI 科技优化音娱视听体验，也是腾讯音乐的首个音视频技术研发中心。天琴试验室在视频、视觉方面关键做的事件包含两方面，一方面是Music XR Maker 以及图像渲染技术，另一方面是视频关系，比如视频了解、音乐视频化、视频品质优化等。

1、音乐驱动在数字人技术栈中的定位

在数字人技术栈中，音乐驱动的定位可分为三个局部：

笼统构建 ：在笼统构建环节中，触及到的技术包含模型制造、拍照捏脸、拍摄建模、服饰生成等。

人物驱动 ：人物驱动分红两集体系，第一个是基于中之人，面前有真实人物在驱动；第二个是 AI 驱动。在音频和视觉上，两集体系都有对应的成功：在音频声响这块，中之人间接用中之人的声响，AI 驱动在谈话方面有 TTS 技术，歌曲歌声方面对应有歌声分解技术。在面捕这块，可以实时把中之人的面部表情捕捉到位，AI 生成则有谈话口型生成、歌唱口型生成、谈话表情生成、歌唱表情生成等。在举措和手势方面，也有相应的举措捕捉、手势捕捉，在音乐畛域也有对应的舞蹈举措生成和乐器手势生成。

可视化渲染 ：当成功将树立的模型驱动起来后，要求让普通用户看失掉模型，这就触及到可视化渲染。比如虚构偶像视频散发到各种视频平台、虚构主播开虚构直播、互动文娱多人互动等。

2、Music XR Maker 音乐驱动研发体系树立

Music XR Maker 着重音乐，可以了解为基于音乐内容做虚构元素的创立，实质是属于 AI 驱动当中的音乐驱动，可以驱动的名目包含歌声分解、歌唱口型生成、舞蹈举措生成、乐器手势生成、歌唱表情生成等，还包含后续将会逐渐迭代参与的场景灯效舞美。Music XR Maker 音乐驱动研发体系树立包含：

数据源 ：树立 Music XR Maker 体系在数据层面分红两个局部：一是建模举措口型生成必定要有数据起源，目前大局部起源是动捕或面捕数据，还有手势捕捉数据等；二是既然把数据跟音乐关联，就要有十分强的音乐了解才干，包含音乐格调、心情、音乐旋律、能量、歌曲的节拍、段落等。

AI 生成 ：有了基础数据后，就经过外围 AI 生成的算法把两方面数据启动关联。算法有两种类型：一类是端到端模型，包含分类预测模型、关联点预测、生成类模型等；另一类是 AI 编排生成算法，相对复杂且触及多种步骤，还会经常使用到相似搜查或介绍等做法，可以分红召回、排序、重排三个阶段：在召回阶段，对输入信号启动关联解析数据；在排序阶段，依据歌曲节拍、歌曲热度、共性化等排序；在重排阶段，启动时序连接性、段落关联性等调整。

3D 渲染 ：经过 AI 生成失掉驱动数据后，要买通完整商业化链条还要求启动 3D 渲染，这是必无法少的一环。首先要求渲染引擎，像罕用的 Unity 、UE，还要求专业的 3D 数据格局，像 SMPL、GLB、FBX 等；同时也要求消费劲工具，像 Blender、Maya 等。

产品运行 ：对企业来说，最后一环就是真正落地运行到详细产品。落地运行分两种类型：一种是有用户介入的互动文娱运行，以 QQ 音乐的音乐环球、音乐直播的云蹦迪直播、全民 K 歌的 KK 秀、TMEland 等为代表；另一种是在文娱公司比拟经常出现的虚构人代表，比如已地下的扇宝、安可、继续在研发的虚构人名目，曝光的场景包含虚构偶像视频、虚构直播、关键节点开虚构演唱会等，都是虚构偶像展现的中央。

二、音乐生成数字人舞蹈

1、虚构人舞蹈的发生模式

数字人舞蹈的生成模式大抵分红三种：

动捕棚 ：驳回目前比拟新的多目动捕设备、惯性捕捉，失掉的效果是真正影视级效果，也是目前能接触到的最佳效果。但存在多少钱低廉，人力、设备老本初等疑问。运行场景来说，可用于精品视频输入。

视频复刻 ：属于单目动捕，用于普通的低精度场景效果还不错，但运用到十分剧烈的快节拍舞蹈，特意是运用到高精度模型，效果上存在细节失落。这种模式人力老本相对较低，所以在低精度模型场景上运行较多。视频复刻有个十分清楚的好处是其余模式达不到的，它可以很好抓住热点。如今的短视频类平台每隔一段期间都会出一些热点舞蹈，经过这种模式可以极速的把抢手舞蹈实时复刻进去。

基于音乐生成 ：属于纯算法生成，效果依赖数据品质和算法自身好坏。存在的疑问是数据失掉艰巨，好处在于可以批量消费场景。在批量场景下，可以和精品视频启动互补，在日常视频输入可以用到这种基于音乐生成舞蹈的打算。

2、音乐生成数字人舞蹈的业内打算

业内有很多音乐生成数字人舞蹈的打算，大抵有如下几种：

基于生成的打算 ：十分具有构想力的打算，但商用或许存在无法控状况。

基于 codebook ：对比于生成的打算启动改良，参与了 codebook 等模式，对生成的舞蹈法令有必定解放，是十分不错的打算。

基于舞蹈编排 ：试验的难度和成功的可行性更高一些。

面向商用的舞蹈生成如何做，有三点要素要求思考：一是舞蹈举措自身是好看的举措；二是舞蹈举措和音乐的节拍、韵律要谐和分歧；三是音乐和舞蹈的格调也要分歧。所以在 AI 编舞时重点会关注音乐特色，包含音乐自身的特性、音乐节拍等，对舞蹈也会做对应婚配，包含舞蹈属性、格调、心情、节拍快慢等。综合来看，商用舞蹈生成是在有原始音频文件后，经过一些方法提取音频特色，接着经过特色回归到舞蹈举措，最后将这些举措正当的拼接起来。

3、TME 天琴打算

下方是 TME 天琴打算的生成算法截图。当拿到一段音乐后，切成一帧一帧的小片段，接着对每一帧提取对应的音乐属性特色，包含旋律、节拍等最能代表音乐和舞蹈的特色，而后去婚配最适宜的舞蹈片段，同时基于音乐节拍、格调类型，对召回的片段启动从新排序，过滤掉不太适宜的片段，最终把对应的片段启动拼接，就构成一段完整舞蹈。这里还触及一个疑问，舞蹈举措或许前后段衔接有疑问，可经过 平滑算法启动过渡 来处置。

这个打算实践运行起来比拟便捷，而且可以间接经常使用。但这个打算存在必定疑问， 由于构想力不够，生成的打算多样性略差。

另外一套打算是 基于生成的打算 。输入一段音频信号，对应的原始样本音频会关联到对应的舞蹈，输入模型中经过一个环节，恢复回最后的舞蹈举措。在这个环节中，要把音频信号特色和舞蹈信号特色尽量拉齐，尽量表白更宽泛的含意。

当音乐生成数字人舞蹈成功后，可以启动客观评测。针对雷同一首歌，把生成的舞蹈和手 K 的舞蹈举措发给普通用户启动对比，选取两种模式对比：第一个模式是间接对比生成结果和手 K 结果，让用户选用哪种更好；第二个模式是把生成结果和手 K 结果区分启动打分。经过评测发现，两种模式的论断相似，生成结果曾经凑近手 K 的效果，总体效果不错。

4、数字人舞蹈的商用门路

在数字人舞蹈的商用门路方面了解如下：

首先， 经过动捕棚拍摄、CP 手 K 效果最好，会运行到虚构偶像、虚构主播的精品 MV、笼统宣传片，同时这类高品质舞蹈数据可以保管上去。

第二， 单目标视频复刻关键用到虚构主播、虚构偶像、用户互动文娱场景的爆款舞蹈生成。生成数据可以经过人工挑选，把中品质舞蹈数据保管上去。

最后， 把之前保管上去的高品质舞蹈数据和中品质舞蹈数据，作为 AI 舞蹈生成模型的数据起源，生成的舞蹈数据就作为量产数据，用在虚构偶像、虚构主播、用户互娱场景，批量消费更多的舞蹈举措。

三、歌声驱动数字人口型

1、歌声驱动数字人口型打算

歌声驱动数字人口型有两种成功打算：

① 专业面捕打算： 有专业设备、配套软件，好处是效果最佳，有限表情基。宽泛运行于超写实虚构人场景。

② 普通光学摄像头打算： 经过普通手机摄像头可以成功，普通场景下效果齐全可接受，规范 52 BS。实用于普通的虚构人场景。

2、口型驱动数据集构建

在口型驱动数据数据树立上，把全民 K 歌软件的用户 K 歌视频画面保管上去，同时录入用户唱歌干声数据。经过前面提到的单目动捕打算，把唱歌画面启动口型识别，拿到口型 BS 数据，再加上保管上去的用户唱歌干声数据，同时输入到歌声口型驱动模型。

歌唱驱动和谈话驱动有差异：谈话时嘴巴动的频率比拟快，但是唱歌时由于要一口吻唱下去，嘴巴体现更有连接性；同时谈话时嘴巴动的幅度没有歌唱时幅度大，这也是专门做歌唱口型驱动模型的要素。

3、TME 口型驱动模型

TME 口型驱动模型的打算同时用到两局部数据：一个是用户输入的干声数据，一个是歌词文件（歌词文件经过前处置，对歌词文件和音频做对齐，拿到每一个字精准的期间戳）。对输入音频和歌词做 Encoder 处置后，启动融合。把融合结果输入到另一个面部婚配预测模块，该模块会将帧的歌词、音频消息同之前所有帧的消息放在一同，做一个 Decoder 处置。最终预测到整首歌婚配变动后再转换为所要求的模型参数。

4、实时性处置打算

前面是异步生成视频的场景，实时性如何处置有如下思考：先离线生成预设 BlendShape，输入测试文件及干声数据，干声起源于两个局部：一是之前用户唱的低劣作品干生；二是歌曲原唱，经过技术提取原唱的干声，而后把各式文件和综合干声，经过前面的口型驱动模型，失掉预设 BlendShape。等到真正实施时，用户实时干声经过音频映射模型，失掉实时音频剖析结果，和前面的预设 BlendShape 启动融合，最后失掉实时 BlendShape。这样就处置了实时性疑问，同时兼备口型生成的效果。

实时性处置打算的关系技术曾经上线运行，在全民 K 歌 8.0 的 QQ 秀可以体验到：一个场景是用户入唱时，会有 K 歌秀界面，一边唱一边可以看到 QQ 秀虚构人的举措、口型等；另一个是在歌房场景也有相似体验。

四、歌声驱动数字人歌唱表情

当做好数字人歌唱口型后，发现人显得比拟呆。剖析专业歌手演唱扮演，发现唱歌时要表白歌唱情感，除了口型之外，歌唱时的面部表情、手势、举措都要同时具有，三者合一的完整体现才干突出演唱者过后的剧烈情感。

1、歌唱表情数据的采集

歌声驱动数字人歌唱表情的成功要求启动数据采集。数据采集时先找到带表情的演唱视频样本，经过面捕拿到面部表情，经过动捕拿到举措，经过手捕拿到手势，而后把表情、举措和手势合一，融入歌唱表情段，经过人工表情打标后放入歌唱表情库。

2、歌唱表情的正当驱动

采集到歌唱表情之后，要求正当的驱动起来。经过歌词文本剖析拿到歌唱时歌词的表情消息，确定整个歌唱扮演的表情基调。此时可以从宏大的各种类型表情库里，挑选出适宜的表情，适宜于在歌曲或许歌曲的某一个片段安插表情。

五、总结与展望

这两年上线了很多与虚构人或元宇宙关系的平台和产品，文娱公司、明星、大型商业公司、海量主播、普通用户等很多都有自身的虚构笼统，虚构笼统将变得越来越普遍。

中之人面临越来越多的疑问，比如老本疑问、治理疑问、虚构笼统的灵魂归属于虚构偶像自身还是中之人。

AI 驱动技术面临极速更新，包含笼统创立技术、视觉驱动技术、音频歌声分解技术等。TME 以音乐为外围启动技术树立，包含音乐驱动数字人舞蹈、数字人歌唱口型、数字人歌唱表情等，未来还有其余方面。

总体来说，数字人的未来在于技术。

六、问答环节

Q1：动捕数据或地下数据集重定向到模型驱动有疑问时如何处置？

A1：确实会存在重定向的疑问。关键是先重定向到一些规范模型，而后再经过人工发现有疑问的数据，对有疑问的数据启动分类：如经过手动可以小范围处置的，就启动修复；如处置不了，就间接把数据放弃掉。

Q2：音乐生成数字人舞蹈的客观评测方法？

A2：由于音乐生成数字人舞蹈是倾向客观的一个畛域，生成的物品无法能跟原始的一样，假设跟原始一样，那就没有什么意义了。所以音乐生成数字人舞蹈更多的是一些客观评测。

Q3：如今关键钻研的是卡通类型的数字人吗？

A3：如今关键钻研的是在卡通类型的数字人，目前没有太触及写实虚构人方面。

Q4：拼接的单元是小节吗？

A4：拼接的单元不是小节。这里触及到一些细节，比如依据音乐的节拍启动切分，并不是便捷的切几秒钟舞蹈片段，要求把舞蹈片段切的更便于后续的拼接。

音乐驱动数字人算法

<<咱们一同优化上班中如何抓住关键矛盾

OPPO智能增长算法外围架构与运行>>