音乐驱动数字人技术详解
一、音乐驱动体系 Music XR Maker
Music XR Maker 源于天琴试验室,天琴试验室是腾讯 音乐首个音视频试验室,努力于经过 AI 科技优化音娱视听体验,也是腾讯音乐的首个音视频技术研发中心。天琴试验室在视频、视觉方面关键做的事件包含两方面,一方面是Music XR Maker 以及图像渲染技术,另一方面是视频关系,比如视频了解、音乐视频化、视频品质优化等。
1、音乐驱动在数字人技术栈中的定位
在数字人技术栈中,音乐驱动的定位可分为三个局部:
笼统构建 :在笼统构建环节中,触及到的技术包含模型制造、拍照捏脸、拍摄建模、服饰生成等。
人物驱动 :人物驱动分红两集体系,第一个是基于中之人,面前有真实人物在驱动;第二个是 AI 驱动。在音频和视觉上,两集体系都有对应的成功:在音频声响这块,中之人间接用中之人的声响,AI 驱动在谈话方面有 TTS 技术,歌曲歌声方面对应有歌声分解技术。在面捕这块,可以实时把中之人的面部表情捕捉到位,AI 生成则有谈话口型生成、歌唱口型生成、谈话表情生成、歌唱表情生成等。在举措和手势方面,也有相应的举措捕捉、手势捕捉,在音乐畛域也有对应的舞蹈举措生成和乐器手势生成。
可视化渲染 :当成功将树立的模型驱动起来后,要求让普通用户看失掉模型,这就触及到可视化渲染。比如虚构偶像视频散发到各种视频平台、虚构主播开虚构直播、互动文娱多人互动等。
2、Music XR Maker 音乐驱动研发体系树立
Music XR Maker 着重音乐,可以了解为基于音乐内容做虚构元素的创立,实质是属于 AI 驱动当中的音乐驱动,可以驱动的名目包含歌声分解、歌唱口型生成、舞蹈举措生成、乐器手势生成、歌唱表情生成等,还包含后续将会逐渐迭代参与的场景灯效舞美。Music XR Maker 音乐驱动研发体系树立包含:
数据源 :树立 Music XR Maker 体系在数据层面分红两个局部:一是建模举措口型生成必定要有数据起源,目前大局部起源是动捕或面捕数据,还有手势捕捉数据等;二是既然把数据跟音乐关联,就要有十分强的音乐了解才干,包含音乐格调、心情、音乐旋律、能量、歌曲的节拍、段落等。
AI 生成 :有了基础数据后,就经过外围 AI 生成的算法把两方面数据启动关联。算法有两种类型:一类是端到端模型,包含分类预测模型、关联点预测 、生成类模型等;另一类是 AI 编排生成算法,相对复杂且触及多种步骤,还会经常使用到相似搜查或介绍等做法,可以分红召回、排序、重排三个阶段:在召回阶段,对输入信号启动关联解析数据;在排序阶段,依据歌曲节拍、歌曲热度、共性化等排序;在重排阶段,启动时序连接性、段落关联性等调整。
3D 渲染 :经过 AI 生成失掉驱动数据后,要买通完整商业化链条还要求启动 3D 渲染,这是必无法少的一环。首先要求渲染引擎,像罕用的 Unity 、UE,还要求专业的 3D 数据格局,像 SMPL、GLB、FBX 等;同时也要求消费劲工具,像 Blender、Maya 等。
产品运行 :对企业来说,最后一环就是真正落地运行到详细产品。落地运行分两种类型:一种是有用户介入的互动文娱运行,以 QQ 音乐的音乐环球、音乐直播的云蹦迪直播、全民 K 歌的 KK 秀、TMEland 等为代表;另一种是在文娱公司比拟经常出现的虚构人代表,比如已地下的扇宝、安可、继续在研发的虚构人名目,曝光的场景包含虚构偶像视频、虚构直播、关键节点开虚构演唱会等,都是虚构偶像展现的中央。
二、音乐生成数字人舞蹈
1、虚构人舞蹈的发生模式
数字人舞蹈的生成模式大抵分红三种:
动捕棚 :驳回目前比拟新的多目动捕设备、惯性捕捉,失掉的效果是真正影视级效果,也是目前能接触到的最佳效果。但存在多少钱低廉,人力、设备老本初等疑问。运行场景来说,可用于精品视频输入。
视频复刻 :属于单目动捕,用于普通的低精度场景效果还不错,但运用到十分剧烈的快节拍舞蹈,特意是运用到高精度模型,效果上存在细节失落。这种模式人力老本相对较低,所以在低精度模型场景上运行较多。视频复刻有个十分清楚的好处是其余模式达不到的,它可以很好抓住热点。如今的短视频类平台每隔一段期间都会出一些热点舞蹈,经过这种模式可以极速的把抢手舞蹈实时复刻进去。
基于音乐生成 :属于纯算法生 成,效果依赖数据品质和算法自身好坏。存在的疑问是数据失掉艰巨,好处在于可以批量消费场景。在批量场景下,可以和精品视频启动互补,在日常视频输入可以用到这种基于音乐生成舞蹈的打算。
2、音乐生成数字人舞蹈的业内打算
业内有很多音乐生成数字人舞蹈的打算,大抵有如下几种:
基于生成的打算 :十分具有构想力的打算,但商用或许存在无法控状况。
基于 codebook :对比于生成的打算启动改良,参与了 codebook 等模式,对生成的舞蹈法令有必定解放,是十分不错的打算。
基于舞蹈编排 :试验的难度和成功的可行性更高一些。
面向商用的舞蹈生成如何做,有三点要素要求思考:一是舞蹈举措自身是好看的举措;二是舞蹈举措和音乐的节拍、韵律要谐和分歧;三是音乐和舞蹈的格调也要分歧。所以在 AI 编舞时重点会关注音乐特色,包含音乐自身的特性、音乐节拍等,对舞蹈也会做对应婚配,包含舞蹈属性、格调、心情、节拍快慢等。综合来看,商用舞蹈生成是在有原始音频文件后,经过一些方法提取音频特色,接着经过特色回归到舞蹈举措,最后将这些举措正当的拼接起来。
3、TME 天琴打算
下方是 TME 天琴打算的生成算法截图。当拿到一段音乐后,切成一帧一帧的小片段,接着对每一帧提取对应的音乐属性特色,包含旋律、节拍等最能代表音乐和舞蹈的特色,而后去婚配最适宜的舞蹈片段,同时基于音乐节拍、格调类型,对召回的片段启动从新排序,过滤掉不太适宜的片段,最终把对应的片段启动拼接,就构成一段完整舞蹈。这里还触及一个疑问,舞蹈举措或许前后段衔接有疑问,可经过 平滑算法启动过渡 来处置。
这个打算实践运行起来比拟便捷,而且可以间接经常使用。但这个打算存在必定疑问, 由于构想力不够,生成的打算多样性略差。
另外一套打算是 基于生成的打算 。输入一段音频信号,对应的原始样本音频会关联到对应的舞蹈,输入模型中经过一个环节,恢复回最后的舞蹈举措。在这个环节中,要把音频信号特色和舞蹈信号特色尽量拉齐,尽量表白更宽泛的含意。
当音乐生成数字人舞蹈成功后,可以启动客观评测。针对雷同一首歌,把生成的舞蹈和手 K 的舞蹈举措发给普通用户启动对比,选取两种模式对比:第一个模式是间接对比生成结果和手 K 结果,让用户选用哪种更好;第二个模式是把生成结果和手 K 结果区分启动打分。经过评测发现,两种模式的论断相似,生成结果曾经凑近手 K 的效果,总体效果不错。
4、数字人舞蹈的商用门路
在数字人舞蹈的商用门路方面了解如下:
首先, 经过动捕棚拍摄、CP 手 K 效果最好,会运行到虚构偶像、虚构主播的精品 MV、笼统宣传片,同时这类高品质舞蹈数据可以保管上去。
第二, 单目标视频复刻关键用到虚构主播、虚构偶像、用户互动文娱场景的爆款舞蹈生成。生成数据可以经过人工挑选,把中品质舞蹈数据保管上去。
最后, 把之前保管上去的高品质舞蹈数据和中品质舞蹈数据,作为 AI 舞蹈生成模型的数据起源,生成的舞蹈数据就作为量产数据,用在虚构偶像、虚构主播、用户互娱场景,批量消费更多的舞蹈举措。
三 、歌声驱动数字人口型
1、歌声驱动数字人口型打算
歌声驱动数字人口型有两种成功打算:
① 专业面捕打算: 有专业设备、配套软件,好处是效果最佳,有限表情基。宽泛运行于超写实虚构人场景。
② 普通光学摄像头打算: 经过普通手机摄像头可以成功,普通场景下效果齐全可接受,规范 52 BS。实用于普通的虚构人场景。
2、口型驱动数据集构建
在口型驱动数据数据树立上,把全民 K 歌软件的用户 K 歌视频画面保管上去,同时录入用户唱歌干声数据。经过前面提到的单目动捕打算,把唱歌画面启动口型识别,拿到口型 BS 数据,再加上保管上去的用户唱歌干声数据,同时输入到歌声口型驱动模型。
歌唱驱动和谈话驱动有差异:谈话时嘴巴动的频率比拟快,但是唱歌时由于要一口吻唱下去,嘴巴体现更有连接性;同时谈话时嘴巴动的幅度没有歌唱时幅度大,这也是专门做歌唱口型驱动模型的要素。
3、TME 口型驱动模型
TME 口型驱动模型的打算同时用到两局部数据:一个是用户输入的干声数据,一个是歌词文件(歌词文件经过前处置,对歌词文件和音频做对齐,拿到每一个字精准的期间戳)。对输入音频和歌词做 Encoder 处置后,启动融合。把融合结果输入到另一个面部婚配预测模块,该模块会将帧的歌词、音频消息同之前所有帧的消息放在一同,做一个 Decoder 处置。最终预测到整首歌婚配变动后再转换为所要求的模型参数。
4、实时性处置打算
前面是异步生成视频的场景,实时性如何处置有如下思考:先离线生成预设 BlendShape,输入测试文件及干声数据,干声起源于两个局部:一是之前用户唱的低劣作品干生;二是歌曲原唱,经过技术提取原唱的干声,而后把各式文件和综合干声,经过前面的口型驱动模型,失掉预设 BlendShape。等到真正实施时,用户实时干声经过音频映射模型,失掉实时音频剖析结果,和前面的预设 BlendShape 启动融合,最后失掉实时 BlendShape。这样就处置了实时性疑问,同时兼备口型生成的效果。
实时性处置打算的关系技术曾经上线运行,在全民 K 歌 8.0 的 QQ 秀可以体验到:一个场景是用户入唱时,会有 K 歌秀界面,一边唱一边可以看到 QQ 秀虚构人的举措、口型等;另一个是在歌房场景也有相似体验。
四、歌声驱动数字人歌唱表情
当做好数字人歌唱口型后,发现人显得比拟呆。剖析专业歌手演唱扮演,发现唱歌时要表白歌唱情感,除了口型之外,歌唱时的面部表情、手势、举措都要同时具有,三者合一的完整体现才干突出演唱者过后的剧烈情感。
1、歌唱表情数据的采集
歌声驱动数字人歌唱表情的成功要求启动数据采集。数据采集时先找到带表情的演唱视频样本,经过面捕拿到面部表情,经过动捕拿到举措,经过手捕拿到手势,而后把表情、举措和手势合一,融入歌唱表情段,经过人工表情打标后放入歌唱表情库。
2、歌唱表情的正当驱动
采集到歌唱表情之后,要求正当的驱动起来。经过歌词文本剖析拿到歌唱时歌词的表情消息,确定整个歌唱扮演的表情基调。此时可以从宏大的各种类型表情库里,挑选出适宜的表情,适宜于在歌曲或许歌曲的某一个片段安插表情。
五、总结与展望
这两年上线了很多与虚构人或元宇宙关系的平台和产品,文娱公司、明星、大型商业公司、海量主播、普通用户等很多都有自身的虚构笼统,虚构笼统将变得越来越普遍。
中之人面临越来越多的疑问,比如老本疑问、治理疑问、虚构笼统的灵魂归属于虚构偶像自身还是中之人。
AI 驱动技术面临极速更新,包含笼统创立技术、视觉驱动技术、音频歌声分解技术等。TME 以音乐为外围启动技术树立,包含音乐驱动数字人舞蹈、数字人歌唱口型、数字人歌唱表情等,未来还有其余方面。
总体来说,数字人的未来在于技术。
六、问答环节
Q1:动捕数据或地下数据集重定向到模型驱动有疑问时如何处置?
A1:确实会存在重定向的疑问。关键是先重定向到一些规范模型,而后再经过人工发现有疑问的数据,对有疑问的数据启动分类:如经过手动可以小范围处置的,就启动修复;如处置不了,就间接把数据放弃掉。
Q2:音乐生成数字人舞蹈的客观评测方法?
A2:由于音乐生成数字人舞蹈是倾向客观的一个畛域,生成的物品无法能跟原始的一样,假设跟原始一样,那就没有什么意义了。所以音乐生成数字人舞蹈更多的是一些客观评测。
Q3:如今关键钻研的是卡通类型的数字人吗?
A3:如今关键钻研的是在卡通类型的数字人,目前没有太触及写实虚构人方面。
Q4:拼接的单元是小节吗?
A4:拼接的单元不是小节。这里触及到一些细节,比如依据音乐的节拍启动切分,并不是便捷的切几秒钟舞蹈片段,要求把舞蹈片段切的更便于后续的拼接。