仅用1
数星星盼月亮,万千杰迷苦等6年,不久之前终于等到周董发新专辑啦!一经上线引爆全网探讨。
合理大家沉迷在对那时青葱岁月的美妙追想时,颁布爆火音频的小同伴示意: 这段对话居然是语音分解的!
提到“语音分解”,你脑海中或许会产生这样的种种:
导航中种类丰盛但语气机械的“前方路口左转”
接电话时,对面蠢笨无感情的“您好,这里是xx信誉卡核心”
视频网站上,十个解说视频九个声响相反,看到就想赶快划走的“留意看,这个男人叫小帅”…...
而如今间接推翻了许多人的刻板印象,语音分解技术曾经能做到像下面那段音频一样完美人造的效果了。这段音频的颁布者—— 火山语音,字节跳动 AI Lab Speech & Audio 智能语音与音频团队 ,又经过两段音频更好地向群众解密外面的技术亮点。
回顾一下人在日常表白时的形态,大脑处置消息是须要思索期间的。表现到言语上,人就会不禁自主的产生一些犹疑、拖音、倒装,甚至是说了一半改口、结巴重复的状况,也会刻意减轻读音强调想表白的重点消息。这就带来了少量难以观测的纤细表白。这些现象在传统的TTS中难以被捕捉恢复。而这些纤细之处的完美复现正是让声响虚实难辨的微妙之源,也是上述音频的微妙所在。
详细来说, 火山语音团队最新颁布的超人造对话语音分解技术 相较传统TTS愈加实在人造,即语气词、吸气声、犹疑时的进度以及字音拖长等细节统统被完美复现, 而且只有惯例音库1/4数据,就可完美恢复真人说话纤细的韵律特点、发音口癖,让分解效果愈加实在。 有专业评测结果显示,火山语音的这项新技术与真人录音对比基本没有差距,难以被评测者分辨进去。 此外这项技术目前已在视频配音、电话客服等多个场景投入运行,近日行将上线火山引擎语音技术官方对外显露。
这么凶猛的技术,终究是怎样办到的?
据引见,上述这些在实践交换中经常产生的倒吸气、吞音、思索时不禁自主的拖长字音、低笑等表现被称为副言语现象(paralanguage) ,虽然这是人脑思索、表白环节中最实在的表现,但因为传统的语音分解技术框架不可对散布稠密的副言语现象启动有效建模,所以在说话时的韵律恢复度表现有限、过于“正确”。
基于上述难点,火山语音超人造语音分解技术区分从 文本 和 语音建模 两个层面启动打破,详细来说:
在文本层面,火山语音驳回了 生成式的格调迁徙模型 ,模拟真人说话的模式对文本启动可控的书面语化转写,让文本更好地拥抱书面语化,防止最终效果太过书面。
在语音层面,团队则是经过文本剖析模型的打破,在TTS的输入侧额外参与了 副言语预测 ,模拟真人的发音特点来成功人造自发的语音效果。
值得一提的是,团队经过经常使用无监视特色的TTS建模打算,有效提高了模型的稳固性与表现力,仅仅经常使用惯例音库1/4的数据规模,就可以成功十分人造多变的韵律效果,很赞吧?
努力文本书面语化让“拟真人表白”呼之欲出
文本作为语音分解技术的输入,其格调能否贴近真人的表白模式,是分解效果优化的第一步;但受限于积重难返的书写用语习气,大少数分解前的文本并不够人造,或许须要投入少量精神始终调整,费时费劲。 为了处置此类疑问,火山语音团队驳回了两阶段打算并取得了不错的效果:
阶段一:驳回自监视方法,经常使用伪数据对书面语化模型启动预训练,降落了数据量的需求;同时在模型中引入了指针网络结构,增强了文本可控性。
阶段二:应用大批优质的人工标注数据,对预训练好的书面语化模型启动微调,最终成功可控的、人造的书面语化文本效果。
原始文本 |
智能化预测后的文本 |
南边菜系偏爱蘸料,例如我第一次性去上海才知道烧烤里的蔬菜也须要配蘸料 |
南边菜系偏爱用蘸料,我第一次性去上海的时刻,才知道这个烧烤里的蔬菜也得配着蘸料 |
像咱们上街去买白菜,南边人说我要半颗白菜,北边人说我来半车白菜 |
咱们上街买白菜南边人说我要半棵白菜,北边人说我来半车 |
其实南边菜系更侧重吃调料的滋味,即厨师用调料去施展他的功力 |
对,其实南边菜系更侧重的是吃它这个调料的滋味,厨师这个,用调料去施展他的功力 |
副言语建模+韵律多样性可圈可点 语音实在感片面更新
为了更好地恢复真人,区别于传统的语音分解技术,火山语音在副言语建模和韵律多样性上也区分启动了深化钻研。在副言语建模方面,团队推出的分解技术成功了声学模型对人造表白中产生的 吸气、笑声、犹疑、批改等多种副言语现象建模 ,并且联合文本的语义消息 智能拔出副言语现象 。在拔出环节中同时思索 合理性与随机性 ,表现愈加人造实在。
你看像咱们如今这个上班,早上 基本上就不怎样吃早餐了。 |
在韵律多样化的探求中,咱们联合无监视表征学习技术,自主研发了高表现力的声学模型框架,经过发音、韵律、音色解耦等模式,岂但降落了数据量的需求,成功对产生频率极低发音现象的高效建模;同时经常使用无监视表征特色并联合音素级别的基频、能量消息等,成功了韵律的人造多变,促进高品质对话语音生成。”火山语音团队总结道。
火山语音,字节跳动AI Lab Speech&Audio智能语音与音频团队,常年以来面向抖音、剪映、番茄小说、飞书等业务提供上游的AI语音技术才干及全栈语音产品处置打算,并经过分山引擎向外部企业放开技术服务。