Meta发布允许128种言语的新语音模型指向元宇宙跨语种交换

2024-11-15

Facebook AI（bushi），更准确地说是Meta AI，刚刚发布了自监视 语音处置 模型，共允许 128种言语 。

这项技术与Meta公司最新“元宇宙”愿景严密关系。

相互交谈是人们互动的一种人造模式，随着语音技术的开展，未来的虚构环球可以经常使用咱们技术启动互动，虚构体验将与物理环球融为一体。

说人话，就是让母语不同的人在元宇宙里社交：一位说着英语，一位说着汉语，两人可以靠XLS-R在元宇宙中无阻碍对话。

实践效果如何呢？

MetaAI在HuggingFace上发布了试用版 语音直译模型 ，允许从22种言语转换到16种言语，咱们先来试试它的英译中效果。

（虽然翻译腔较浓，但仍算准确，7秒钟的句子成功翻译仅1.53秒）

咱们知道，环球上的言语有上千种，要用AI成功这些言语的互通并非易事。

普通语料库的丰盛水平选择了言语翻译模型的品质，语音翻译普通集中于几个资源多大语种之间。然而因为小语种往往语料匮乏，经常使用这类母语的人往往很难取得较高的AI翻译品质。

XLS-R经过自监视技术对10倍的语音数据启动训练，大大改善了以前的多言语模型，尤其是小语种的处置。

XLS-R基于Facebook去年发布的 wav2vec 2.0 技术。

wav2vec 2.0与BERT相似，是经过预测音频mask局部的语音单元来训练的。它们的区别是，语音音频是一种延续的信号，不能随便明晰地宰割成单词或其余单位。

wav2vec 2.0经过学习25毫秒长的基本单元来处置这个疑问，以便能够学习初级高低文示意。

在仅领有一小时的标志训练数据的状况下，wav2vec 2.0能经事先续无监视的训练数据，在LibreSpeech测试基准的100小时子集上到达SOTA水平。

之后，Facebook又推出了齐全无监视的高功能语音识别模型，它纯正从录制的语音音频和未配对的文本中学习。

为了wav2vec-U让学习识别音频录音中的单词，Facebook训练了一个GAN。生成器依据嵌入在自监视示意中的每个音频段，预测与言语中的声响对应的音素。

而甄别器担任评价预测的音素序列能否实在。最后，转录十分蹩脚，但随着期间的推移，随着甄别器的反应，转录变得准确。

经过这种模式，它学会了辨别生成器的语音识别输入和实在文本。

Facebook在此基础上推出了蕴含53种言语的XLSR。

而最新发布的XLS-R有128种言语之多，语种数量是XLSR的两倍多，数据量更是后者10倍——合计长达 43.6万小时 的语音。

XLS-R共有 20亿参数 ，它在测试的37种言语中，体现优于大少数语种先前的上班。甚至在老挝语等小语种识别上，也能低于之前的失误率。

此外XLS-R也让低资源言语与英语之间的翻译大幅改良，例如从印度尼西亚语到英语的翻译，其中BLEU（双语互译品质评价）的准确性平均翻了一番。

CoVoST-2语音翻译基准测试中，XLS-R在21个英语翻译方向上比之前技术平均提高了7.4 BLEU。

从下图中可以看出，XLS-R对低资源语种的优化尤为显著。

XLS-R只是一个预训练模型，为了能更好地服务于详细义务，还须要对模型启动微调。

Hugging Face官网提供了详细的微调教程。

此外官网还提供不同参数规模的语音识别模型，以及15种言语与英语之间的互译模型，供用户下载。

官网博客：

GitHub页：

论文地址：

试用网页地址：

微调方法简介：

模型人工默认深度学习

Meta发布允许128种言语的新语音模型 指向元宇宙跨语种交换