看唇语 在喧闹场景的语音识别准确率高达75% AI

人们经过倾听和观察谈话者的嘴唇举措来感知言语。

那么,AI 也可以吗?

理想上,钻研标明视觉线索在言语学习中起着关键的作用。相比之下,人工智能言语识别系统重要是建设在音频上。而且须要少量数据来训练,通常须要数万小时的记载。

为了钻研视觉成果,尤其是嘴部举措的镜头,能否可以提高语音识别系统的性能。Meta 的钻研人员开发了 Audio-Visual Hidden UnitBERT (AV-HuBERT),这是一个经过观看学习和听人们谈话来了解言语的框架。

Meta 宣称 AV-HuBERT 比经常使用相反数量转录量的最佳视听语音识别系统准确率高 75%。此外,该公司示意,AV-HuBERT经常使用十分之一的标志数据优于以前最好的视听言语识别系统,这使得它或者对音视频数据很少的言语具备潜在的用途。

Meta AI 钻研迷信家 Abdelrahman Mohamed 示意:“在未来,像 AV-HuBERT 这样的 AI框架可用于提高语音识别技术在喧闹的日常条件下的性能,例如,在团聚上或在冷热闹清的街头中启动的互动。智能手机中的助手、增强理想眼镜和装备摄像头的智能扬声器,例如Alexa Echo Show 也可以在这项技术中受益。”

目前,Meta 已将相关代码开源到 GitHub。

Meta并不是第一个将人工智能运行于读唇语疑问的公司。2016年,牛津大学的钻研人员创立了一个系统,该系统在某些测试中的准确率简直是阅历丰盛的唇读者的两倍,并且可以实时地解决视频。2017年,Alphabet旗下的 DeepMind 在数千小时的电视节目中训练了一个系统,在测试集上可以正确翻译约 50%的单词而没有失误,远高于人类专家的 12.4%。

但是牛津大学和 DeepMind的模型,与许多后续的唇读模型一样,在它们可以识别的词汇范围内遭到限度。这些模型还须要与转录本配对的数据集能力启动训练,而且它们不可解决视频中任何扬声器的音频。

有点共同的是, AV-HuBERT 应用了无监视或自我监视的学习。经过监视学习,像 DeepMind这样的算法在标志的示例数据上启动训练,直到它们可以检测到示例和特定输入之间的潜在相关。例如,系统或者会被训练在显示柯基的图片时写出单词「dog」。但是,AV-HuBERT自学对未标志的数据启动分类,解决数据以从其固有结构中学习。

AV-HuBERT也是多模态的,由于它经过一系列的音频和唇部举措揭示来学习感知言语。经过联合谈话环节中嘴唇和牙齿的静止等线索以及听觉信息,AV-HuBERT可以捕捉这两种数据类型之间的纤细关联。

最后的 AV-HuBERT 模型在 30 小时的 TED Talk 视频上启动了训练,大大少于之前最先进模型的 31,000小时的训练期间。但是,虽然在较少的数据上启动了训练,AV-HuBERT 的单词失误率(WER)(权衡语音识别性能的目的)在可以看到但听不到谈话者的状况下略好于旧模型的 33.6%,前者为 32.5%。(WER的计算方法是将失误识别的单词数除以总单词数;32.5% 转化为大概每 30 个单词产生一个失误。)在 433 小时的 TED 演讲训练进一步将AV-HuBERT 的 WER 降低到 28.6%。

一旦 AV-HuBERT 很好地了解了数据之间的结构和相关性,钻研人员就能够在未标志的数据上进一步训练它。上行到 YouTube 的 2,442小时名人英语视频,这不只使 WER 降低到 26.9%,而且 Meta示意,它标明只有要大批标志数据来训练特定运行程序(例如,当多人同时谈话时)或不同言语的框架。

理想上,Meta 宣称当背景中播放响亮的音乐或噪音时,AV-HuBERT 在识别一团体的语音方面比纯音频模型好约50%,当语音和背景噪音雷同响亮时,AV-HuBERT 的 WER 为 3.2%,而之前的最佳多形式模型为 25.5%。

潜在的缺陷

在许多方面来看,AV-HuBERT 意味着 Meta 在用于复杂义务的无监视、多形式技术方面始终增长的投资。

Meta 示意 AV-HuBERT 可认为开发“低资源”言语的对话模型开拓或者性。该公司倡导,AV-HuBERT还可用于为有言语阻碍的人创立语音识别系统,以及检测深度伪造和为虚构理想化身生成真切的嘴唇静止。

在各方面数据上,新方法的变现着实很精彩,但也有学者有一些担心。

其中,华盛顿大学的人工智能伦理学专家Os Keye就提到,关于因患有唐氏综合征、中风等疾病而造成面部瘫痪的人群,依赖读唇的语音识别还无心义吗?

在微软和卡内基梅隆大学的一篇论文中,提出了人工智能偏心性钻研路途图,指出相似于 AV-HuBERT的面部剖析系统的某些方面或者不实用于患有唐氏综合症、软骨发育不全(侵害骨骼成长)和“造成特色性面部差异的其余条件”等。

Mohamed 强调 AV-HuBERT 只关注唇部区域来捕捉唇部静止,而不是整个面部。他补充说,与大少数 AI 模型相似,AV-HuBERT的性能将“与训练数据中不同人群的代表性样本数量成正比”。

“为了评价咱们的方法,咱们经常使用了地下可用的 LRS3 数据集,该数据集由牛津大学钻研人员于 2018 年地下提供的 TED Talk视频组成。由于该数据集不代表残疾谈话者,因此咱们没有预期性能降低的特定百分比,”Mohamed 说。

Meta 示意,它将“继续在背景噪声和谈话者堆叠很经常出现的日常场景中启动基准测试和开发改良视听语音识别模型的方法。”

您可能还会对下面的文章感兴趣: