语音识别技术是如何开展的
语音识别技术是从20世纪50年代开局开展的。如今让咱们看看这些年来这项技术是如何开展的,以及咱们经常使用的语音识别和语音转文本配置的方式是如何随着技术的开展而开展的。
20世纪50-80年代:第一台能听声响的电脑降生
智能语音识别(ASR)的弱小力气象征着它的开展总是与大公司咨询在一同。
贝尔试验室在1952年率先研制出语音号码识别系统——AUDERY。在严厉控制的条件下,AUDERY系统识别语音号码的准确率为97-99%。但是,依据迷信家、前贝尔试验室电气工程师JamesFlanagan的说法,AUDERY坐在“一个六英尺高的继电器架上,消耗了少量的电力,并体现出与复杂的真空管电路关系的有数保养疑问。”即使关于特定的用途而言,AUDREY太低廉且不繁难。
1962年,IBM推出了能够识别数字和繁难数学术语的Shoebox。与此同时,日本的试验室正在开发元音和音素识别器以落第一个语音分词器。关于计算机来说,了解一小局部数字(比如0-9)是一回事,但京都大学的打破是“宰割”一段语音,这样这项技术就可以用于语音的范围。
在20世纪70年代,美国国防部(DARPA)资助了语音了解钻研(SUR)名目。该钻研的成绩包含卡耐基梅隆大学的HARPY语音识别系统。HARPY从1011个单词的词汇表中识别出句子,使这套系统的语音才干相当于三岁儿童的平均水平。
HARPY是最早经常使用HMM的语音识别模型之一。这种概率方法推进了20世纪80年代ASR的开展。理想上,在20世纪80年代,随着IBM的试验转录系统Tangora,语音到文本工具的第一个可行经常使用案例出现了。经过适当的训练,Tangora可以识别并输入2万个英语单词。但是,关于商业用途来说,该系统依然过于轻便。
20世纪90年代到2010年代:生产级ASR
“咱们以为让机器模拟人是失误的,”IBM的语音识别翻新者FredJelinek回想道。“毕竟,假设一台机器必定移动,它是经过轮子而不是步行来移动的。咱们不是全力以赴地钻研人们是如何听和了解言语的,而是宿愿找到让机器来做这件事的人造方式。”
1990年,Dragon Dictate作为第一款商用语音识别软件推出。过后它的老本约为9000美元。在1997年推出Dragon NaturallySpeaking之前,用户依然须要在每个单词之间进度。
1992年,AT&T推出了贝尔试验室的语音识别呼叫处置(VRCP)服务。VRCP如今每年处置大概12亿次语音买卖。
但在20世纪90年代,大少数关于语音识别的上班都是在幕后启动的。团体电脑和无处不在的网络为翻新发明了新的视角。这正是MikeCohen发现的时机,他在2004年添加谷歌,启动了该公司的语音技术开展。谷歌VoiceSearch(2007)向群众提供了语音识别技术。但它也回收了数百万网络用户的语音数据,作为机器学习的培训资料。
苹果(Siri)和微软(Cortana)紧随其后。在2010年代早期,深度学习、循环神经网络(RNNs)和长短期记忆(LSTM)的出现,造成ASR技术才干的超空间飞跃。这种行进势头在很大水平上也遭到低老本计算和大规模算法提高的出现和可用性的推进。
ASR的现状
在数十年的开展基础上,为了响运行户日益增长的希冀,语音识别技术在过去五年中取得了进一步的飞跃。优化不同的音频保真度和厚道的配件要求的处置打算,使语音识别经过语音搜查和物联网,日经常常使用更为繁难。
例如,智能音箱经常使用热词检测,经过嵌入式软件传递即时结果。同时,句子的其他局部被发送到云启动处置。谷歌的VoiceFilter-Lite在买卖的设施端优化团体的语音。这使得生产者可以用自己的声响“训练”他们的设施。培训降低了源失真比(SDR),提高了声控辅佐运行程序的可用性。
单词失误率(WER——语音到文本转换环节中出现的失误单词的百分比)正在大幅降低。钻研人员以为,到本世纪20年代末,99%的转录上班将是智能化的。人们只会参与品质控制和纠正。
21世纪20年代的ASR经常使用案例
随着网络时代的开展,ASR才干正在共生开展。上方是智能语音识别的三个有目共睹的案例。
2021年,播客产业将打破10亿美元大关。听众的数量在飙升,词汇不时涌现。
播客平台正在寻觅具备高准确性和每字期间戳的ASR提供商,以协助人们更容易创立播客,并最大化其内容的价值。像Description这样的运行程序可以将音频转换为可以极速编辑的文本。
此外,每个单词的期间戳节俭了期间,使编辑可以像粘土一样塑造成功的播客。这些文本还可以让一切观众更容易失掉内容,并协助创作者经过搜查引擎优化提高他们节目标可搜查性和可发现性。
由于新冠疫情的大盛行,越来越多的会议在线上启动。只管会议记载须要消耗少量的期间,但是它关于与会者而言是一个十分适用的工具。由于会议记载可以让与会人员了解会议的概要并跟进细节。StreamingASR能够实时转换语音到文字,为会议和研讨会提供更为方便的字幕及现场转录。
法律作证、招聘等流程也正在走向虚构。ASR可以使视频内容更容易被失掉。但更关键的是,端到端(E2E)机器学习(ML)模型进一步改良了语音宰割技术——记载谁在场,谁说了什么。