AI智能语音识别算法 下篇
一、神经网络
罕用的语音识别框架如下图
其面前的逻辑是
在特色提取时驳回的神经网络外面的DNN技术
DNN技术可以分为两种,一种是CNN模型,一种是RNN模型
二、解码器
2.1 声学模型
罕用的声学模型为GMM-HMM,即混合高斯模型-隐马尔科夫模型
HMM模型对时序消息启动建模,在给定HMM的一个形态后,GMM对属于该形态的语音特色向量的概率散布启动建模。
2.2 词典
字典:就是发音字典,中文中就是拼音与汉字的对应,英文中就是音标与单词的对应
用途:
依据声学模型识别进去的音素,在字典中来找到对应的汉字(词)或许单词,用来在声学模型和言语模型建设桥梁,将两者咨询起来。
比如如下词语的映射表:
2.3 言语模型
言语模型是针对某种言语建设的概率模型,是用来计算一个句子的概率的概率模型。
划分以下两种:
2.3.1 N元统计言语模型:N-gram模型、平滑化
2.3.2 神经网络言语模型:
与统计言语模型不同的是,神经网络言语模型不经过计数的方法对nn元条件概率启动估量,而是间接经过一个神经网络对其建模求解。
用途:
1、选择哪一个词序列的或许性更大
2、已知若干个词,预测下一个词
例子:
1、I went to a party.
Eye went two a bar tea.
2、你如今在干什么?