AI智能语音识别算法下篇

2024-11-15

一、神经网络

罕用的语音识别框架如下图

其面前的逻辑是

在特色提取时驳回的神经网络外面的DNN技术

DNN技术可以分为两种，一种是CNN模型，一种是RNN模型

二、解码器

2.1 声学模型

罕用的声学模型为GMM-HMM，即混合高斯模型-隐马尔科夫模型

HMM模型对时序消息启动建模，在给定HMM的一个形态后，GMM对属于该形态的语音特色向量的概率散布启动建模。

2.2 词典

字典：就是发音字典，中文中就是拼音与汉字的对应，英文中就是音标与单词的对应

用途：

依据声学模型识别进去的音素，在字典中来找到对应的汉字（词）或许单词，用来在声学模型和言语模型建设桥梁，将两者咨询起来。

比如如下词语的映射表：

2.3 言语模型

言语模型是针对某种言语建设的概率模型，是用来计算一个句子的概率的概率模型。

划分以下两种：

2.3.1 N元统计言语模型：N-gram模型、平滑化

2.3.2 神经网络言语模型：

与统计言语模型不同的是，神经网络言语模型不经过计数的方法对nn元条件概率启动估量，而是间接经过一个神经网络对其建模求解。

用途：

1、选择哪一个词序列的或许性更大

2、已知若干个词，预测下一个词

例子：

1、I went to a party.

Eye went two a bar tea.

2、你如今在干什么？

人工智能语音识别

AI智能语音识别算法 下篇