这波操作稳了 训练自己的语音识别系统 Python 用
其中第⼀个维度为⼩⽚段的个数,原始语⾳越长,第⼀个维度也越⼤, 第⼆个维度为 MFCC 特色的维度。获取原始语⾳的数值表⽰后,就可以使⽤ WaveNet 成功。因为 MFCC 特色为⼀维序列,所以使⽤ Conv1D 进⾏卷积。 因果是指,卷积的输入只和位置之前的输⼊无关,即不使⽤未来的 特色,可以了解为将卷积的位置向前偏移。WaveNet 模型结构如下所⽰:
其中第⼀个维度为⼩⽚段的个数,原始语⾳越长,第⼀个维度也越⼤, 第⼆个维度为 MFCC 特色的维度。获取原始语⾳的数值表⽰后,就可以使⽤ WaveNet 成功。因为 MFCC 特色为⼀维序列,所以使⽤ Conv1D 进⾏卷积。 因果是指,卷积的输入只和位置之前的输⼊无关,即不使⽤未来的 特色,可以了解为将卷积的位置向前偏移。WaveNet 模型结构如下所⽰: