持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第2天，点击查看活动详情

1.语音识别的规则

1.1默认要求

1.这里不再重复机器学习的内容，已经假设知道如何去训练Deep Network的原理例如gradiemt descent、backpropapagation

2.至少能够使用一种deep learning framework比如说tensorflow、portorch(后续会更一个用pytorch版深度学习的专栏用于辅助学习)

3.知道基本的Network架构如：cnn,Rnn。

2.语音识别原理

2.1语音识别该何去何从

我们可以放心地断言，语音识别对金钱具有吸引力。这种吸引力类似于将水转化为汽油、从海洋中提取黄金、治疗癌症或登月计划的吸引力。--J.R.Pierce

语音识别就是输入是一段讯号，输出是一段文字。在这里声音讯号是一串向量，文字是一系列标记。通常情况下输入要比输出长。

在这里标记(Token)

Phoneme:相当于音标(声音的基本单位)，其中我们可以根据lexicon（word to phonemes）来进行输出，而lexicon和Phoneme就需要有语言学的人来进行解释。要知道每个字有几个Phoneme，怎么去发音。

Grapheme:书写系统的最小单位.在这里我们不再需要使用lexicon，不用找语言学家去找词典也不用再去需要语言学家去做解释。但是也会有很多问题，当我们听到一段声音的时候，有可能区分到B区的意思也有可能区分到C区的意思。这就需要系统有强大的协调能力，整合上下文进行调整。而且对于一些语言，V也就是向量可能会变得非常非常大，也会对最终的效果产生很大的影响。

word:使用词语来进行标记分类，效果也不会太好，就比如中文的‘好’，根据不同的场景会有很多很多的含义，也可能是夸奖，也可能是赞赏，也可能是暗示，也可能是不服气的声音(但是机器只能理解字面意思，这就导致效果不太准确)。