二.语音识别规则及原理--rule and principle of speech

182 阅读3分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第2天,点击查看活动详情

1.语音识别的规则

1.1默认要求

1.这里不再重复机器学习的内容,已经假设知道如何去训练Deep Network的原理例如gradiemt descent、backpropapagation

2.至少能够使用一种deep learning framework比如说tensorflow、portorch(后续会更一个用pytorch版深度学习的专栏用于辅助学习)

3.知道基本的Network架构如:cnn,Rnn。

2.语音识别原理

2.1语音识别该何去何从

我们可以放心地断言,语音识别对金钱具有吸引力。这种吸引力类似于将水转化为汽油、从海洋中提取黄金、治疗癌症或登月计划的吸引力。--J.R.Pierce

image.png 语音识别就是输入是一段讯号,输出是一段文字。在这里声音讯号是一串向量,文字是一系列标记。通常情况下输入要比输出长。

在这里标记(Token)

Phoneme:相当于音标(声音的基本单位),其中我们可以根据lexicon(word to phonemes)来进行输出,而lexicon和Phoneme就需要有语言学的人来进行解释。要知道每个字有几个Phoneme,怎么去发音。

image.png

Grapheme:书写系统的最小单位.在这里我们不再需要使用lexicon,不用找语言学家去找词典也不用再去需要语言学家去做解释。但是也会有很多问题,当我们听到一段声音的时候,有可能区分到B区的意思也有可能区分到C区的意思。这就需要系统有强大的协调能力,整合上下文进行调整。而且对于一些语言,V也就是向量可能会变得非常非常大,也会对最终的效果产生很大的影响。

image.png word:使用词语来进行标记分类,效果也不会太好,就比如中文的‘好’,根据不同的场景会有很多很多的含义,也可能是夸奖,也可能是赞赏,也可能是暗示,也可能是不服气的声音(但是机器只能理解字面意思,这就导致效果不太准确)。

image.png

Morpheme:最小有意义单位。我们将某个单词进行拆分,将其主要方向(正向或者负向),主要意思,积极或者消极,时态等进行组合分析。

image.png

Bytes(!):最猛的一种标识手段,使用utf-8的方式,将不同字进行表中对照,然后进行相应转化,这里的向量就永远只有256种。

image.png

目前对于各种方式,对于各种标识手段的比例如下:

image.png

2.2处理一段语音

我们在收到一段音讯后如何进行转换呢?在声音的开始阶段大致也就是取25ms的段将其定为frame,无脑的把这一段种的symbol取出来。在我们说一秒钟的话会被转成100个向量(极其恐怖).

image.png

频谱会经过DFT处理后转化成spectrogram,当我们经常看声音频谱的时候我们可能会练成一种本领,可以直接看spectrogram就能猜出来这段音频的意思。哈哈哈。那种频谱也是日常中所存在的,当接触过多后会成为一种分辨经验。人类尚能如此,机器也有无限可能。

image.png

2.3我们需要多少数据?

根据模型或者标记等方式的不同所需要的数据量也有所不同,这也是为什么机器学习跑一趟会很久很久的原因。

MNIST:28281*60000=47040000=49分钟

image.png

3.模型推荐

在过去的时间里,人们对于模型的使用。

image.png