一.初识语音识别--DLHLP(Deep Learning for human language Processing)

205 阅读4分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第1天,点击查看活动详情

1.深度学习与人类语言处理(Deep Learning for human language Processing)

人有人言,兽有兽语。那人类与机器又该如何进行交互呢?我们在深度学习的支撑下,希望机器既能听懂人说的话,看懂人写的句子又能写出人看懂的句子,说出人听懂的话。

image.png

1.1.人类的语音是极其复杂的

对于音频:一秒钟的声音讯号有一万六千个点。(没有人可以说同一段话两次,我们每一次说的声音讯号都是不同的。)

image.png

1.2.六种处理语言的模型

一般情况下,模型就等于Deep Network.遇到问题用 deep learning(硬train一发)就对了,哈哈哈。

1.输入是语音,输出是文字。语音辨识。

image.png

2.输入是文字,输出是语音。语音合成。

image.png

3.输入是语音,输出是语音。语音分别、语音转换。

image.png

4.输入是语音,输出是类别。

image.png

5.输入是文字,输出是文字。翻译、摘要、聊天机器、问题回答

image.png

6.输入是文字,输出是类别。

image.png

1.3.六种模型的应用

1.传统的语音识别系统非常复杂,必须把每一个模组都学会才能做出来。但是今天这样子的系统我们可以直接train下去就会产生一个语音识别系统了。我们可以用一个类神经网络给做出来,而且也在日常生活中出现了这种应用,就比如说苹果手机和小米手机的语音识别系统等,在离线状态时使用的就是深度学习的语音识别系统,就是一个类神经网络。

image.png

2.语音合成的非常多,如我们日常影视剧中出现的电影解说,配音等效果已经非常逼近于播音员的水平,但是语音合成还有很多问题出现,在读一段很长的文字时效果还可以,但是读一个字或者词的时候就会出现种种问题,如18年的google的翻译破音事情等

image.png

3.我们在输入一段声音讯号,输出一段声音讯号的应用比如鸡尾酒效应。我们可以从一堆声音中专注于某一个声音,进行提取分开。还有的应用是语音转换,如声卡,将不完善的声音进行自动调节修补达到更好的一个效果,还比如柯南的变声器,我们也可以将自己的声音转换成萌妹的声音与其他人一起打游戏求带。哈哈哈(科技无罪,科技无罪,科技无罪)。

image.png

4.输入一段声音,判断这段声音属于哪个类别的应用。比如我们可以用来判定一段声音是谁说的,这种应用叫做声音识别(Speaker Recognition),而另一种应用就是测出句子中的关键词,比如苹果的嘿,Siri。小米手机的小爱同学,这些时,当判别到这些关键词的时候手机就会唤醒。这种应用叫做关键词识别(Keyword spotting),但是听这种声音不仅要求准确率还要求省电。

5.输入是文字应用非常广泛。我们可以将其用于文本的翻译,比如不同语言进之间行翻译,也可以对一篇文章进行主要内容的摘要等等

image.png

2.机器自学习

2.1Meta learning

一般理解为learn to learn,即让机器自己学会去学习。这种思路和方法一般在机器学习中有具体讲解。

image.png

我们知道机器可以将两种不同的图片进行风格转化,在语音中通过Voice Conversion也可以将两种语音进行转换,在文本中就可以将摘要视为另一种风格的文本,从而将其进行风格转化,将英语转化成汉语等等操作这些操作都可以让机器进行自我学习,自我放置模型。

2.2语音安全

语音的发展让很多事情变得不再安全,科技是一把双刃剑。将声音进行模拟来进行犯罪等活动已经屡屡出现,但是随着技术的完善,相信在不久的将来这些问题都会有妥善的解决。