语音处理入门(1)——常见的语音任务及其模型

1,978 阅读1分钟

Offer 驾到,掘友接招!我正在参与2022春招打卡活动,点击查看活动详情。​​ ​

 内容总结来源:李宏毅——DeepLearning and Human Language Processing

1、常见的任务模型

根据输入和输出的不同,可以将语音处理的任务分为下边6个大类:

(1)语音识别

Input:Audio(语音)

Output:Text(文本)

Task:Automatic Speech Recognition(ASR)

(2)语音合成

Input:Audio(语音)

Output:Text(文本)

Task:Text-to-Speech Synthesis

(3)语音分离和声音转换

Input:Audio(语音)

Output:Audio(语音)

Task:Speech Separation,Voice Conversion

(4)Translation、Summarization、Chat-bot、QA

Input:Text(文本)

Output:Text(文本)

Task:机器翻译、文本摘要、聊天机器人、问答系统

(5)Speaker Recogntion & Keyword Spotting

Input:Audio(语音)

Output:Class

Task:判断说话者(小爱、Siri),关键词检测

 (6)Text Classification & Text Matching

Input:Text(文本)

Output:class

Task:文本分类、文本匹配

 2、语音识别的单位(对样本进行token化)

(1)phoneme(音位,音素):a unit of sound (最小语音单位),需要Lexicon(词典)映射:word to phonemes

(2)grapheme(字位):smallest unit of a writing system(书写的最小单位),需要26个字母表+space+标点符号

(3)word:单词

(4)morpheme(词素):the smallest meaningful unit(<word,>grapheme),词根、词缀之类

 For example :unbreakable-> un,break,able

(5)Bytes :the system can be language independent(utf-8作为处理的基本单位)

  1. E2E模型

4.1 LAS

4.2 CTC

 参考:

语音识别(Speech Recognition)综述 - 知乎