Offer 驾到,掘友接招!我正在参与2022春招打卡活动,点击查看活动详情。
内容总结来源:李宏毅——DeepLearning and Human Language Processing
1、常见的任务模型
根据输入和输出的不同,可以将语音处理的任务分为下边6个大类:
(1)语音识别
Input:Audio(语音)
Output:Text(文本)
Task:Automatic Speech Recognition(ASR)
(2)语音合成
Input:Audio(语音)
Output:Text(文本)
Task:Text-to-Speech Synthesis
(3)语音分离和声音转换
Input:Audio(语音)
Output:Audio(语音)
Task:Speech Separation,Voice Conversion
(4)Translation、Summarization、Chat-bot、QA
Input:Text(文本)
Output:Text(文本)
Task:机器翻译、文本摘要、聊天机器人、问答系统
(5)Speaker Recogntion & Keyword Spotting
Input:Audio(语音)
Output:Class
Task:判断说话者(小爱、Siri),关键词检测
(6)Text Classification & Text Matching
Input:Text(文本)
Output:class
Task:文本分类、文本匹配
2、语音识别的单位(对样本进行token化)
(1)phoneme(音位,音素):a unit of sound (最小语音单位),需要Lexicon(词典)映射:word to phonemes
(2)grapheme(字位):smallest unit of a writing system(书写的最小单位),需要26个字母表+space+标点符号
(3)word:单词
(4)morpheme(词素):the smallest meaningful unit(<word,>grapheme),词根、词缀之类
For example :unbreakable-> un,break,able
(5)Bytes :the system can be language independent(utf-8作为处理的基本单位)
- E2E模型
4.1 LAS
4.2 CTC
参考:
语音识别(Speech Recognition)综述 - 知乎