ICASSP音频技术研究全景解析
研究概览
国际声学、语音与信号处理会议(ICASSP)即将召开,某中心在本届会议上发表了36篇研究论文,主题涵盖从经典的噪声和回声消除信号处理问题,到歌声与乐器音轨分离、翻译长度调节等广泛领域。
核心技术研究
自动语音识别(ASR)
多数论文聚焦于自动语音识别的核心技术,即将语音信号转换为文本:
- ASR n-best融合网络
- 双焦点神经ASR:利用关键词发现进行推理优化
- 领域感知神经语言模型用于语音识别
- 端到端多通道变换器用于语音识别
- 基于RNN变换器的语音识别对不流畅语音的鲁棒性改进
- 端到端语音识别系统个性化策略
- 通过领域对抗训练与重标记实现口音不变表示的端到端ASR
- 通过压缩感知实现自动语音识别的稀疏化
- 基于RNN-T的流式多说话人ASR
- 使用合成音频改进端到端ASR系统中词汇表外词的识别
语言切换识别
两篇论文解决了语言(或代码)切换问题,这是ASR的更复杂版本,语音识别器必须确定正在使用多种可能语言中的哪一种:
- 使用RNN-T的联合ASR和语言识别:动态语言切换的高效方法
- 用于代码切换语音识别的变换器-传感器
副语言信号处理
语音信号包含的信息不仅仅是说话者的词语,词语的表达方式可以改变其含义:
- 用于语音情感识别的对比无监督学习
- 使用多任务设置解耦视听情感识别
ASR扩展应用
多篇论文涉及ASR的其他扩展应用:
- 说话人日志:跟踪多个说话人中每个发声者
- 逆文本归一化:将原始ASR输出转换为对下游应用有用的格式
- 声学事件分类:识别人声以外的声音
语音增强技术
语音增强或从语音信号中去除噪声和回声,自1976年ICASSP会议开始以来一直是重要主题:
- 增强编解码器:基于矢量量化自动编码器的噪声鲁棒语音编码
- 基于Percepnet的低复杂度实时联合神经回声控制和语音增强
关键词发现
每次与语音助手的交互都始于唤醒词,因此在ICASSP上,某中心通常展示关于唤醒词检测的工作:
- 探索合成音频在训练关键词发现器中的应用
自然语言理解
在许多口语系统中,ASR之后的下一个步骤是自然语言理解(NLU):
- 将深度强化学习引入NLU排序任务
- 语言模型就是全部所需:将自然语言理解作为问答处理
口语理解
在某些情况下,可以通过单个模型执行ASR和NLU,这被称为口语理解:
- 按我的意思做,而不是按我说的做:口语理解的序列损失训练
- 图增强查询重写用于口语理解系统
- 端到端口语理解中的自上而下注意力
文本到语音
与语音服务的交互通常以代理使用合成语音传递响应结束:
- CAMP:在上下文中建模韵律的两阶段方法
- 使用数据增强的低资源表达性文本到语音
- 用于神经文本到语音的韵律表示学习和上下文采样
- 使用Parallel WaveNet的通用神经声码器
音视频同步
三篇论文涉及音视频同步:两篇处理将一种语言的音频配音到另一种语言拍摄的视频上,一篇描述如何检测视频中的同步错误:
- 通过事件检测音视频同步错误
- 自动配音的韵律对齐改进
- 自动配音的机器翻译冗余控制
特殊应用研究
计算机辅助发音训练
文本到语音团队有一篇关于计算机辅助发音训练的论文:
- 使用不确定性建模的非母语(L2)英语发音错误检测
歌声分离
另一篇论文研究了歌声分离主题,即从歌曲录音中将人声音轨与乐器音轨分离:
- 基于噪声自训练的半监督歌声分离
通用机器学习方法
两篇论文虽然评估了语音识别和音频分类应用,但提出了可适用于一系列问题的通用机器学习方法:
- 云中使用多样性缩放和半监督学习的跨孤岛联邦训练
- 通过一致性学习增强音频增强方法
学术交流
在ICASSP会议上,七位某中心科学家将参与半小时的现场问答环节。会议注册者可以在线向小组成员提交问题。