ICASSP 2022语音信号处理技术全景概览

25 阅读2分钟

ICASSP 2022:某中心50余篇论文技术指南

某中心研究人员在本年度声学、语音与信号处理国际会议上发表了50多篇论文。其中多数聚焦于自动语音识别及相关主题,如关键词识别和说话人识别,但也涉及计算机视觉和联邦学习等更广泛的领域。

声学事件检测

  • 联邦自监督声学事件分类学习:Meng Feng等人提出结合联邦学习和自监督学习的方法
  • 基于树状结构本体的改进声学事件分类表示学习:Arman Zharmagambetov等人利用本体论提升分类性能
  • WikiTAG:基于维基百科的知识嵌入改进声学事件分类:Qin Zhang等人融合知识图谱增强模型表现

自动语音识别

  • 基于似然比的端到端模型领域自适应方法:Chhavi Choudhury等人提出领域适应新方法
  • 贪心采样策略无损端到端语音识别:Jahn Heymann等人证明贪心策略的有效性
  • 缓存网络:利用通用语音优化ASR:Anastasios Alexandridis等人提出共享语音特征方法

在"LATTENTION: ASR重评分中的网格注意力机制"中,研究人员展示了将注意力机制应用于编码多个ASR假设的网格能提升识别性能。

计算机视觉

  • ASD-transformer:使用自注意力和多模态transformer的高效主动说话人检测
  • 动态剪枝SegFormer实现高效语义分割
  • 具有时间感知的对比学习增强音频-视觉表示生成

联邦学习

  • 联邦学习挑战与机遇展望:Jie Ding等人分析联邦学习现实应用问题
  • 实际联邦学习经验总结:Christophe Dupuy分享实际部署经验

其他技术领域

  • 信息检索:基于对比知识图谱注意力的食谱推荐
  • 机器翻译:用于自动配音的等距神经机器翻译
  • 自然语言理解:自动发现新领域和意图的ADVIN系统
  • 个性化:增量用户嵌入建模实现个性化文本分类

信号处理与语音合成

  • 深度自适应声学回声消除:结合深度学习和传统方法
  • 基于风格转换的上混音技术:使用变分自编码器分离空间图像和音乐内容
  • 神经语音合成效率优化:改进LPCNET的效率表现

时间序列预测

  • 基于回溯测试自助法和自适应残差选择的鲁棒非参数分布预测

这些研究成果涵盖了语音信号处理的多个前沿方向,展示了在自动语音识别、多模态学习、联邦学习等领域的技术创新和实际应用突破。