上交+阿里 | Interactive ASR:Agent框架做语音识别交互纠错,1轮交互语义错误率降57%

0 阅读7分钟

导读

语音识别系统的评估长期依赖WER(词错误率),但WER对所有词一视同仁——把"the"识别成"a"和把人名"Sarah"识别成"Sara"受到同等惩罚,这显然不符合实际使用中对语义正确性的需求。更关键的是,现有ASR系统都是"一锤子买卖",输出结果后无法根据用户反馈进行修正,而人类对话中"不是那个,是这个"的纠错机制却是最自然不过的交互方式。

上海交通大学与阿里巴巴通义实验室等团队提出了Interactive ASR框架,通过Intent Router + Reasoning Corrector的Agent架构实现语音识别的多轮交互纠错,并设计了新的语义级评估指标S²ER。实验表明,仅1轮交互即可将S²ER从14.12%降至6.03%(GigaSpeech),10轮后降至约1%,同时S²ER与人类评估的对齐度(Pearson r=0.8281)超过了领域专家平均水平(r=0.8104)。


论文信息

  • 标题: Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition
  • 作者: Peng Wang, Yanqiao Zhu, Zixuan Jiang, Qinyuan Chen, Xingjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen
  • 机构: X-LANCE Lab(上海交通大学)、香港中文大学(深圳)、西安交通大学、复旦大学、通义Fun团队(Tongyi Fun Team,阿里巴巴集团)
  • 项目主页: interactiveasr.github.io/

一、WER够用吗?语音识别评估的语义盲区

传统ASR系统的核心评估指标WER存在一个根本性的局限:对所有词等权处理。无论是功能词的微小变化("the"→"a"),还是关键实体的拼写差异("Sarah Knight"→"Sara Knight"),WER都给出相同的错误惩罚。但从用户的实际使用角度来看,后者几乎不影响理解,前者也无关紧要——真正重要的是核心语义是否被正确传达

与此同时,现有ASR系统普遍采用"一次性输出"的工作模式。用户说完一句话,系统给出识别结果,交互就此结束。但口语场景中充满了歧义:同音词、口音差异、背景噪声都可能导致误识别。在人类对话中,我们自然地通过追问和纠正来解决这些问题——"不是Sara,是Sarah,S-A-R-A-H"。然而,大多数ASR系统缺乏这种交互纠错的能力。

这篇论文同时针对这两个问题给出了方案:一个语义级的评估指标S²ER,和一个基于Agent架构的交互式纠错框架


二、S²ER:让LLM当语义裁判

S²ER(Sentence-level Semantic Error Rate) 的核心思路是用LLM-as-a-Judge来评估ASR输出与真实转录之间的语义等价性。其公式为:

²

其中,LLM judge对每对样本输出二元判断:1表示语义等价,0表示不等价。关键在于judge的提示词P_judge:它指示LLM优先关注核心意图和关键实体,忽略填充词、标点等表层变异。

为了验证S²ER是否真的比人工评估更可靠,研究团队设计了一个严格的Human-AI Alignment实验:从GigaSpeech、WenetSpeech、ASRU2019三个数据集各取40对样本(共120对),邀请23名非专业标注员和5名领域专家进行二元语义等价判断,然后计算LLM judge与人类评估的Pearson相关系数。

数据集LLM (r)Expert (r)
GigaSpeech0.87300.8345
WenetSpeech0.79730.7351
ASRU20190.85560.8613
Overall0.82810.8104

结果显示,LLM judge的整体对齐度(r=0.8281)超过了领域专家平均水平(r=0.8104)。在GigaSpeech和WenetSpeech上,LLM judge分别比专家高出0.0385和0.0622;仅在ASRU2019(普通话-英语代码切换场景)上,专家略微领先(0.8613 vs 0.8556,差距仅0.0057)。这说明S²ER作为自动化语义评估指标具有足够的可靠性。


三、Interactive ASR:Intent Router + Reasoning Corrector的Agent纠错架构

Interactive ASR框架的核心是将ASR从"单次输出"升级为"多轮交互",其架构由三个模块组成:

1. Base ASR(Qwen3-ASR-1.7B)

负责将用户语音转录为初始假设H_t。这是整个系统的基础识别层。

2. Intent Router(LLM)

这是Agent架构的"决策中枢"。Intent Router接收新的语音输入转录,分析其与前序转录的语义关系,做出两种判断:

  • 如果用户说的是新话语(无纠正意图)→ 直接作为新结果Y_t输出
  • 如果用户输入携带纠正意图(如"不是Sara,是Sarah")→ 触发Reasoning Corrector

3. Reasoning Corrector(Qwen-32B)

当Intent Router判断用户有纠正意图后,Reasoning Corrector执行三步CoT(Chain-of-Thought)推理

  • Locate:定位前序转录Y_{t-1}中的错误段
  • Reason:基于语音约束和词汇约束推断正确内容
  • Surgical Replacement:精确替换错误段,保留其余部分不变

这种"定位→推理→精确替换"的设计避免了对整句重新生成,减少了引入新错误的风险。

图片

图片来源于原论文

自动模拟框架

为了实现大规模自动评估,论文还设计了一套User Simulator + Semantic Judge的模拟框架:

  • User Simulator由两部分组成:Correction Generator(Qwen-32B)根据ground truth和当前假设生成自然语言纠正指令,支持语音拼写、上下文澄清、直接否定等多种纠正策略;TTS Vocalizer(IndexTTS-1.5)将纠正指令合成为语音,并使用原始音频作声学参考以保持音色一致
  • Semantic Judge:用LLM-as-a-Judge验证修正后的转录与ground truth的语义等价性

系统循环运行,直到语义匹配或达到最大交互轮次。


四、实验分析:1轮交互的语义纠错效率

实验在三个基准数据集上进行:

  • ASRU2019 Test:20小时,普通话-英语混合代码切换
  • GigaSpeech Test:40小时,多领域英语(播客+YouTube)
  • WenetSpeech Net:23小时,互联网自发语音(普通话)
交互轮次GigaSpeechWenetSpeechASRU2019
WERS²ERCERS²ERMERS²ER
012.4514.126.8915.566.6026.89
111.086.034.596.263.598.10
210.823.664.073.813.214.59
310.682.673.672.713.093.06
1010.531.083.511.112.880.82

从数据中可以观察到几个关键趋势:

S²ER的下降幅度远大于传统指标。 以GigaSpeech为例,第1轮交互后S²ER从14.12%降至6.03%(降幅57.3%),而WER仅从12.45%降至11.08%(降幅11.0%)。这说明交互纠错优先解决的是语义层面的核心错误,而非所有字面差异。

第1轮交互的收益最大。 三个数据集上,第1轮S²ER的降幅分别为57.3%(GigaSpeech)、59.8%(WenetSpeech)和69.9%(ASRU2019)。后续轮次的边际收益递减但仍然可观——第2轮再降约一半。

10轮后逼近天花板。 S²ER分别达到1.08%、1.11%和0.82%,接近系统能力的极限。论文分析指出,后期出现的级联错误是主要瓶颈:Base ASR反复误识别纠正指令中的关键词,导致Reasoning Corrector丢失锚点,纠正陷入停滞。

ASRU2019上初始S²ER最高(26.89%),但交互纠错的收益也最大。 代码切换场景下ASR的初始语义错误严重,但通过交互纠错,10轮后S²ER降至0.82%,是三个数据集中最低的。

图片

图片来源于原论文


五、总结与思考

本文提出了语义级评估指标S²ER(与人类对齐度r=0.8281超过专家平均水平)和基于Agent架构的交互纠错框架,1轮交互即可将语义错误率降低57%-70%。

值得关注的是,10轮后改善停滞的主要原因是Base ASR对纠正指令本身的误识别导致级联错误——纠正指令的识别质量决定了纠错天花板。此外,Reasoning Corrector使用Qwen-32B,每轮交互的推理开销在延迟敏感场景中需要权衡。