上交+阿里 | Interactive ASR：Agent框架做语音识别交互纠错，1轮交互语义错误率降57%语音识别系统

导读

语音识别系统的评估长期依赖WER（词错误率），但WER对所有词一视同仁——把"the"识别成"a"和把人名"Sarah"识别成"Sara"受到同等惩罚，这显然不符合实际使用中对语义正确性的需求。更关键的是，现有ASR系统都是"一锤子买卖"，输出结果后无法根据用户反馈进行修正，而人类对话中"不是那个，是这个"的纠错机制却是最自然不过的交互方式。

上海交通大学与阿里巴巴通义实验室等团队提出了Interactive ASR框架，通过Intent Router + Reasoning Corrector的Agent架构实现语音识别的多轮交互纠错，并设计了新的语义级评估指标S²ER。实验表明，仅1轮交互即可将S²ER从14.12%降至6.03%（GigaSpeech），10轮后降至约1%，同时S²ER与人类评估的对齐度（Pearson r=0.8281）超过了领域专家平均水平（r=0.8104）。

论文信息

标题： Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition
作者： Peng Wang, Yanqiao Zhu, Zixuan Jiang, Qinyuan Chen, Xingjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen
机构： X-LANCE Lab（上海交通大学）、香港中文大学（深圳）、西安交通大学、复旦大学、通义Fun团队（Tongyi Fun Team，阿里巴巴集团）
项目主页： interactiveasr.github.io/

一、WER够用吗？语音识别评估的语义盲区

传统ASR系统的核心评估指标WER存在一个根本性的局限：对所有词等权处理。无论是功能词的微小变化（"the"→"a"），还是关键实体的拼写差异（"Sarah Knight"→"Sara Knight"），WER都给出相同的错误惩罚。但从用户的实际使用角度来看，后者几乎不影响理解，前者也无关紧要——真正重要的是核心语义是否被正确传达。

与此同时，现有ASR系统普遍采用"一次性输出"的工作模式。用户说完一句话，系统给出识别结果，交互就此结束。但口语场景中充满了歧义：同音词、口音差异、背景噪声都可能导致误识别。在人类对话中，我们自然地通过追问和纠正来解决这些问题——"不是Sara，是Sarah，S-A-R-A-H"。然而，大多数ASR系统缺乏这种交互纠错的能力。

这篇论文同时针对这两个问题给出了方案：一个语义级的评估指标S²ER，和一个基于Agent架构的交互式纠错框架。

二、S²ER：让LLM当语义裁判

S²ER（Sentence-level Semantic Error Rate） 的核心思路是用LLM-as-a-Judge来评估ASR输出与真实转录之间的语义等价性。其公式为：

其中，LLM judge对每对样本输出二元判断：1表示语义等价，0表示不等价。关键在于judge的提示词P_judge：它指示LLM优先关注核心意图和关键实体，忽略填充词、标点等表层变异。

为了验证S²ER是否真的比人工评估更可靠，研究团队设计了一个严格的Human-AI Alignment实验：从GigaSpeech、WenetSpeech、ASRU2019三个数据集各取40对样本（共120对），邀请23名非专业标注员和5名领域专家进行二元语义等价判断，然后计算LLM judge与人类评估的Pearson相关系数。

数据集	LLM (r)	Expert (r)
GigaSpeech	0.8730	0.8345
WenetSpeech	0.7973	0.7351
ASRU2019	0.8556	0.8613
Overall	0.8281	0.8104

结果显示，LLM judge的整体对齐度（r=0.8281）超过了领域专家平均水平（r=0.8104）。在GigaSpeech和WenetSpeech上，LLM judge分别比专家高出0.0385和0.0622；仅在ASRU2019（普通话-英语代码切换场景）上，专家略微领先（0.8613 vs 0.8556，差距仅0.0057）。这说明S²ER作为自动化语义评估指标具有足够的可靠性。

三、Interactive ASR：Intent Router + Reasoning Corrector的Agent纠错架构

Interactive ASR框架的核心是将ASR从"单次输出"升级为"多轮交互"，其架构由三个模块组成：

1. Base ASR（Qwen3-ASR-1.7B）

负责将用户语音转录为初始假设H_t。这是整个系统的基础识别层。

2. Intent Router（LLM）

这是Agent架构的"决策中枢"。Intent Router接收新的语音输入转录，分析其与前序转录的语义关系，做出两种判断：

如果用户说的是新话语（无纠正意图）→ 直接作为新结果Y_t输出
如果用户输入携带纠正意图（如"不是Sara，是Sarah"）→ 触发Reasoning Corrector

3. Reasoning Corrector（Qwen-32B）

当Intent Router判断用户有纠正意图后，Reasoning Corrector执行三步CoT（Chain-of-Thought）推理：

Locate：定位前序转录Y_{t-1}中的错误段
Reason：基于语音约束和词汇约束推断正确内容
Surgical Replacement：精确替换错误段，保留其余部分不变

这种"定位→推理→精确替换"的设计避免了对整句重新生成，减少了引入新错误的风险。

图片来源于原论文

自动模拟框架

为了实现大规模自动评估，论文还设计了一套User Simulator + Semantic Judge的模拟框架：

User Simulator由两部分组成：Correction Generator（Qwen-32B）根据ground truth和当前假设生成自然语言纠正指令，支持语音拼写、上下文澄清、直接否定等多种纠正策略；TTS Vocalizer（IndexTTS-1.5）将纠正指令合成为语音，并使用原始音频作声学参考以保持音色一致
Semantic Judge：用LLM-as-a-Judge验证修正后的转录与ground truth的语义等价性

系统循环运行，直到语义匹配或达到最大交互轮次。

四、实验分析：1轮交互的语义纠错效率

实验在三个基准数据集上进行：

ASRU2019 Test：20小时，普通话-英语混合代码切换
GigaSpeech Test：40小时，多领域英语（播客+YouTube）
WenetSpeech Net：23小时，互联网自发语音（普通话）

交互轮次	GigaSpeech		WenetSpeech		ASRU2019
	WER	S²ER	CER	S²ER	MER	S²ER
0	12.45	14.12	6.89	15.56	6.60	26.89
1	11.08	6.03	4.59	6.26	3.59	8.10
2	10.82	3.66	4.07	3.81	3.21	4.59
3	10.68	2.67	3.67	2.71	3.09	3.06
10	10.53	1.08	3.51	1.11	2.88	0.82

从数据中可以观察到几个关键趋势：

S²ER的下降幅度远大于传统指标。 以GigaSpeech为例，第1轮交互后S²ER从14.12%降至6.03%（降幅57.3%），而WER仅从12.45%降至11.08%（降幅11.0%）。这说明交互纠错优先解决的是语义层面的核心错误，而非所有字面差异。

第1轮交互的收益最大。 三个数据集上，第1轮S²ER的降幅分别为57.3%（GigaSpeech）、59.8%（WenetSpeech）和69.9%（ASRU2019）。后续轮次的边际收益递减但仍然可观——第2轮再降约一半。

10轮后逼近天花板。 S²ER分别达到1.08%、1.11%和0.82%，接近系统能力的极限。论文分析指出，后期出现的级联错误是主要瓶颈：Base ASR反复误识别纠正指令中的关键词，导致Reasoning Corrector丢失锚点，纠正陷入停滞。

ASRU2019上初始S²ER最高（26.89%），但交互纠错的收益也最大。 代码切换场景下ASR的初始语义错误严重，但通过交互纠错，10轮后S²ER降至0.82%，是三个数据集中最低的。

图片来源于原论文

五、总结与思考

本文提出了语义级评估指标S²ER（与人类对齐度r=0.8281超过专家平均水平）和基于Agent架构的交互纠错框架，1轮交互即可将语义错误率降低57%-70%。

值得关注的是，10轮后改善停滞的主要原因是Base ASR对纠正指令本身的误识别导致级联错误——纠正指令的识别质量决定了纠错天花板。此外，Reasoning Corrector使用Qwen-32B，每轮交互的推理开销在延迟敏感场景中需要权衡。