阶跃 StepAudio 2.5 ASR 上线!500TPS 极速推理,30分钟语音“秒级转写”

0 阅读2分钟

语音 Agent 首字响应慢,很多人以为是 LLM 的锅。其实真正的延时瓶颈常在 ASR(自动语音识别):传统的逐 token 串行输出——一段 5 分钟音频,要等几十秒才能拿到完整转写结果,整条链路卡在这一步。

StepAudio 2.5 ASR 引入 MTP 技术,单步并行预测多个 Token,大幅削减串行等待周期,5 分钟音频 1 秒 出头 即可出完整转写结果


核心亮点

1.极速推理:速度提升 400%,成本直降 80%

阶跃星辰全球首次将大语言模型领域的 Multi-Token Prediction( MTP ,多 Token 预测)  技术引入语音识别领域,彻底重构 ASR 解码流水线。

传统 ASR 受限于自回归架构,必须逐 Token 串行生成——每个字必须等上一个字出来才能开始预测。StepAudio 2.5 ASR 引入 MTP 后,单步可并行预测多个 Token,通过候选验证机制大幅削减等待周期,让 ASR 快如闪电

实测数据:

指标数值
算力成本直降 80%,API 定价 0.15 元/小时,刷新行业底价
RTF(引擎侧)0.0053,即转写** 1 小时音频**仅需约 19 秒
吞吐量提升+400%,同等算力下并发路数提升至原先 5 倍
时延降低60%,5 分钟音频 1 秒内出结果
推理速度极限 500 tokens/s

什么是 RTF  RTF(Real-Time Factor,实时率)是语音识别领域的标准速度指标,表示"处理 1 秒音频所需的计算时间"。RTF 越小越快:RTF = 0.0053 意味着处理 1 秒音频只需 0.0053 秒,转写 1 小时音频约 19 秒即可完成。

测试说明:  以下数据均为引擎侧 RTF,测试条件为单并发推理多条30s音频后取RTF均值;除 Doubao ASR 走官方 API 外,其余模型均在本地 H800 卡推理,测试环境存在差异,供参考。

竞品 RTF 对比:

StepAudio 2.5 ASR 推理速度是第二名 Qwen3 ASR 的近 2 倍,是 VibeVoice、Doubao 等主流方案的 10~20 倍


  1. SOTA 转写精度

基于4B 参数深度优化,在新闻、会议、强噪声等多场景下,中英文错误率全面刷新行业基线。


价格与接入

API 定价: 0.15 元/小时,仅为上代Step ASR 2 的 1/10。Step Plan 用户可直接使用。

接入: API 调用中替换模型名为 stepaudio-2.5-asr 即可迁移,接入参考下方API文档


适用场景

Voice Agent、大规模转写服务、实时字幕/直播。


体验入口: