阶跃 StepAudio 2.5 ASR 上线！500TPS 极速推理，30分钟语音“秒级转写”阶跃星辰全球首次将大语言

语音 Agent 首字响应慢，很多人以为是 LLM 的锅。其实真正的延时瓶颈常在 ASR（自动语音识别）：传统的逐 token 串行输出——一段 5 分钟音频，要等几十秒才能拿到完整转写结果，整条链路卡在这一步。

StepAudio 2.5 ASR 引入 MTP 技术，单步并行预测多个 Token，大幅削减串行等待周期，5 分钟音频 1 秒 出头 即可出完整转写结果。

核心亮点

1.极速推理：速度提升 400%，成本直降 80%

阶跃星辰全球首次将大语言模型领域的 Multi-Token Prediction（ MTP ，多 Token 预测） 技术引入语音识别领域，彻底重构 ASR 解码流水线。

传统 ASR 受限于自回归架构，必须逐 Token 串行生成——每个字必须等上一个字出来才能开始预测。StepAudio 2.5 ASR 引入 MTP 后，单步可并行预测多个 Token，通过候选验证机制大幅削减等待周期，让 ASR 快如闪电。

实测数据：

指标	数值
算力成本	直降 80%，API 定价 0.15 元/小时，刷新行业底价
RTF（引擎侧）	0.0053，即转写 1 小时音频仅需约 19 秒
吞吐量提升	+400%，同等算力下并发路数提升至原先 5 倍
时延降低	60%，5 分钟音频 1 秒内出结果
推理速度	极限 500 tokens/s

什么是 RTF ？ RTF（Real-Time Factor，实时率）是语音识别领域的标准速度指标，表示"处理 1 秒音频所需的计算时间"。RTF 越小越快：RTF = 0.0053 意味着处理 1 秒音频只需 0.0053 秒，转写 1 小时音频约 19 秒即可完成。

测试说明： 以下数据均为引擎侧 RTF，测试条件为单并发推理多条30s音频后取RTF均值；除 Doubao ASR 走官方 API 外，其余模型均在本地 H800 卡推理，测试环境存在差异，供参考。

竞品 RTF 对比：

StepAudio 2.5 ASR 推理速度是第二名 Qwen3 ASR 的近 2 倍，是 VibeVoice、Doubao 等主流方案的 10～20 倍。

SOTA 转写精度

基于4B 参数深度优化，在新闻、会议、强噪声等多场景下，中英文错误率全面刷新行业基线。

价格与接入

API 定价： 0.15 元/小时，仅为上代Step ASR 2 的 1/10。Step Plan 用户可直接使用。

接入： API 调用中替换模型名为 stepaudio-2.5-asr 即可迁移，接入参考下方API文档

适用场景

Voice Agent、大规模转写服务、实时字幕/直播。

体验入口：

阶跃星辰开放平台(API文档)：platform.stepfun.com/docs/zh/gui…
Step Plan：platform.stepfun.com/docs/zh/ste…
在线体验：www.stepfun.com/studio/audi…
Demo Page：stepaudiollm.github.io/step-audio-…
Model Card：stepaudiollm.github.io/step-audio-…

阶跃 StepAudio 2.5 ASR 上线！500TPS 极速推理，30分钟语音“秒级转写”

核心亮点

1.极速推理：速度提升 400%，成本直降 80%

SOTA 转写精度

价格与接入

适用场景

体验入口：