衡量实时语音大模型的能力,不应该只看音色和延迟。当模型真正进入产品,开发者面对的核心挑战是:如何让一个角色在多轮对话中保持稳定、可信、有温度。
StepAudio 2.5 Realtime 是我们在这个方向上的阶段性答案。
模型亮点
-
标杆 IP「小跃」首发:重新定义语音 AI 的情绪价值
主打同频唠嗑的松弛感与拉满的情绪价值。它不再是冰冷的AI,而是有脾气、有态度、懂接梗的鲜活搭子,为你带来最自然、好玩的陪伴体验。
技术层面,StepAudio 2.5 Realtime 针对 Roleplay 场景进行了深度的 RLHF(基于人类反馈的强化学习)对齐优化。在极端压力测试下,依然能够“死死咬住”设定的人设,展现出了极高稳定的角色演绎能力。
-
千万人设完全自定义:真正的"全维灵魂捏脸"
模型基于 10,000+ 高质量原生人设,通过算法裂变出百万级人设特征矩阵,融合百万级真实场景对话语料训练,即使面对长尾话题也能稳定延展。 彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界,随心打造千万种独一无二的专属搭子。
-
贴合语境神级表现力:全局与局部的精细声控
模型能够精准洞察对话氛围,极细颗粒度地拿捏语速、重音与潜台词;发声时自然融入轻笑、叹息等真实细节,让每一次开口都与当下的交流场景完美契合。
StepAudio 2.5 Realtime 全面继承了业内顶尖的 StepAudio 2.5 TTS 能力,理解与生成的深度融合,结合强化学习训练,实现了 “Global 全局场景定调”与“句内细节雕琢” 的双重能力。与此同时,模型具备行业顶级副语言感知力——不止听懂说了什么,更能实时读取迟疑、轻笑、语速变化等声音信号,并据此动态调整回应策略。
评测数据
模型主打主观体验,自建主客观评测集,覆盖通用对话、车载场景及音频理解多个维度。
| 评测集 | 说明 |
|---|---|
| step_Dialogue_human_eval | 通用场景对话主观评测(手机 APP 测试) |
| step_Dialogue_general | 通用场景对话客观评测(API 测试) |
| step_Dialogue_car | 车载场景对话客观评测 |
| Step-Dialogue-Understanding | 副语言特征理解能力(87条样本,仅凭音频信号推断说话人声学特征) |
| Step-SPQA | 音频提问-音频回答基准,含11种音频理解任务 |
Human Eval 为主观评估(手机 APP 真实对话),其余为客观评估(API 测试)。所有模型于 2026 年 4 月测试。分数越高越好。
与主流竞品的横向对比:
其中 step_chat_au 维度(副语言理解)StepAudio 2.5 Realtime 得分 82.18,远超 DouBao Realtime 的 16.09。
step_chat_spqa(音频提问-音频回答,含 11 种音频理解任务)得分 79.8,同样领先三家竞品。
适用场景
StepAudio 2.5 Realtime 面向语音 AI 应用开发者及 B 端客户,适配以下典型场景:
- 陪伴 / 情感类应用:高度可定制的人设引擎,支持构建虚拟搭子、情感陪伴、角色互动等产品形态
- 车载 / 客服 / 教育 / 医疗:全双工交互 + 复杂工具调用,支持在实时对话中完成任务执行
- IP 定制 / 内容平台:千万级人设自定义能力,支持从性格到口癖的全维度角色构建
价格与接入
定价: 输入 10 元 / 1M tokens,输出 70 元 / 1M tokens。Step Plan 用户可直接使用,额度复用现有体系。
接入: 支持国内及海外。上线内容包括:开放平台 API、Step Plan、阶跃 AI web 语音体验中心、阶跃 AI 打电话功能
API 调用中替换模型名为
stepaudio-2.5-realtime即可迁移,接入参考下方API文档
体验入口:
阶跃星辰开放平台(API文档):
Step Plan:platform.stepfun.com/docs/zh/ste…
在线体验:www.stepfun.com/studio/audi…
Demo Page:stepaudiollm.github.io/step-audio-…
Model Card:stepaudiollm.github.io/step-audio-…