StepAudio 2.5 Realtime 上线!真正具备“活人感”的实时语音大模型

13 阅读4分钟

衡量实时语音大模型的能力,不应该只看音色和延迟。当模型真正进入产品,开发者面对的核心挑战是:如何让一个角色在多轮对话中保持稳定、可信、有温度。

StepAudio 2.5 Realtime 是我们在这个方向上的阶段性答案。


模型亮点

  1. 标杆 IP「小跃」首发:重新定义语音 AI 的情绪价值

主打同频唠嗑的松弛感与拉满的情绪价值。它不再是冰冷的AI,而是有脾气、有态度、懂接梗的鲜活搭子,为你带来最自然、好玩的陪伴体验。

技术层面,StepAudio 2.5 Realtime 针对 Roleplay 场景进行了深度的 RLHF(基于人类反馈的强化学习)对齐优化。在极端压力测试下,依然能够“死死咬住”设定的人设,展现出了极高稳定的角色演绎能力。


  1. 千万人设完全自定义:真正的"全维灵魂捏脸"

模型基于 10,000+ 高质量原生人设,通过算法裂变出百万级人设特征矩阵,融合百万级真实场景对话语料训练,即使面对长尾话题也能稳定延展。 彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界,随心打造千万种独一无二的专属搭子。


  1. 贴合语境神级表现力:全局与局部的精细声控

模型能够精准洞察对话氛围,极细颗粒度地拿捏语速、重音与潜台词;发声时自然融入轻笑、叹息等真实细节,让每一次开口都与当下的交流场景完美契合。

StepAudio 2.5 Realtime 全面继承了业内顶尖的 StepAudio 2.5 TTS 能力,理解与生成的深度融合,结合强化学习训练,实现了 “Global 全局场景定调”与“句内细节雕琢” 的双重能力。与此同时,模型具备行业顶级副语言感知力——不止听懂说了什么,更能实时读取迟疑、轻笑、语速变化等声音信号,并据此动态调整回应策略。


评测数据

模型主打主观体验,自建主客观评测集,覆盖通用对话、车载场景及音频理解多个维度。

评测集说明
step_Dialogue_human_eval通用场景对话主观评测(手机 APP 测试)
step_Dialogue_general通用场景对话客观评测(API 测试)
step_Dialogue_car车载场景对话客观评测
Step-Dialogue-Understanding副语言特征理解能力(87条样本,仅凭音频信号推断说话人声学特征)
Step-SPQA音频提问-音频回答基准,含11种音频理解任务

Human Eval 为主观评估(手机 APP 真实对话),其余为客观评估(API 测试)。所有模型于 2026 年 4 月测试。分数越高越好。

与主流竞品的横向对比:

其中 step_chat_au 维度(副语言理解)StepAudio 2.5 Realtime 得分 82.18,远超 DouBao Realtime 的 16.09。

step_chat_spqa(音频提问-音频回答,含 11 种音频理解任务)得分 79.8,同样领先三家竞品。


适用场景

StepAudio 2.5 Realtime 面向语音 AI 应用开发者及 B 端客户,适配以下典型场景:

  • 陪伴 / 情感类应用:高度可定制的人设引擎,支持构建虚拟搭子、情感陪伴、角色互动等产品形态
  • 车载 / 客服 / 教育 / 医疗:全双工交互 + 复杂工具调用,支持在实时对话中完成任务执行
  • IP 定制 / 内容平台:千万级人设自定义能力,支持从性格到口癖的全维度角色构建

价格与接入

定价: 输入 10 元 / 1M tokens,输出 70 元 / 1M tokens。Step Plan 用户可直接使用,额度复用现有体系。

接入: 支持国内及海外。上线内容包括:开放平台 API、Step Plan、阶跃 AI web 语音体验中心、阶跃 AI 打电话功能

API 调用中替换模型名为 stepaudio-2.5-realtime 即可迁移,接入参考下方API文档


体验入口:

阶跃星辰开放平台(API文档):

Step Plan:platform.stepfun.com/docs/zh/ste…

在线体验:www.stepfun.com/studio/audi…

Demo Page:stepaudiollm.github.io/step-audio-…

Model Card:stepaudiollm.github.io/step-audio-…