StepAudio 2.5 Realtime 上线！真正具备“活人感”的实时语音大模型衡量实时语音大模型的能力，不应该只

衡量实时语音大模型的能力，不应该只看音色和延迟。当模型真正进入产品，开发者面对的核心挑战是：如何让一个角色在多轮对话中保持稳定、可信、有温度。

StepAudio 2.5 Realtime 是我们在这个方向上的阶段性答案。

模型亮点

标杆 IP「小跃」首发：重新定义语音 AI 的情绪价值

主打同频唠嗑的松弛感与拉满的情绪价值。它不再是冰冷的AI，而是有脾气、有态度、懂接梗的鲜活搭子，为你带来最自然、好玩的陪伴体验。

技术层面，StepAudio 2.5 Realtime 针对 Roleplay 场景进行了深度的 RLHF（基于人类反馈的强化学习）对齐优化。在极端压力测试下，依然能够“死死咬住”设定的人设，展现出了极高稳定的角色演绎能力。

千万人设完全自定义：真正的"全维灵魂捏脸"

模型基于 10,000+ 高质量原生人设，通过算法裂变出百万级人设特征矩阵，融合百万级真实场景对话语料训练，即使面对长尾话题也能稳定延展。 彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界，随心打造千万种独一无二的专属搭子。

贴合语境神级表现力：全局与局部的精细声控

模型能够精准洞察对话氛围，极细颗粒度地拿捏语速、重音与潜台词；发声时自然融入轻笑、叹息等真实细节，让每一次开口都与当下的交流场景完美契合。

StepAudio 2.5 Realtime 全面继承了业内顶尖的 StepAudio 2.5 TTS 能力，理解与生成的深度融合，结合强化学习训练，实现了 “Global 全局场景定调”与“句内细节雕琢” 的双重能力。与此同时，模型具备行业顶级副语言感知力——不止听懂说了什么，更能实时读取迟疑、轻笑、语速变化等声音信号，并据此动态调整回应策略。

评测数据

模型主打主观体验，自建主客观评测集，覆盖通用对话、车载场景及音频理解多个维度。

评测集	说明
step_Dialogue_human_eval	通用场景对话主观评测（手机 APP 测试）
step_Dialogue_general	通用场景对话客观评测（API 测试）
step_Dialogue_car	车载场景对话客观评测
Step-Dialogue-Understanding	副语言特征理解能力（87条样本，仅凭音频信号推断说话人声学特征）
Step-SPQA	音频提问-音频回答基准，含11种音频理解任务