Step-Audio 2：开启端到端大模型新格局在人工智能快速发展的浪潮中，语音交互技术正迎来重要转折点。阶跃星辰最新开

在人工智能快速发展的浪潮中，语音交互技术正迎来重要转折点。阶跃星辰最新开源的Step-Audio 2系列模型，凭借其创新的端到端架构和卓越的性能表现，为多模态语音领域树立了新的技术标杆。

技术突破：真端到端架构重塑交互体验

Step-Audio 2系列的核心突破在于彻底摒弃了传统ASR+LLM+TTS三级处理流程，实现了从原始音频输入到语音响应的直接转换。这种真端到端设计不仅大幅降低处理时延，更重要的是保留并理解了副语言信息和非人声信号，使语音交互更加自然流畅。

模型首次在语音领域引入链式思维推理（CoT）与强化学习联合优化，使其具备深度推理能力。这意味着模型不仅能识别字面内容，还能理解语调、情绪等隐含信息，实现真正意义上的"能听会想"。

在权威测试中，Step-Audio 2系列展现出碾压性优势。在通用多模态音频理解测试集MMAU中，模型以73.2分位列开源端到端语音模型榜首；在URO Bench口语对话评测中，其基础及专业赛道均居首位。

特别值得关注的是，其中英互译任务在CoVoST 2和CVSS评测集上分别取得39.3和29.1的高分，大幅领先GPT-4o Audio。语音识别方面，中文CER低至3.19%，英语WER仅3.50%，错误率低于同类模型15%以上。

Step-Audio 2系列率先支持语音原生Tool Calling能力，用户通过纯语音指令即可直接调用联网搜索等外部工具。这一功能突破了传统语音模型的信息边界，使其从被动应答者升级为能主动获取信息的智能体。

目前，该技术已在吉利银河M9等车载系统中实现量产落地，并在智能家居、教育机器人等领域展开应用探索。其出色的多方言支持能力（粤语错误率8.04%）为方言保护和文化传承提供了新思路。

阶跃星辰选择将这一领先技术全面开源，模型已上线GitHub、Hugging Face等平台。这一举措将大幅降低先进语音AI技术的应用门槛，加速语音交互技术在更多场景的落地创新。线上体验免部署地址：www.appmall.com/application…

Step-Audio 2系列的发布，标志着语音交互正从"功能工具"向"情感伙伴"演进。随着端到端架构的成熟和开源生态的完善，我们有望在不久的将来迎来真正自然、智能的人机对话新时代。