Step-Audio-EditX：用大语言模型“雕琢”声音，开启音频编辑新视界Step-Audio-EditX是全球首个

在人工智能技术飞速发展的今天，文本生成和图像生成已进入“可编程”时代，但语音编辑仍像一门“黑魔法”——需要专业工具和复杂操作才能实现情感、风格等精细调整。然而，Step-Audio-EditX 的出现彻底打破了这一局面。作为全球首个开源的LLM级音频编辑大模型，它将语音编辑从“波形信号处理”升级为“文本标记级操作”，让声音的创作像写提示词一样直观。本文将深入解析这一突破性技术，带你探索语音编辑的未来。

一、技术突破：从“拼接模块”到“统一框架”

传统音频编辑模型往往依赖多模块拼接（如编码器+解码器+声码器），而Step-Audio-EditX采用统一LLM框架，通过三个核心组件实现端到端控制：

双码本音频分词器 模型将音频分解为两条并行的离散token序列：
- 语言码本（1024项，16.7Hz）：捕捉语义内容，如词汇和语法。
- 语义码本（4096项，25Hz）：提取情感、韵律等声学细节。通过2:3的交错融合策略，模型能同时保留语言逻辑与情感表达。
3B参数音频LLM 基于文本LLM初始化，混合文本与音频token进行训练。输入格式类似聊天对话（如“文本+音频”），输出目标音频的token序列。这种设计使其能直接理解自然语言指令（如“添加笑声”），无需复杂配置。
流匹配+BigVGANv2解码器 通过扩散变换器（DiT）生成Mel频谱图，再由声码器转换为波形。训练数据达20万小时，确保发音准确性和音色自然度。

二、核心功能：像编辑文本一样编辑声音

1. 多维度情感与风格控制

情感编辑：支持愤怒、喜悦、悲伤等数十种标签，强度可迭代增强或减弱。例如，将平淡的问候升级为“热情洋溢的推销语气”。
风格编辑：提供童声、耳语、老人等十余种风格，支持叠加（如“撒娇+严肃”）。
副语言插入：精准添加呼吸声、笑声、叹气等10类自然token，增强真实感。

**2. 零样本TTS

无需录音样本，仅凭文本即可生成语音。

3. 迭代式编辑与跨模型泛化

支持多轮微调，逐步优化效果（如“再温柔一点→延长笑声0.3秒”）。
可编辑闭源模型生成的音频（如GPT-4o-mini-TTS），突破平台限制。

三、技术原理：大边距数据驱动的范式革命

1. 大边距合成数据训练

传统方法依赖人工标注，成本高昂且覆盖有限。Step-Audio-EditX通过零样本语音克隆生成“同文本、异属性”音频对（如同一句话的平静版与愤怒版），结合LLM评分筛选高质量样本。这种“强对比”数据让模型天然具备属性解耦能力。

2. 两阶段后训练策略

监督微调（SFT）：在混合文本-音频数据上训练，支持零样本TTS和基础编辑。
强化学习（PPO）：引入人类标注和LLM-as-a-Judge生成的偏好数据，优化复杂编辑任务（如从快乐生成悲伤语音）。

3. 性能对比：超越闭源模型

在情感编辑准确率上，Step-Audio-EditX比MiniMax-2.6-hd和豆包Seed-TTS 2.0高10%-20%，多轮迭代后效果持续提升。副语言编辑得分接近商业系统水平。

四、应用场景：从创作到无障碍的全链路覆盖

场景	应用示例
有声内容升级	有声书一键切换“元气少女”或“毒舌导师”人设，生成多版本音频提升沉浸感。
视频/广告配音	短视频创作者零样本克隆角色音色，迭代添加情绪标签，实现低成本多情绪配音。
虚拟偶像	实时插入笑声、呼吸声，打造鲜活互动的VTuber语音。
智能客服	根据用户特征动态调整语速，将平淡回复转为“安抚语气”。
教育辅助	生成老人/小孩风格的适龄读音，或切换方言教学降低教师录音成本。

五、快速上手指南

1. 环境部署

# 克隆仓库并安装依赖 
git clone https://github.com/stepfun-ai/Step-Audio-EditX 
pip install -r requirements.txt  
# 下载模型（Hugging Face） 
git lfs install 
git clone https://huggingface.co/stepfun-ai/Step-Audio-EditX

2. 命令行推理示例

# 零样本语音生成 
python3 tts_infer.py \
   --model-path ./models \
   --prompt-text "今天的天气真不错！" \
   --prompt-audio ./ref.wav \
   --generated-text "我们一起去公园吧。" \
   --edit-type "clone"  

# 情感编辑（迭代2次） 
python3 tts_infer.py \   
   --model-path ./models \
   --prompt-audio ./voice.wav \   
   --edit-type "emotion" \   
   --edit-info "sad" \   
   --n-edit-iter 2

3. 在线体验

访问 Gradio Demo：stepaudiollm.github.io/step-audio-…或 Docker 部署本地服务。

六、未来展望：语音可编程时代的曙光

Step-Audio-EditX的发布标志着音频生成技术从“被动合成”向“主动编辑”的跨越。其开源特性（Apache 2.0协议）将极大降低研究门槛，推动更多创新应用诞生。随着API集成和移动端优化，未来我们或许能像编辑文字一样，通过自然语言指令实时调整语音的每一个细节——从商业广告到无障碍服务，语音编辑将真正成为全民创作工具。

正如Photoshop重塑了图像世界，Step-Audio-EditX正在开启“语音可编程”的新纪元。开发者、创作者和研究者们，准备好用代码雕琢声音了吗？

项目地址

GitHub: github.com/stepfun-ai/…
技术报告: arxiv.org/pdf/2511.03…
在线Demo: stepaudiollm.github.io/step-audio-…