Step-Audio:130亿参数语音“卷王”开源啦,能聊能唱还超好上手!

642 阅读5分钟

2025年2月20日AI日报

  • 马斯克宣布从2月20日开始,xAI登陆后用户可以免费使用Grok 3大模型,亲测效果很好。 网址:grok.com/
  • 昆仑万维旗下Opera接入DeepSeek R1模型
  • 微软开源了一个多模态 AI 代理基础模型Magma(A Foundation Model for Multimodal AI Agents),旨在将多模态理解能力(例如视觉、语言)与行动能力(空间-时间智能)结合起来,能够处理虚拟和物理世界中的复杂任务。网址:microsoft.github.io/Magma/
  • XBox推出AI模型Muse(World and Human Action Model),Muse 的核心是通过理解游戏的 3D 世界、物理规则以及玩家的控制器操作,来生成实时的游戏画面、动作,甚至是完整的游戏体验。

Step-Audio:130亿参数语音“卷王”开源啦,能聊能唱还超好上手!

想让 AI 听懂你的川普(四川普通话),用粤语跟你唠嗑,甚至直接唱首歌或来段 RAP?别眨眼,上海阶跃星辰(简称阶跃星辰)在最近扔出一枚重磅炸弹——「Step-Audio」,一个开源的语音交互模型家族,直接把语音技术玩出了花!从 130 亿参数的“全能王” Step-Audio-Chat 到轻量化的“声优” Step-Audio-TTS-3B,代码和模型都摆在
GitHub(*github.com/stepfun-ai/…

一、Step-Audio 是个啥?

Step-Audio 是阶跃星辰打造的智能语音交互框架,主打“理解+生成”一体化。它不是单个模型,而是个家族,包括:

  • 「Step-Audio-Chat」(130亿参数):端到端全能型,语音识别(ASR)、语义理解、对话管理、语音合成全包。
  • 「Step-Audio-TTS-3B」(30亿参数):专注语音生成,能唱歌、RAP、克隆音色,但不负责对话。
  • 「Step-Audio-Tokenizer」:音频预处理小助手,负责把声音喂给大模型。

这货号称“业内首款产品级开源实时语音对话系统”,支持多语言(中文、英文、日语)、方言(粤语、四川话)、情感控制(开心、悲伤),还能调整语速和风格(RAP、哼唱)。开源当天还附带技术报告和评测基准 StepEval-Audio-360,诚意满满!

二、能干啥?有多牛?
  1. 「Step-Audio-Chat:全能语音管家」

    • 「听力」:中英文混杂、方言、重口音随便来,识别稳得一批。
    • 「对话」:能聊多轮,理解上下文,指令一丢就能切换语气,比如“用东北话夸我帅”。
    • 「生成」:语音输出自然,支持情感和语调调节。
  2. 「Step-Audio-TTS-3B:声音魔法师」

    • 生成带感情的语音,比如“悲伤地说‘明天还得上班’”。
    • 会唱歌、RAP,多语言切换丝滑。
    • 音色克隆:5-10 秒音频就能模仿你的声线,效果贼像。
    • 注意:它是 TTS 专精选手,不负责听或聊。
  3. 「技术亮点」

    • 130 亿参数端到端架构,单模型搞定所有语音任务,效率拉满。
    • 生成式数据引擎,摆脱传统 TTS 对人工数据的依赖,成本低效果好。
    • StepEval-Audio-360 评测显示,它在多轮语音交互上吊打同类开源模型。
三、跟竞品掰掰腕子
Step-Audio-Chat 的较量
  • 「VS Whisper(OpenAI)」
    Whisper 是开源 ASR 的扛把子,识别很牛,但不负责生成语音。Step-Audio-Chat 一口气包揽听、聊、说,功能直接起飞。
  • 「VS Grok Audio(xAI)」
    Grok Audio 支持对话,但 TTS 能力偏弱,中文和方言适配也不如 Step-Audio-Chat 地道。
Step-Audio-TTS-3B 的对决(主流开源模型专场)
  • 「VS CosyVoice(阿里巴巴)」
    CosyVoice 是阿里开源的 TTS 明星,支持多语言和音色克隆,语音自然度很高。但它在风格控制上稍逊一筹(比如 RAP 和哼唱不是强项),而 TTS-3B 靠生成式训练在多样性上更胜一筹,5-10 秒克隆也比 CosyVoice 的样本需求更低。
  • 「VS Coqui TTS」
    Coqui TTS 是社区热门,支持 Tacotron 2 等模型,合成质量不错,但情感表达和风格切换没 TTS-3B 灵活(唱歌和 RAP 基本没戏)。TTS-3B 还靠大模型预训练在中文支持上更强。
  • 「VS Mozilla TTS」
    Mozilla TTS 轻量易用,基于神经网络生成自然语音,但音色克隆和多样性较弱(需要更多样本,情感控制也一般)。TTS-3B 的少样本克隆和多风格生成直接碾压。

Step-Audio 的杀手锏是“全能+开源”,Chat 版一条龙服务,TTS-3B 在生成质量和灵活性上吊打主流开源竞品,尤其对中文和方言的支持让人拍手叫绝。

四、部署要求:硬件别太“丐版”
  • 「Step-Audio-Chat(130亿参数)」

    • GPU:推荐 4 张 A800/H800(80GB),单卡至少 24GB 显存。
    • RAM:64GB 起步。
    • 存储:模型文件 260GB+,硬盘得撑得住。
  • 「Step-Audio-TTS-3B」

    • GPU:RTX 3060(12GB)就能跑。
    • RAM:16GB 够用。
    • 存储:50GB 左右。
  • 「环境」:Python 3.10,PyTorch,CUDA,ffmpeg 缺一不可。

TTS-3B 轻量亲民,Chat 版适合企业或硬核玩家。

五、部署过程:三步开玩

GitHub 文档写得明明白白,按这三步走:

  1. 「下载」
    git clone https://github.com/stepfun-ai/Step-Audio.git,再从 HuggingFace 拉模型:

    • git clone https://huggingface.co/stepfun-ai/Step-Audio-Chat
    • git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B
    • git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer
  2. 「搭环境」
    创建虚拟环境:conda create -n stepaudio python=3.10,激活后 pip install -r requirements.txt 装依赖。

  3. 「跑起来」

    • Chat 版:python offline_inference.py --model-path 模型路径,支持语音/文本输入输出。
    • TTS-3B:python tts_inference.py --model-path 模型路径 --output-path 输出路径,丢个指令就能生成音频。

半小时内搞定,手残党也能上手,社区 Issues 页面还有救命稻草。

六、能干啥用?
  • 「Chat 版」:智能客服、实时语音助手、车载导航。
  • 「TTS-3B」:游戏配音、教育音频、个性化播客。
  • 「一起上」:打造会聊又会“演”的语音应用。
七、总结:语音交互的“开源卷王”

Step-Audio-Chat 用 130 亿参数打通语音全链路,TTS-3B 专攻生成还轻量便携,开源直接拉低门槛。比起主流开源竞品,它功能全、接地气,部署也不麻烦。想让 AI 用你的声音唱《七里香》,或者给项目加个语音交互?去 GitHub 下 Step-Audio,半小时后就能听到它喊你“哥”!

阶跃星辰这次把语音交互的未来端上桌,你还不来试试?