微软开源VibeVoice：开源语音AI的新里程碑2026年初，微软正式开源VibeVoice，这是一个前沿语音AI模型

2026年初，微软正式开源VibeVoice，这是一个前沿语音AI模型家族，包含语音识别（ASR）和语音合成（TTS）两大能力。在GitHub Trending周榜中，VibeVoice一周内获得超过8000星，反映出开发者社区对开源语音AI的高度关注。

VibeVoice 是什么

VibeVoice是微软开源的语音AI框架，包括：

VibeVoice-ASR：统一语音识别模型

VibeVoice-Realtime-0.5B：实时语音合成模型

VibeVoice-TTS：长音频TTS模型（已下架）

连续语音标记器

VibeVoice的核心创新是使用超低帧率（7.5Hz）的连续语音标记器：

这种设计显著提升了处理长序列的计算效率。

Next-token Diffusion框架

VibeVoice已催生实际应用：

Vibing - 语音输入法

集成Hugging Face

from transformers import pipeline

transcriber = pipeline("asr", model="microsoft/VibeVoice-ASR")
result = transcriber("audio_file.wav")

语音AI民主化：

长音频处理：

多语言支持：

微软开源VibeVoice代表了科技巨头在语音AI领域的开源布局。相比之前的闭源方案，VibeVoice为开发者提供了更多选择。尽管TTS部分因滥用风险被下架，但ASR和Realtime TTS仍具有重要价值。

对于需要语音能力的Java开发者，可以关注VibeVoice与Spring AI的集成可能，这将开辟在企业应用中引入语音交互的新路径。

本文首发于掘金

参考来源：