语音转文本python

8 阅读1分钟

离线本地识别(Whisper,无需联网)

基于OpenAI Whisper,完全离线,不用API密钥,支持长音频、多语种,对硬件有一定要求。

1. 环境安装

1.1 基础依赖

pip install openai-whisper
# 额外依赖(音频解码必备)
pip install ffmpeg-python
  • Windows/Mac/Linux 都需要安装 ffmpeg 并配置环境变量: 官网:ffmpeg.org/

2. 完整离线代码

import whisper

# 加载模型:tiny/base/small/medium/large 越小越快、精度越低
model = whisper.load_model("base")

# 语音转文本
result = model.transcribe("test.mp3")  # 支持 mp3/wav/flac 等几乎所有音频

print("识别结果:")
print(result["text"])

模型选择参考

模型速度精度适用场景
tiny最快一般测试、简单场景
base较快良好日常使用(推荐)
small中等较好要求准确率
large最慢最高专业场景、多口音

优点

  • 全程离线,无调用次数限制
  • 支持长音频、中英文混说、嘈杂环境
  • 支持 mp3、wav、flac、m4a 等绝大多数格式

实时麦克风语音转文字(在线+离线)

1. 百度API + 麦克风实时转写

需额外安装录音库:

pip install pyaudio

结合上面百度SDK,可实现边说话边转文字。

2. Whisper 实时麦克风转写

可结合 pyaudio 实时收音,分段识别。