下面给你一份Whisper 新手完整教程(从 0 到可用) ,覆盖:安装 → 生成字幕 → 常见问题 → 进阶用法。适合 Mac / Windows / Linux。
Whisper 新手教程(音频 → 字幕 / 文本)
Whisper 是什么?
Whisper 是 OpenAI 开源的语音识别模型,可以:
- 把音频转文字(转录)
- 自动生成字幕(SRT / VTT)
- 支持中文、英文、混合语言
- 本地运行(无需联网,隐私安全)
一、环境准备
1. 安装 Python(3.9+)
检查是否已安装:
python3 --version
若未安装:
- Mac(推荐 Homebrew):
brew install python
- Windows:从 python.org 安装
2. 安装 FFmpeg(必须)
Whisper 需要 FFmpeg 处理音频。
Mac:
brew install ffmpeg
Windows(Chocolatey):
choco install ffmpeg
Linux:
sudo apt install ffmpeg
检查是否成功:
ffmpeg -version
3. 安装 Whisper
pip install openai-whisper
验证安装:
whisper --help
二、最简单用法(一行命令出字幕)
示例:把音频转字幕 SRT
whisper audio.mp3 --output_format srt
输出文件:
audio.srt
示例:转成普通文本 TXT
whisper audio.mp3 --output_format txt
示例:指定语言(中文)
whisper audio.mp3 --language Chinese
三、选择模型(准确率 vs 速度)
| 模型 | 速度 | 准确率 | 适合 |
|---|---|---|---|
| tiny | 很快 | 低 | 快速测试 |
| base | 快 | 中 | 普通音频 |
| small | 中 | 较高 | 推荐 |
| medium | 慢 | 高 | 会议 / 长音频 |
| large | 最慢 | 最高 | 追求极致 |
推荐新手:
whisper audio.mp3 --model small --output_format srt
四、常用实战命令
1. 中文音频 → 字幕 SRT
whisper input.mp3 --model medium --language Chinese --output_format srt
2. 长音频(播客 / 会议)
whisper meeting.mp3 --model large --output_format srt --verbose False
3. 只要纯文字(不带时间轴)
whisper input.mp3 --output_format txt
4. 输出到指定文件夹
whisper input.mp3 --output_dir outputs
5. 批量处理多个音频
whisper *.mp3 --model small --output_format srt
五、支持的视频格式(视频直接转字幕)
whisper video.mp4 --output_format srt
Whisper 会自动提取音轨。
六、输出字幕格式说明
| 格式 | 用途 |
|---|---|
.srt | 最常见字幕 |
.vtt | Web / HTML5 |
.txt | 纯文本 |
.json | 程序处理 |
示例:
whisper audio.mp3 --output_format srt,vtt,txt
七、字幕优化(让结果更好)
推荐参数(中文语音)
whisper input.mp3 \
--model medium \
--language Chinese \
--temperature 0 \
--best_of 5 \
--output_format srt
如果音频有中英混合:
whisper input.mp3 --model medium --task translate
(自动识别 + 翻译)
八、典型新手问题
1. 识别慢?
解决:
- 换 small / base 模型
- 使用 GPU(如果有)
2. 字幕断句不自然?
解决:
- 用 medium / large
- 后期用 Subtitle Edit 微调
3. 中文标点不自然?
解决:
- 后处理用 AI / 文本编辑器修正
4. 长音频占内存?
解决:
- 拆分音频:
ffmpeg -i long.mp3 -f segment -segment_time 600 part_%03d.mp3
九、进阶:Python 调用 Whisper(可写脚本)
import whisper
model = whisper.load_model("small")
result = model.transcribe("audio.mp3")
print(result["text"])
十、如果你想,我可以给你一个「懒人一键方案」
例如:
1️⃣ 双击脚本 → 自动生成字幕
2️⃣ GUI 可视化工具(不用命令行)
3️⃣ Mac / Windows 专用 Whisper 一键包
4️⃣ 批量字幕流水线(适合长期使用)
告诉我你的系统(Mac / Windows)+ 使用场景,我可以给你一份“傻瓜式 Whisper 套装” 。