Whisper 教程

7 阅读2分钟

下面给你一份Whisper 新手完整教程(从 0 到可用) ,覆盖:安装 → 生成字幕 → 常见问题 → 进阶用法。适合 Mac / Windows / Linux


Whisper 新手教程(音频 → 字幕 / 文本)

Whisper 是什么?

Whisper 是 OpenAI 开源的语音识别模型,可以:

  • 把音频转文字(转录)
  • 自动生成字幕(SRT / VTT)
  • 支持中文、英文、混合语言
  • 本地运行(无需联网,隐私安全)

一、环境准备

1. 安装 Python(3.9+)

检查是否已安装:

python3 --version

若未安装:

  • Mac(推荐 Homebrew):
brew install python
  • Windows:从 python.org 安装

2. 安装 FFmpeg(必须)

Whisper 需要 FFmpeg 处理音频。

Mac:

brew install ffmpeg

Windows(Chocolatey):

choco install ffmpeg

Linux:

sudo apt install ffmpeg

检查是否成功:

ffmpeg -version

3. 安装 Whisper

pip install openai-whisper

验证安装:

whisper --help

二、最简单用法(一行命令出字幕)

示例:把音频转字幕 SRT

whisper audio.mp3 --output_format srt

输出文件:

audio.srt

示例:转成普通文本 TXT

whisper audio.mp3 --output_format txt

示例:指定语言(中文)

whisper audio.mp3 --language Chinese

三、选择模型(准确率 vs 速度)

模型速度准确率适合
tiny很快快速测试
base普通音频
small较高推荐
medium会议 / 长音频
large最慢最高追求极致

推荐新手:

whisper audio.mp3 --model small --output_format srt

四、常用实战命令

1. 中文音频 → 字幕 SRT

whisper input.mp3 --model medium --language Chinese --output_format srt

2. 长音频(播客 / 会议)

whisper meeting.mp3 --model large --output_format srt --verbose False

3. 只要纯文字(不带时间轴)

whisper input.mp3 --output_format txt

4. 输出到指定文件夹

whisper input.mp3 --output_dir outputs

5. 批量处理多个音频

whisper *.mp3 --model small --output_format srt

五、支持的视频格式(视频直接转字幕)

whisper video.mp4 --output_format srt

Whisper 会自动提取音轨。


六、输出字幕格式说明

格式用途
.srt最常见字幕
.vttWeb / HTML5
.txt纯文本
.json程序处理

示例:

whisper audio.mp3 --output_format srt,vtt,txt

七、字幕优化(让结果更好)

推荐参数(中文语音)

whisper input.mp3 \
  --model medium \
  --language Chinese \
  --temperature 0 \
  --best_of 5 \
  --output_format srt

如果音频有中英混合:

whisper input.mp3 --model medium --task translate

(自动识别 + 翻译)


八、典型新手问题

1. 识别慢?

解决:

  • 换 small / base 模型
  • 使用 GPU(如果有)

2. 字幕断句不自然?

解决:

  • 用 medium / large
  • 后期用 Subtitle Edit 微调

3. 中文标点不自然?

解决:

  • 后处理用 AI / 文本编辑器修正

4. 长音频占内存?

解决:

  • 拆分音频:
ffmpeg -i long.mp3 -f segment -segment_time 600 part_%03d.mp3

九、进阶:Python 调用 Whisper(可写脚本)

import whisper

model = whisper.load_model("small")
result = model.transcribe("audio.mp3")

print(result["text"])

十、如果你想,我可以给你一个「懒人一键方案」

例如:

1️⃣ 双击脚本 → 自动生成字幕

2️⃣ GUI 可视化工具(不用命令行)

3️⃣ Mac / Windows 专用 Whisper 一键包

4️⃣ 批量字幕流水线(适合长期使用)

告诉我你的系统(Mac / Windows)+ 使用场景,我可以给你一份“傻瓜式 Whisper 套装”