太厉害了！98 秒内可以在本地转录 2.5 小时的音频！本文小编给大家推荐一款名为 insanely-fast-whis

本文小编给大家推荐一款名为 insanely-fast-whisper 的音频转录工具，近期在 Github 上超级火🔥🔥🔥。

insanely-fast-whisper 是一款功能强大的音频转录工具，支持自动转录和说话人分割功能。具备高速转录能力，适用于大量音频处理，提高工作效率。工具核心优势在于速度，能在短时间内完成大量音频转录，节省时间和劳动力。

它底层使用 OpenAI's Whisper Large v3，适用于在 Mac 或 Nvidia GPU 上运行，并使用 Whisper + Pyannote 库加速转录和语音分段。

上线没多久，Star已达3.9K！

1、支持说话人分割和区分，识别不同说话人，有助于分析和整理多人音频

2、自动转录，可快速将长音频文件转录为文本，无需手动逐字逐句

3、能在98秒内转录2.5小时的音频

以下是官方说明中在 Nvidia A100 - 80GB 上运行的一些基准测试：

使用Python pip 命令可直接安装

pip install insanely-fast-whisper

执行下面命令运行：

insanely-fast-whisper --file-name <FILE NAME or URL>--batch-size 2 --device-id mps --hf_token<HF TOKEN>

注意：如果您在 macOS 上运行，还需要添加--device-id mps标志。

1、如何正确安装 flash-attn 使其与 insanely-fast-whisper 一起使用？

确保通过安装它pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation。

2、如何解决AssertionError: Torch not compiled with CUDA enabled Windows 上的错误？

这个问题的根本原因仍然未知，但是，您可以通过在 virtualenv 中手动安装 torch 来解决此问题，例如python -m pip install torch torchvision torchaudio --index-url

3、如何避免 Mac 上出现内存不足 (OOM) 异常？

mps后端没有像 CUDA 那样优化，因此更需要内存。通常，您可以--batch-size 4毫无问题地运行（应使用大约 12GB GPU VRAM）。别忘了设置--device mps.