太厉害了!98 秒内可以在本地转录 2.5 小时的音频!

726 阅读2分钟

本文小编给大家推荐一款名为 insanely-fast-whisper 的音频转录工具,近期在 Github 上超级火🔥🔥🔥。

insanely-fast-whisper 是一款功能强大的音频转录工具,支持自动转录和说话人分割功能。具备高速转录能力,适用于大量音频处理,提高工作效率。工具核心优势在于速度,能在短时间内完成大量音频转录,节省时间和劳动力。

它底层使用 OpenAI's Whisper Large v3,适用于在 Mac 或 Nvidia GPU 上运行,并使用 Whisper + Pyannote 库加速转录和语音分段。

上线没多久,Star已达3.9K!

项目地址:github.com/Vaibhavs10/…

图片

核心特性:

1、支持说话人分割和区分,识别不同说话人,有助于分析和整理多人音频

2、自动转录,可快速将长音频文件转录为文本,无需手动逐字逐句

3、能在98秒内转录2.5小时的音频

以下是官方说明中在 Nvidia A100 - 80GB 上运行的一些基准测试:

图片

安装使用

使用Python pip 命令可直接安装

pip install insanely-fast-whisper

执行下面命令运行:

insanely-fast-whisper --file-name <FILE NAME or URL>--batch-size 2 --device-id mps --hf_token<HF TOKEN>

注意:如果您在 macOS 上运行,还需要添加--device-id mps标志。

使用过程中常见问题

1、如何正确安装 flash-attn 使其与 insanely-fast-whisper 一起使用?

确保通过安装它pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation

2、如何解决AssertionError: Torch not compiled with CUDA enabled Windows 上的错误?

这个问题的根本原因仍然未知,但是,您可以通过在 virtualenv 中手动安装 torch 来解决此问题,例如python -m pip install torch torchvision torchaudio --index-url

3、如何避免 Mac 上出现内存不足 (OOM) 异常?

mps后端没有像 CUDA 那样优化,因此更需要内存。通常,您可以--batch-size 4毫无问题地运行(应使用大约 12GB GPU VRAM)。别忘了设置--device mps.