两个本地的视频和音频转文本AI工具软件：whisperdesktop和Buzz

2023-05-28 728 阅读3分钟

两个本地的视频和音频转文本AI工具软件：whisperdesktop和Buzz

之前的文章：《5个AI语音转文本工具评测，哪些免费又好用？》，对飞书妙记工具、网易见外、讯飞听见、钉钉闪记这5个AI语音转文本工具进行了评测，飞书妙记、钉钉闪记都表现不错。但是，这几个工具都是在线的，离网就用不了了。另外，虽然飞书妙记、钉钉闪记现在不收费，但是有一定的限制和额度。有没有一些本地安装的AI工具软件，既免费，又可以不依赖网络呢？

打造出ChatGPT的的人工智能公司 OpenAI ，开源了 Whisper

自动语音识别模型，能实现多种语言的转录，以及将这些语言翻译成英语。

基于Whisper模型，whisperdesktop和Buzz这两款软件都实现了视频和音频转文本的功能。

●WhisperDesktop

要使用WhisperDesktop，首先要下载模型文件ggml-medium.bin，下载地址：

huggingface.co/datasets/gg…，点击download

图片转存失败，建议将图片保存下来直接上传 {width="5.759722222222222in"

height="3.7416666666666667in"}

然后打开软件，选择电脑中的模型保存地址

图片转存失败，建议将图片保存下来直接上传 {width="5.764583333333333in"

height="3.4715277777777778in"}

接下来language这里选择视频或音频的语言种类，transcrib

file选择视频或音频的具体地址，output format选择导出的格式，选择text

files就可以了。如果要做视频字幕，可以选择subrip subtitles或者webvtt

subtitles。然后点击transcrble就可以了。

图片转存失败，建议将图片保存下来直接上传 {width="5.7625in" height="3.4409722222222223in"}

效果怎么样呢？选了一个 6分41秒的视频

，耗时9分41秒完成，英文翻译的效果非常不错。

图片转存失败，建议将图片保存下来直接上传 {width="5.758333333333334in"

height="3.0694444444444446in"}

需要注意的是，WhisperDesktop

运行时会比较消耗电脑资源，对磁盘空间和内存大小都有要求，电脑速度会明显变慢、卡顿。所以如果要转长视频的话，最好在不用电脑的时间段。

●Buzz

首次打开buzz，需要下载模型，耗时较长，大概需要40分钟，需耐心等待。

图片转存失败，建议将图片保存下来直接上传 {width="4.572916666666667in"

height="4.364583333333333in"}

打开软件后，点击file，import media files

图片转存失败，建议将图片保存下来直接上传 {width="4.604166666666667in"

height="4.229166666666667in"}

然后选择whisper模型，分为：tiny、base、small、medium和large

图片转存失败，建议将图片保存下来直接上传 {width="4.520833333333333in"

height="3.9166666666666665in"}

目前 Whisper 有 9

种模型（分为纯英文和多语言），我们可以根据需求在速度和准确性之间进行权衡，以下是现有模型的大小，及其内存要求和相对速度：

图片转存失败，建议将图片保存下来直接上传 {width="5.764583333333333in"

height="1.6305555555555555in"}

一般情况下，选择small就可以了。如果电脑配置比较好，对效果有更高要求，可以选择medium和large模型。

一个2分钟视频，很快就完成了。

图片转存失败，建议将图片保存下来直接上传 {width="4.802083333333333in"

height="4.239583333333333in"}

然后选中这个视频文件，点击上图的按钮，会弹出语音识别结果

图片转存失败，建议将图片保存下来直接上传 {width="5.177083333333333in"

height="6.260416666666667in"}

点击底部的export，可以导出为text文件或者srt格式的字幕文件。

图片转存失败，建议将图片保存下来直接上传 {width="5.763888888888889in"

height="2.2694444444444444in"}

识别效果很不错。

值得一提的是，buzz可以批量进行语音和视频转文本，非常方便。

这两个工具软件和相关模型可以在GitHub网站上免费下载，也可以在知识星球"AIGC部落"中一键下载。