两个本地的视频和音频转文本AI工具软件:whisperdesktop和Buzz

728 阅读3分钟

两个本地的视频和音频转文本AI工具软件:whisperdesktop和Buzz

之前的文章:《5个AI语音转文本工具评测,哪些免费又好用?》,对飞书妙记工具、网易见外、讯飞听见、钉钉闪记这5个AI语音转文本工具进行了评测,飞书妙记、钉钉闪记都表现不错。但是,这几个工具都是在线的,离网就用不了了。另外,虽然飞书妙记、钉钉闪记现在不收费,但是有一定的限制和额度。有没有一些本地安装的AI工具软件,既免费,又可以不依赖网络呢?

打造出ChatGPT的的人工智能公司 OpenAI ,开源了 Whisper

自动语音识别模型,能实现多种语言的转录,以及将这些语言翻译成英语。

基于Whisper模型,whisperdesktop和Buzz这两款软件都实现了视频和音频转文本的功能。

●WhisperDesktop

要使用WhisperDesktop,首先要下载模型文件ggml-medium.bin,下载地址:

huggingface.co/datasets/gg…,点击download

图片转存失败,建议将图片保存下来直接上传{width="5.759722222222222in"

height="3.7416666666666667in"}

然后打开软件,选择电脑中的模型保存地址

图片转存失败,建议将图片保存下来直接上传{width="5.764583333333333in"

height="3.4715277777777778in"}

接下来language这里选择视频或音频的语言种类,transcrib

file选择视频或音频的具体地址,output format选择导出的格式,选择text

files就可以了。如果要做视频字幕,可以选择subrip subtitles或者webvtt

subtitles。然后点击transcrble就可以了。

图片转存失败,建议将图片保存下来直接上传{width="5.7625in" height="3.4409722222222223in"}

效果怎么样呢?选了一个 6分41秒的视频

,耗时9分41秒完成,英文翻译的效果非常不错。

图片转存失败,建议将图片保存下来直接上传{width="5.758333333333334in"

height="3.0694444444444446in"}

需要注意的是,WhisperDesktop

运行时会比较消耗电脑资源,对磁盘空间和内存大小都有要求,电脑速度会明显变慢、卡顿。所以如果要转长视频的话,最好在不用电脑的时间段。

●Buzz

首次打开buzz,需要下载模型,耗时较长,大概需要40分钟,需耐心等待。

图片转存失败,建议将图片保存下来直接上传{width="4.572916666666667in"

height="4.364583333333333in"}

打开软件后,点击file,import media files

图片转存失败,建议将图片保存下来直接上传{width="4.604166666666667in"

height="4.229166666666667in"}

然后选择whisper模型,分为:tiny、base、small、medium和large

图片转存失败,建议将图片保存下来直接上传{width="4.520833333333333in"

height="3.9166666666666665in"}

目前 Whisper 有 9

种模型(分为纯英文和多语言),我们可以根据需求在速度和准确性之间进行权衡,以下是现有模型的大小,及其内存要求和相对速度:

图片转存失败,建议将图片保存下来直接上传{width="5.764583333333333in"

height="1.6305555555555555in"}

一般情况下,选择small就可以了。如果电脑配置比较好,对效果有更高要求,可以选择medium和large模型。

一个2分钟视频,很快就完成了。

图片转存失败,建议将图片保存下来直接上传{width="4.802083333333333in"

height="4.239583333333333in"}

然后选中这个视频文件,点击上图的按钮,会弹出语音识别结果

图片转存失败,建议将图片保存下来直接上传{width="5.177083333333333in"

height="6.260416666666667in"}

点击底部的export,可以导出为text文件或者srt格式的字幕文件。

图片转存失败,建议将图片保存下来直接上传{width="5.763888888888889in"

height="2.2694444444444444in"}

识别效果很不错。

值得一提的是,buzz可以批量进行语音和视频转文本,非常方便。

这两个工具软件和相关模型可以在GitHub网站上免费下载,也可以在知识星球"AIGC部落"中一键下载。