两个本地的视频和音频转文本AI工具软件:whisperdesktop和Buzz
之前的文章:《5个AI语音转文本工具评测,哪些免费又好用?》,对飞书妙记工具、网易见外、讯飞听见、钉钉闪记这5个AI语音转文本工具进行了评测,飞书妙记、钉钉闪记都表现不错。但是,这几个工具都是在线的,离网就用不了了。另外,虽然飞书妙记、钉钉闪记现在不收费,但是有一定的限制和额度。有没有一些本地安装的AI工具软件,既免费,又可以不依赖网络呢?
打造出ChatGPT的的人工智能公司 OpenAI ,开源了 Whisper
自动语音识别模型,能实现多种语言的转录,以及将这些语言翻译成英语。
基于Whisper模型,whisperdesktop和Buzz这两款软件都实现了视频和音频转文本的功能。
●WhisperDesktop
要使用WhisperDesktop,首先要下载模型文件ggml-medium.bin,下载地址:
huggingface.co/datasets/gg…,点击download
{width="5.759722222222222in"
height="3.7416666666666667in"}
然后打开软件,选择电脑中的模型保存地址
{width="5.764583333333333in"
height="3.4715277777777778in"}
接下来language这里选择视频或音频的语言种类,transcrib
file选择视频或音频的具体地址,output format选择导出的格式,选择text
files就可以了。如果要做视频字幕,可以选择subrip subtitles或者webvtt
subtitles。然后点击transcrble就可以了。
{width="5.7625in" height="3.4409722222222223in"}
效果怎么样呢?选了一个 6分41秒的视频
,耗时9分41秒完成,英文翻译的效果非常不错。
{width="5.758333333333334in"
height="3.0694444444444446in"}
需要注意的是,WhisperDesktop
运行时会比较消耗电脑资源,对磁盘空间和内存大小都有要求,电脑速度会明显变慢、卡顿。所以如果要转长视频的话,最好在不用电脑的时间段。
●Buzz
首次打开buzz,需要下载模型,耗时较长,大概需要40分钟,需耐心等待。
{width="4.572916666666667in"
height="4.364583333333333in"}
打开软件后,点击file,import media files
{width="4.604166666666667in"
height="4.229166666666667in"}
然后选择whisper模型,分为:tiny、base、small、medium和large
{width="4.520833333333333in"
height="3.9166666666666665in"}
目前 Whisper 有 9
种模型(分为纯英文和多语言),我们可以根据需求在速度和准确性之间进行权衡,以下是现有模型的大小,及其内存要求和相对速度:
{width="5.764583333333333in"
height="1.6305555555555555in"}
一般情况下,选择small就可以了。如果电脑配置比较好,对效果有更高要求,可以选择medium和large模型。
一个2分钟视频,很快就完成了。
{width="4.802083333333333in"
height="4.239583333333333in"}
然后选中这个视频文件,点击上图的按钮,会弹出语音识别结果
{width="5.177083333333333in"
height="6.260416666666667in"}
点击底部的export,可以导出为text文件或者srt格式的字幕文件。
{width="5.763888888888889in"
height="2.2694444444444444in"}
识别效果很不错。
值得一提的是,buzz可以批量进行语音和视频转文本,非常方便。
这两个工具软件和相关模型可以在GitHub网站上免费下载,也可以在知识星球"AIGC部落"中一键下载。