使用OpenAI-Whisper实现免费在线语音转文字(非程序员友好)

1,115 阅读4分钟

本文介绍两种方法实现在线语音转文字效果,使用非常简单的三行代码即可实现语音文件转文字,不用自己配置环境,非程序员也可以操作成功。

  • 使用Google Colab实现在线转换(需要科学上网)
  • 使用ModelScope实现在线转换(国内可用)

一、使用Google Colab实现在线转换

前提条件:需要科学上网,登录谷歌账号

1、登录Google搜索首页,选择Google Drive(云端硬盘)

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/f5b65495d064458a82f6190404746a72~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1712&h=838&s=130807&e=png&b=fefdfd

2、点击新建→更多→关联更多应用

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/438929faa3214d02a15f22080a56afd9~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1152&h=998&s=265350&e=png&b=fcfbfb

3、搜索Colaboratory,点击第一个应用

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/98078a88b2de4f24b174b68a3acd0d86~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=2084&h=1776&s=1694992&e=png&b=fefcfc

4、如果初始未安装,就展示的是安装Install,点击安装等待安装完成。因为我已经安装过,所以展示的是卸载。

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/82eb058768d84ea693ddc0c1ec4b15e4~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=2068&h=1784&s=313137&e=png&b=fefdfd

5、安装完成后,就可以在更多应用中看到Google Colaboratory应用,点击进入。

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e36ee1ea2b48448fa974a69e8c3642a6~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1620&h=1306&s=387357&e=png&b=fbfafa

6、给当前文件命名为:录音转文本.ipynb,设置更改运行时类型,可选择Python3+T4 GPU,

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/33737ba56e404c1aafdc689f799848ed~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=3680&h=1760&s=2044697&e=png&b=fcfbfb

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/7dd6aeb5eb924d1eb689d7e43addadcd~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1574&h=1296&s=252626&e=png&b=fefdfd

7、设置完成后,需要执行四步完成转换工作。

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/c169fa7d7cb242f9a471468d0ebea959~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=3682&h=1786&s=2377364&e=png&b=fcf5f1

① 点击右上角连接,等待连接成功。

💡 这里需要特别注意:GPU免费版可以使用12个小时,不使用的时候记得断开连接,不然空闲着也会扣减时长。

如果后续提示GPU收费,就可以换成CPU运行,但是速度会慢很多。还想继续使用这类的功能,可以看我写的思维拓展部分,使用别的GPU提供平台,如ModelScope等。

② 连接成功后,在左边代码块中输入以下两句安装使用的包,这两个包的安装只需要执行一次就可以。

第一行是安装OpenAI提供的Whisper模型包;

第二行是安装FFmpeg,这是处理音频文件和视频文件的一个包。

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

执行成功,如下图:

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/ab265c3e4aec42f3a39dbecb552385be~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=3678&h=1794&s=2973793&e=png&b=fdfbfb

③ 以上两句执行完成之后,在左侧文件板块上传想要转文字的录音文件。

④ 点击【+代码】会新增一个空的代码块,输入以下语句并执行,输出中文简体的转换结果:

!whisper "上传的录音文件名(根据实际名字修改).m4a" --model medium --language Chinese --initial_prompt "以下是简体中文的输出。"

参考:

Whisper的Git地址:github.com/openai/whis…

FFmpeg:ffmpeg.org/

说明:

--model 指定使用的模型,有五种选择,模型越大所需要的硬件性能越高,一般使用medium即可。

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/25b40ad0f57346be9e3a7f5bacc5779d~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=3678&h=1124&s=755717&e=png&b=fffefe

--language 指定输出的语言,输出中文指定Chinese

--initial_prompt 因为中文简体和繁体都属于Chinese范围,但是我们习惯使用简体字,所以使用这个条件可以指定具体输出哪种字体。如果跟着是中文简体,就会输出中文简体;如果跟着的是繁体字,输出就是繁体字。

⑤ 输出的结果会在左边文件浏览部分显示,会生成很多种类型的文件(json、srt、tsv、txt、vtt),我们下载txt文件即可。如果未展示,尝试刷新文件列表。

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/ae8ce219af0f4e098f3c4ca49d90a597~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=3682&h=1682&s=2326660&e=png&b=efe8e4

二、思路扩展:使用ModelScope(国内可用)

只要能够提供在线GPU配置的,都可以使用这三行代码实现语音转文件输入。

以下使用ModelScope的在线资源演示,进入网站:www.modelscope.cn/my/overview

1、登录注册,如果提示和阿里云绑定,就输入相应的账号密码。

2、注册完成后,进入首页→我的Notebook,这里面有两个Tab页,PAI-DSW有36小时免费时长使用GPU,阿里云弹性加速计算EAIS有64小时免费时长。这里选择阿里云的GPU环境启动。

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/6b94064419354d56af2a3c7b465c47f7~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=3522&h=1852&s=4716713&e=png&b=efedf6

3、启动后,进入Notebook

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/6d74882874844a07a9b7bd46895ef08a~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=3676&h=1754&s=4517688&e=png&b=f0eef6

4、新建Python3的笔记本

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/3f31e2ae013b4c34b4a9c67b56a2df61~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=3678&h=1750&s=532995&e=png&b=fdf6f1

5、参考以上的步骤7,左侧上传录音文件,右侧执行关键的三行代码。不需要使用的时候,记得右上角关闭实例,否则会一直扣除时长。

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/8787cbc9d88648f2a1eba62fb5a6ea2b~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=3552&h=1858&s=1094445&e=png&b=f8f8f8

关键代码:

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
!whisper "上传的录音文件名(根据实际名字修改).m4a" --model medium --language Chinese --initial_prompt "以下是简体中文的输出。"

可能出现的问题:

  • 如果解析的结果出现【请不吝点赞 订阅 转发 打赏支持明镜与点点栏目】。

    原因:音频文件前部分如果是音乐或者其他声音,模型无法识别,

    解决方案:调整音频文件,尽量从正式说话开始录音。