本文介绍两种方法实现在线语音转文字效果,使用非常简单的三行代码即可实现语音文件转文字,不用自己配置环境,非程序员也可以操作成功。
- 使用Google Colab实现在线转换(需要科学上网)
- 使用ModelScope实现在线转换(国内可用)
一、使用Google Colab实现在线转换
前提条件:需要科学上网,登录谷歌账号
1、登录Google搜索首页,选择Google Drive(云端硬盘)
2、点击新建→更多→关联更多应用
3、搜索Colaboratory,点击第一个应用
4、如果初始未安装,就展示的是安装Install,点击安装等待安装完成。因为我已经安装过,所以展示的是卸载。
5、安装完成后,就可以在更多应用中看到Google Colaboratory应用,点击进入。
6、给当前文件命名为:录音转文本.ipynb,设置更改运行时类型,可选择Python3+T4 GPU,
7、设置完成后,需要执行四步完成转换工作。
① 点击右上角连接,等待连接成功。
💡 这里需要特别注意:GPU免费版可以使用12个小时,不使用的时候记得断开连接,不然空闲着也会扣减时长。
如果后续提示GPU收费,就可以换成CPU运行,但是速度会慢很多。还想继续使用这类的功能,可以看我写的思维拓展部分,使用别的GPU提供平台,如ModelScope等。
② 连接成功后,在左边代码块中输入以下两句安装使用的包,这两个包的安装只需要执行一次就可以。
第一行是安装OpenAI提供的Whisper模型包;
第二行是安装FFmpeg,这是处理音频文件和视频文件的一个包。
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
执行成功,如下图:
③ 以上两句执行完成之后,在左侧文件板块上传想要转文字的录音文件。
④ 点击【+代码】会新增一个空的代码块,输入以下语句并执行,输出中文简体的转换结果:
!whisper "上传的录音文件名(根据实际名字修改).m4a" --model medium --language Chinese --initial_prompt "以下是简体中文的输出。"
参考:
Whisper的Git地址:github.com/openai/whis…
FFmpeg:ffmpeg.org/
说明:
--model
指定使用的模型,有五种选择,模型越大所需要的硬件性能越高,一般使用medium即可。
--language
指定输出的语言,输出中文指定Chinese
--initial_prompt
因为中文简体和繁体都属于Chinese范围,但是我们习惯使用简体字,所以使用这个条件可以指定具体输出哪种字体。如果跟着是中文简体,就会输出中文简体;如果跟着的是繁体字,输出就是繁体字。
⑤ 输出的结果会在左边文件浏览部分显示,会生成很多种类型的文件(json、srt、tsv、txt、vtt),我们下载txt文件即可。如果未展示,尝试刷新文件列表。
二、思路扩展:使用ModelScope(国内可用)
只要能够提供在线GPU配置的,都可以使用这三行代码实现语音转文件输入。
以下使用ModelScope的在线资源演示,进入网站:www.modelscope.cn/my/overview
1、登录注册,如果提示和阿里云绑定,就输入相应的账号密码。
2、注册完成后,进入首页→我的Notebook,这里面有两个Tab页,PAI-DSW有36小时免费时长使用GPU,阿里云弹性加速计算EAIS有64小时免费时长。这里选择阿里云的GPU环境启动。
3、启动后,进入Notebook
4、新建Python3的笔记本
5、参考以上的步骤7,左侧上传录音文件,右侧执行关键的三行代码。不需要使用的时候,记得右上角关闭实例,否则会一直扣除时长。
关键代码:
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
!whisper "上传的录音文件名(根据实际名字修改).m4a" --model medium --language Chinese --initial_prompt "以下是简体中文的输出。"
可能出现的问题:
-
如果解析的结果出现【请不吝点赞 订阅 转发 打赏支持明镜与点点栏目】。
原因:音频文件前部分如果是音乐或者其他声音,模型无法识别,
解决方案:调整音频文件,尽量从正式说话开始录音。