语音转文字神器！Whisper 可实现实时转录，打工人必备！

2024-08-21 651 阅读2分钟

Whisper 是 OpenAI 于 2023 年开源的语音转文本模型，其生成效果广受好评，Whisper 基于 ML 进行语音识别，并可通过 WebGPU 进行运行加速。支持 100 多种语言的线上/本地音频文件上传和即时录音，识别到的文本支持导出 TXT 和 JSON 两种文件格式，还可以直接翻译为英文。

使用云平台：OpenBayes

openbayes.com/console/sig…

登录到 OpenBayes 平台后，打开「公共教程」，找到「Whisper Web 在线语音识别工具」的教程。

进入教程后，点击右上角「克隆」。

平台在克隆过程中会自动为容器绑定所需要的数据，不需要我们再手动配置，直接点击「下一步：选择算力」。

平台会自动为容器选配合适的算力资源和镜像版本，这里使用的是英伟达 RTX 4090 的算力资源和 PyTorch 的镜像，别忘了使用文章开头的邀请链接，get 免费时长！选择好后，点击「下一步：审核」即可。

确认无误后，点击「继续执行」。

系统分配资源完成后，待状态显示为「运行中」后，将鼠标悬停在 API 地址处，点击链接进入模型。使用 API 需要进行现进行实名认证~

可以看到有三个选项可以选择：

From URL：通过线上的方式进行语音文件的下载。

From file：通过本地上传进行语音文件的下载。

Record：即使录音。

方式一：From URL

点击「From URL」，上传音频 URL，直接点击 Load 进行下载。

下载完成后，点击下方的设置按钮。

选择 Multilingual 项，设置需要的语言。

点击「Transcribe Audio」即可生成。

方式二：From file

点击「From file」，上传一个准备好的本地文件。

根据文件更改语言设置。

方式三：Record

选择「Record 」，点击Start Recording 开始录音。

录好之后进行加载，点击「Transcribe Audio」进行翻译。