听一段语音容易,提取出里面说了什么,没那么简单。你或许只是想知道这段音频的重点,但机器往往只能给你一堆文字原稿,还可能错字连篇。要是内容混着多国语言,还得自己人工「翻译 + 理解 + 总结」。
Voxtral 应运而生,作为一款基于卓越的语音转录和深度理解能力的先进音频模型。它具备出色的多语言语音识别能力,能够精准将语音转写为中文、英文、法语等多种语言语音内容,并支持长文本上下文处理。更重要的是,Voxtral 不止是听写工具,它还能自动生成音频摘要,告诉你这段话的重点是什么。无论是会议录音、播客节目,还是跨语言采访,Voxtral 都能帮你快速获得清晰的文字稿和总结概括。对于希望将语音内容结构化处理的开发者或内容工作者来说,它是一个非常高效的入口工具。
上传一段 TED 演讲音频,实测它的听写、理解与摘要表现,看看 Voxtral 能不能一边听一边「懂」。
使用云平台: OpenBayes
首先点击「公共教程」,在公共教程中找到「Voxtral-Small-24B-2507 语音理解模型 Demo」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 5-10 分钟后刷新页面。
数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入模型操作界面。模型包含音频转录和音频理解两个板块。
- Audio Transcription
- Audio Understanding
在「Audio Transcription」界面,上传一段 TED 演讲音频,选择语言「en」,点击「Transcribe Audio」,可以看到很快模型转录出了这段音频的英文文本。接着我们选择语言「zh」,点击「Transcribe Audio」,模型很快给出了这段音频的中文文本。
点击「Audio Understanding」,来到音频理解界面,再次 TED 演讲音频,输入问题「这段音频讲了什么?」,模型很快给出了对于音频内容的总结。