Meta第一个推出了多语种多模态AI翻译模型SeamlessM4T

272 阅读3分钟

您的关注是对我最大的支持👇

消除语言障碍的又进一步,SeamlessM4T(大规模多语种多模态机器翻译)是第一个多模态模型,在语音到语音和语音到文本的翻译和转录领域取得了重大突破。该模型以CC BY-NC 4.0许可证公开发布,支持近100种语言的输入(语音+文本),支持100种语言的文本输出和35种语言(加上英语)的语音输出。

image.png 克服书面和口语交流的挑战现有的翻译系统存在两个缺点:语言覆盖有限,给多语言交流带来障碍,以及依赖多个模型,常常导致翻译错误、延迟和部署复杂性。SeamlessM4T通过更广泛的语言覆盖、更高的准确性和全能模型能力来应对这些挑战。这些进步使不同语言背景的人之间的交流更加轻松,并提供了更强大的翻译能力,可以轻松使用和构建。

多模态、多任务模型SeamlessM4T不依赖于多个独立模型,可以在语音和文本之间执行多个任务:语音转文本、语音到语音、文本到语音、文本到文本翻译和语音识别。这种单一系统的方法减少了错误和延迟,提高了翻译过程的效率和质量,使无缝翻译成为可能。

image.png

多语种语音生成SeamlessM4T是第一个多对多直接语音到语音翻译系统。在输入端,模型根据任务支持多达100种语言。此外,SeamlessM4T可以隐式识别源语言,无需单独的语言识别模型。此外,作为一个统一的模型,与级联系统相比,它可以减少延迟。

高质量、准确的翻译SeamlessM4T在多种音频和文本长度上实现了语音翻译质量的最新水平,与其他领先的直接系统相比有了质的飞跃。该模型利用了我们最新的建模工具包Fairseq2,该工具包从头开始重新设计,注重速度和易用性。

SeamlessM4T还利用了我们的SeamlessAlign语料库,这是迄今为止最大的多模态翻译开放数据集,总计470k小时。这一多模态数据挖掘的进展是通过SONAR实现的,SONAR是一种新的用于语音和文本的SOTA句子嵌入空间。

SeamlessM4T在所有语言上进行了全面评估,包括自动评估指标(ASR-BLEU、BLASER 2)和人工评估。它还经过了鲁棒性、偏见和有害内容的测试,在这些方面明显优于先前的最先进模型。

关注我,跟踪最新AI消息


明日预告

《聊天机器人预热-AI基础系列文章第11篇》

通过使用第一个提示来 "预热" 聊天机器人,从而设定对话的结构和风格。这样可以让您对整个对话有精细的控制。