Meta第一个推出了多语种多模态AI翻译模型SeamlessM4TSeamlessM4T是全能多模态语音/文本翻译模型，

您的关注是对我最大的支持👇

消除语言障碍的又进一步，SeamlessM4T（大规模多语种多模态机器翻译）是第一个多模态模型，在语音到语音和语音到文本的翻译和转录领域取得了重大突破。该模型以CC BY-NC 4.0许可证公开发布，支持近100种语言的输入（语音+文本），支持100种语言的文本输出和35种语言（加上英语）的语音输出。

克服书面和口语交流的挑战现有的翻译系统存在两个缺点：语言覆盖有限，给多语言交流带来障碍，以及依赖多个模型，常常导致翻译错误、延迟和部署复杂性。SeamlessM4T通过更广泛的语言覆盖、更高的准确性和全能模型能力来应对这些挑战。这些进步使不同语言背景的人之间的交流更加轻松，并提供了更强大的翻译能力，可以轻松使用和构建。

多模态、多任务模型SeamlessM4T不依赖于多个独立模型，可以在语音和文本之间执行多个任务：语音转文本、语音到语音、文本到语音、文本到文本翻译和语音识别。这种单一系统的方法减少了错误和延迟，提高了翻译过程的效率和质量，使无缝翻译成为可能。

多语种语音生成SeamlessM4T是第一个多对多直接语音到语音翻译系统。在输入端，模型根据任务支持多达100种语言。此外，SeamlessM4T可以隐式识别源语言，无需单独的语言识别模型。此外，作为一个统一的模型，与级联系统相比，它可以减少延迟。

高质量、准确的翻译SeamlessM4T在多种音频和文本长度上实现了语音翻译质量的最新水平，与其他领先的直接系统相比有了质的飞跃。该模型利用了我们最新的建模工具包Fairseq2，该工具包从头开始重新设计，注重速度和易用性。

SeamlessM4T还利用了我们的SeamlessAlign语料库，这是迄今为止最大的多模态翻译开放数据集，总计470k小时。这一多模态数据挖掘的进展是通过SONAR实现的，SONAR是一种新的用于语音和文本的SOTA句子嵌入空间。

SeamlessM4T在所有语言上进行了全面评估，包括自动评估指标（ASR-BLEU、BLASER 2）和人工评估。它还经过了鲁棒性、偏见和有害内容的测试，在这些方面明显优于先前的最先进模型。

关注我，跟踪最新AI消息

明日预告

《聊天机器人预热-AI基础系列文章第11篇》

通过使用第一个提示来 "预热" 聊天机器人，从而设定对话的结构和风格。这样可以让您对整个对话有精细的控制。