腾讯云国际站:腾讯云AI如何实现实时语音翻译?
实时音视频 AI 对话语音翻译方案
- 语音转文本(STT) :通过 TRTC SDK 实现边说边出文字的效果,支持 8k 和 16k 采样率的多种语音输入方式,可实时将通话内容转译为文字。
- 文本翻译 :利用腾讯翻译机引擎,能够将转写后的文本快速准确地翻译成目标语言,支持 22 种语言与中文的相互翻译。
- 文本转语音(TTS) :将翻译后的文本实时转化为自然流畅的语音播放给对应用户,支持男声、女声、儿童声等多种音色选择。
AI 实时对话普通话多方言翻译方案
- 多方言识别与翻译 :普通话多方言大模型支持四川话、上海话等 27 种方言与普通话的相互翻译、7 种方言与英语的相互翻译,并支持混说翻译,能够满足不同地区、不同语言习惯用户的需求。
- 端到端对话引擎 :基于 Transformer 的端到端对话引擎,具备上下文记忆功能,能够准确理解用户的意图和情感,在弱网甚至无网环境下也能进行实时翻译,保证对话的连贯性和准确性。
波形到波形的翻译模型方案
- 端到端模型 WaveTrans :采用多任务联合训练,将声学特征直接映射为目标语言的梅尔频谱,如同语言神经的 “短路学习”,系统在编码阶段就可以建立跨语言的语音单元对应关系,让语音实时同步完成了新的突破。
实时音视频 AI 对话解决方案
- 语音转文本与智能打断 :内置的语音转文本功能能够准确地将语音信号转换为文字,同时支持智能打断,使得对话更加自然流畅。
- 灵活接入 AI 模型 :提供通道服务,可接入指定的大语言模型(LLM)和文本转语音(TTS)模型服务,用户可以根据实际需求灵活选择和定制不同的 AI 模型,以实现更精准、更符合特定场景的实时语音翻译。