腾讯云国际站：腾讯云AI如何实现实时语音翻译？

阿里云腾讯云谷歌云亚马逊云服务器科普

2025-05-12 238 阅读2分钟

实时音视频 AI 对话语音翻译方案

语音转文本（STT） ：通过 TRTC SDK 实现边说边出文字的效果，支持 8k 和 16k 采样率的多种语音输入方式，可实时将通话内容转译为文字。
文本翻译 ：利用腾讯翻译机引擎，能够将转写后的文本快速准确地翻译成目标语言，支持 22 种语言与中文的相互翻译。
文本转语音（TTS） ：将翻译后的文本实时转化为自然流畅的语音播放给对应用户，支持男声、女声、儿童声等多种音色选择。

AI 实时对话普通话多方言翻译方案

多方言识别与翻译 ：普通话多方言大模型支持四川话、上海话等 27 种方言与普通话的相互翻译、7 种方言与英语的相互翻译，并支持混说翻译，能够满足不同地区、不同语言习惯用户的需求。
端到端对话引擎 ：基于 Transformer 的端到端对话引擎，具备上下文记忆功能，能够准确理解用户的意图和情感，在弱网甚至无网环境下也能进行实时翻译，保证对话的连贯性和准确性。

波形到波形的翻译模型方案

端到端模型 WaveTrans ：采用多任务联合训练，将声学特征直接映射为目标语言的梅尔频谱，如同语言神经的 “短路学习”，系统在编码阶段就可以建立跨语言的语音单元对应关系，让语音实时同步完成了新的突破。

实时音视频 AI 对话解决方案

语音转文本与智能打断 ：内置的语音转文本功能能够准确地将语音信号转换为文字，同时支持智能打断，使得对话更加自然流畅。
灵活接入 AI 模型 ：提供通道服务，可接入指定的大语言模型（LLM）和文本转语音（TTS）模型服务，用户可以根据实际需求灵活选择和定制不同的 AI 模型，以实现更精准、更符合特定场景的实时语音翻译。