科大讯飞翻译技术获国际认可,让人人都能享受全球畅聊

33 阅读2分钟

科大讯飞成立机器翻译研发组已有10年有余,从语音翻译入手,致力于让人人都能拥有方便快捷的翻译能力,无须外语基础也能和世界各地的人们畅快聊天。在2022年国际口语机器翻译评测比赛(IWSLT)中,科大讯飞与中科大语音及语言信息处理国家工程实验室(USTC-NEL)联合参加了英德、英中、英日方向离线语音翻译任务,并以优异的成绩获得英德、英中两个方向的第一名,以及英日方向主系统的第二名(其最优的对比系统比第一名超过2.2bleu)。

那么,科大讯飞是如何实现这样的翻译质量呢?以下是其中关键技术的解读:

★ 关键技术1:讯飞GateCNN模型与Glow-TTS合成技术结合打造更强单系统

语音识别是级联语音翻译任务的关键组成部分,而端到端语音识别是当前主流的语音识别框架,如VGG-Transformer、VGG-Conformer等。科大讯飞利用自研的GateCNN模型结合Glow-TTS语音合成技术,增强语音识别模型性能,提高系统效率。

机器翻译技术1 语音识别系统图.png  


★ 关键技术2:讯飞ASR自适应训练技术大幅度提升级联系统容错性*

级联语音翻译系统面临的关键问题是识别误差传递,常用的解决方案有加噪训练、对抗训练等。科大讯飞创新性提出ASR自适应训练方法,有效利用ASR系统真实识别错误噪声,大幅度提升级联下文本翻译模型识别容错性。

机器翻译技术2 级联翻译模型ASR自适应训练框架.png  

★ 关键技术3:多样化数据增强及预训练方法使端到端语音翻译系统逼近级联

有监督语音翻译训练数据稀缺是影响端到端语音翻译模型效果的关键原因。本次比赛,科大讯飞采用了两种数据增强方法,包括知识蒸馏数据(KD)和讯飞Glow-TTS模型生成大规模多样性的音频FB特征,同时使用强基线模型进行预训练。以上多样化数据增强的方式使得端到端语音翻译系统效果逼近级联系统。

机器翻译技术3 端到端语音翻译训练框架.png  

这样的翻译技术让普通人也能轻松拥有,科大讯飞开放平台上线智能翻译服务,包括文档、文本、图片、网页、音视频等多种类型的翻译服务,目标是快速准确、稳定可靠的人工智能翻译。[科大讯飞翻译]技术在国际上得到了广泛认可,为全球畅聊提供了可靠保障。