同声传译，AI实时语音翻译技术选型

2025-03-19 545 阅读2分钟

一. 可能应用场景

留学生上课笔记
无翻译，无字幕在线视频学习
辅助在线翻译字幕
英文会议
面对面对话

二. 设备

笔记本
手机

三. 技术方案

大厂API

同声传译级别，可以根据实时语音流返回翻译的，如讯飞，火山的同声传译大模型。国外其他收费大语言实时翻译
STT和translation分离。如谷歌Speech-to-text + Translation API

优点：

全端可用

缺点：

成本原因必须收费

选择国内外API可能的不同地区网速问题，API可不可用问题

本地部署

目前还没有集实时STT和翻译一体的开源库，所以STT和翻译分离

STT较好的开源库，第三方支持实时：whisper（包含whisper.cpp，faster-whisper）
翻译开源库：Ctranslator2，Meta NLLB。也可以选择在线免费的API如Google Translate

优点

没有API使用成本，部署成本。可以考虑免费开源模式

缺点

本机部署空间占用

笔记本性能问题，兼容性问题。如果需要效果好的可能需要下载较大的模型

移动端本地部署whisper模型效果不好，不能移动端

技术选型

主要考虑以下使用场景，面对面不需要实时的，连续的实时翻译。

留学生上课笔记
无翻译，无字幕在线视频学习
辅助在线翻译字幕
英文会议

如果用户有比较强烈的需求，储存和计算压力在收费压力之下。并且可以根据效果自定义模型大小。

再考虑开发部署成本，开发的APP可能无人使用，成本压力导致项目黄了

前后端	技术
客户端	`Electron` 跨端PC/Mac/Linux
STT	`faster-whisper`语音转写
翻译	`CTranslator2`

faster-whisper和CTranslator2都有Python API，学习压力稍微小一点

实现效果

核心功能

实时语音翻译，支持采集本机音频/麦克风
融合笔记，一键窗口二开（notion，语雀，飞书）

其他功能

登录，支持翻译多端同步
一键标记单词，将标记单词所在的句子保存。并在这个基础上做英语学习/复习功能