一. 可能应用场景
- 留学生上课笔记
- 无翻译,无字幕在线视频学习
- 辅助在线翻译字幕
- 英文会议
- 面对面对话
二. 设备
- 笔记本
- 手机
三. 技术方案
大厂API
- 同声传译级别,可以根据实时语音流返回翻译的,如讯飞,火山的同声传译大模型。国外其他收费大语言实时翻译
- STT和translation分离。如谷歌S
peech-to-text + Translation API
优点:
全端可用
缺点:
成本原因必须收费
选择国内外API可能的不同地区网速问题,API可不可用问题
本地部署
目前还没有集实时STT和翻译一体的开源库,所以STT和翻译分离
- STT较好的开源库,第三方支持实时:whisper(包含whisper.cpp,faster-whisper)
- 翻译开源库:Ctranslator2,Meta NLLB。也可以选择在线免费的API如Google Translate
优点
没有API使用成本,部署成本。可以考虑免费开源模式
缺点
本机部署空间占用
笔记本性能问题,兼容性问题。如果需要效果好的可能需要下载较大的模型
移动端本地部署whisper模型效果不好,不能移动端
技术选型
主要考虑以下使用场景,面对面不需要实时的,连续的实时翻译。
- 留学生上课笔记
- 无翻译,无字幕在线视频学习
- 辅助在线翻译字幕
- 英文会议
如果用户有比较强烈的需求,储存和计算压力在收费压力之下。并且可以根据效果自定义模型大小。
再考虑开发部署成本,开发的APP可能无人使用,成本压力导致项目黄了
| 前后端 | 技术 |
|---|---|
| 客户端 | Electron 跨端PC/Mac/Linux |
| STT | faster-whisper语音转写 |
| 翻译 | CTranslator2 |
faster-whisper和CTranslator2都有Python API,学习压力稍微小一点
实现效果
核心功能
- 实时语音翻译,支持采集本机音频/麦克风
- 融合笔记,一键窗口二开(notion,语雀,飞书)
其他功能
- 登录,支持翻译多端同步
- 一键标记单词,将标记单词所在的句子保存。并在这个基础上做英语学习/复习功能