同声传译,AI实时语音翻译技术选型

446 阅读2分钟

一. 可能应用场景

  1. 留学生上课笔记
  2. 无翻译,无字幕在线视频学习
  3. 辅助在线翻译字幕
  4. 英文会议
  5. 面对面对话

二. 设备

  1. 笔记本
  2. 手机

三. 技术方案

大厂API

  1. 同声传译级别,可以根据实时语音流返回翻译的,如讯飞,火山的同声传译大模型。国外其他收费大语言实时翻译
  2. STT和translation分离。如谷歌Speech-to-text + Translation API

优点:

全端可用

缺点:

成本原因必须收费

选择国内外API可能的不同地区网速问题,API可不可用问题

本地部署

目前还没有集实时STT和翻译一体的开源库,所以STT和翻译分离

  1. STT较好的开源库,第三方支持实时:whisper(包含whisper.cpp,faster-whisper)
  2. 翻译开源库:Ctranslator2,Meta NLLB。也可以选择在线免费的API如Google Translate

优点

没有API使用成本,部署成本。可以考虑免费开源模式

缺点

本机部署空间占用

笔记本性能问题,兼容性问题。如果需要效果好的可能需要下载较大的模型

移动端本地部署whisper模型效果不好,不能移动端

技术选型

主要考虑以下使用场景,面对面不需要实时的,连续的实时翻译。

  1. 留学生上课笔记
  2. 无翻译,无字幕在线视频学习
  3. 辅助在线翻译字幕
  4. 英文会议

如果用户有比较强烈的需求,储存和计算压力在收费压力之下。并且可以根据效果自定义模型大小。

再考虑开发部署成本,开发的APP可能无人使用,成本压力导致项目黄了

前后端技术
客户端Electron 跨端PC/Mac/Linux
STTfaster-whisper语音转写
翻译CTranslator2

faster-whisperCTranslator2都有Python API,学习压力稍微小一点

实现效果

核心功能

  1. 实时语音翻译,支持采集本机音频/麦克风
  2. 融合笔记,一键窗口二开(notion,语雀,飞书)

其他功能

  1. 登录,支持翻译多端同步
  2. 一键标记单词,将标记单词所在的句子保存。并在这个基础上做英语学习/复习功能