零后端、纯浏览器 AI——这款“会议神器”把实时转录、翻译、总结一次打包

59 阅读3分钟

Chrome 138+ 用户只需打开一个 HTML 文件,即可在本地完成语音→文字→多语翻译→智能摘要全流程,免费、无账号、无网络请求。


一、为什么值得立刻体验

  1. 零成本落地
    整个项目只有一个 index.html,本地运行,无需GPU、API Key,也无需向第三方发送数据,敏感会议也能放心用。

  2. “三件套”All in One

    • 实时语音转录(Web Speech API)
    • 多语言同步翻译(Translator API)
    • 分钟级自动摘要(Summarizer API)
      过去需要调用 3 家云厂商的接口、配 3 套密钥的功能,现在浏览器原生集成。
  3. 体验丝滑

    • 识别结果按“临时→最终”双态显示,边说边改,不打扰思路;
    • 译文直接插在原文下方,颜色区分,一目了然;
    • 摘要每分钟刷新,关键结论自动提炼,会议结束即可复制发送。
  4. 前端工程师的“学习标本”
    代码仅用 ES6 类 + 原生 DOM,无框架依赖,注释详尽,适合研究浏览器 AI API 的最佳实践:权限申请、模型下载进度、错误重连、内存泄漏防护等场景一应俱全。


二、核心 API 速览

能力对应 APIChrome 最低版本备注
语音识别Web Speech API25+稳定版,中文支持好
实时翻译Translator API138+ ⚠️实验标志需开启,支持 7 种目标语言
文本摘要Summarizer API138+ ⚠️本地模型,key-points 模式,可离线运行

实验性 API 开启方式:地址栏输入 chrome://flags/#enable-experimental-web-platform-features → 启用 → 重启浏览器。


三、5 分钟上手

  1. 下载仓库,得到 index.html
  2. Chrome 138+ 打开文件 → 允许麦克风权限 → 点击麦克风图标即可开麦。
  3. 顶部下拉框选择目标语言,翻译结果实时出现。
  4. 右侧“会议摘要”卡片每分钟自动更新,点击即可复制全文。
  5. 会议结束点“离开”,所有数据留在本地,关闭标签页即清空。

四、开发者可以这样玩

  • 扩展语言:在 Translator.create 里把 targetLanguage 换成 'fr', 'de', 'ru' 等,即可支持更多语种。
  • 更换摘要风格:修改 Summarizer.createtype: 'tl;dr'length: 'short',可得到段落式或一句话总结。
  • 导出 Markdown:在 SummaryCard 类里加一段 downloadMarkdown(),把转录 + 摘要写成 .md 文件,方便飞书/Notion 存档。
  • 集成声纹水印:利用 Web Audio API 在录制时插入不可闻水印,实现“谁说了哪句话”的后期追溯。

五、性能与隐私亮点

  • 完全端侧计算:语音、翻译、摘要模型均通过 Chrome 子进程下载并运行在本地,数据不出网。
  • 智能降级:模型未下载完或 API 不可用,自动关闭对应功能,不影响核心转录。
  • 内存友好:采用事件委托 + 定时器自动清理,长时间会议不卡不掉。
  • 模块化架构MeetingApp 统筹状态,ToolCard 提供通用 UI,TranscriptionCardSummaryCard 分治业务,方便二次开发。

六、与其他方案对比

方案成本网络请求隐私合规多语翻译实时摘要落地难度
云厂商 ASR + 翻译 + LLM按量计费持续上传需签 DPA需后端
开源 Whisper + Transformers需 GPU可离线自建合规需额外模型需额外模型镜像 10 GB+
本文方案0 元0 次浏览器保证1 个 HTML

七、未来可期

Chrome 团队已明确 Translator / Summarizer API 将在 2025 下半年默认开放,届时普通用户无需开实验标志即可使用。作者也在 README 中预留了录音导出、多人声纹分离、插件化皮肤等扩展点,社区 PR 持续涌入,值得 Star 观望。


八、一句话总结

如果你正在找“最轻量、最隐私、最省钱”的会议转录翻译解决方案,或者想第一时间体验浏览器原生 AI 的威力,把这个单文件项目丢给 Chrome,打开麦克风,剩下的交给 AI——三分钟搞定,用完即走。

项目链接 html2meeting