AI Browser:从想法到产品,我们走了多远?

59 阅读7分钟

大家好,上次发文介绍这个项目已经过去一段时间了。由于得到了Claude Code 辅助工具的加成,在完成本职工作之余,最近也一直在持续迭代这个开源项目。今天想和大家聊聊这段时间我们做了什么,以及接下来要做什么

在开始之前,先说个小请求:如果你是个开发且觉得这个项目有价值,请去 GitHub 帮我们点个 Star ⭐️

AIBrowser仓库(需手动复制到浏览器打开):github.com/DeepFundAI/…

Star 不仅是对我们的鼓励,更能让更多人发现这个工具。目前我们已经获得了一些关注,但还需要更多人的支持才能走得更远。


📊 先说说现状

从项目发布到现在,有一些数据让我挺欣慰的:

  • ✅ 收到了很多有价值的反馈和建议
  • ✅ 有开发者开始关注和研究这个项目
  • ✅ 跨平台支持(Mac、Windows)运行稳定【也可能使用者有问题也没反馈哈哈】

但坦白说,作为一个刚起步的开源项目,我们还需要更多的关注和支持。这也是为什么我恳请大家去 GitHub 点个 Star —— 这真的很重要。


🎉 这段时间我们做了什么

1. 历史任务回放 + 继续会话

以前的痛点:历史记录只能看,不能继续

现在

  • ✅ 点击历史任务可以完整回放执行过程(带打字机效果)
  • ✅ 支持播放/暂停/速度调节
  • ✅ 可以继续对话,接着上次的任务继续执行
  • ✅ 附件文件可以直接预览

技术实现: 我们开发了一个 PlaybackEngine 回放引擎,将消息流拆解为原子片段(AtomicFragment),每个片段都是最小的可回放单元。这样可以精确控制回放进度和速度。任务数据通过 IndexedDB 持久化存储,支持离线查看。会话恢复时,我们会还原完整的执行上下文(包括 workflow、steps、附件等),确保可以无缝续传。

这个功能让任务的延续性大大增强。比如你昨天让 AI 帮你采集了一些数据,今天可以直接在历史记录里继续分析,不用重新开始。

image.png

2. 人机交互能力

场景:AI 执行任务时遇到需要人工决策的情况

解决方案

  • ✅ AI 可以在执行过程中主动向你提问
  • ✅ 你回答后,AI 继续执行
  • ✅ 适用于登录确认、选项选择等场景

举个例子:

任务:帮我采集某个需要登录的网站数据

AI:检测到需要登录,是否已经登录?
你:是的,已登录
AI:好的,继续采集数据...

技术实现: 基于 eko 框架的 HumanInteraction 消息类型,AI 执行过程中可以发起交互请求。我们在主进程和渲染进程之间通过 Electron IPC 建立双向通信通道,当 AI 需要询问时,工作流会暂停并等待用户响应。用户回答后,通过 IPC 将答案传回 Agent,工作流继续执行。整个过程都有完整的状态管理和错误处理。

这让 AI Browser 真正具备了处理复杂任务的能力。

image.png

3. 语音输入支持

功能

  • ✅ 支持语音输入任务(不用打字了!)
  • ✅ 支持vosk离线语音识别
  • ✅ 根据语言自动切换识别模型

技术实现: 默认使用 Vosk 本地离线语音识别引擎,无需联网即可使用,保护用户隐私。Vosk 会根据用户选择的语言(中文/英文)自动加载对应的识别模型。后续会支持 Microsoft Azure 和讯飞云服务作为可选方案。

这个功能特别适合:

  • 懒得打字的时候
  • 需要快速输入复杂任务的场景
  • 无障碍使用需求

注意:由于我们使用的是离线语音识别,目前只嵌入了比较简单的中英文识别模型,中文识别效果不是很理想。

4. 多语言国际化

支持

  • ✅ 中文/英文界面切换
  • ✅ 完整的翻译覆盖
  • ✅ 日期时间本地化

技术实现: 基于 i18next + react-i18next 构建完整的国际化方案。翻译资源文件按模块组织(main.jsonhistory.jsonagent-config.json 等),支持命名空间隔离。语言切换通过 Zustand 全局状态管理,切换时无需刷新页面。日期时间使用 date-fns 的 locale 功能实现本地化格式化。未来可以快速扩展更多语言,只需添加对应的 JSON 翻译文件。

我们希望这个工具能被更多人使用,不局限于中文用户。

5. Agent 配置系统

功能

  • ✅ 自定义 Agent 的 Prompt(让 AI 更符合你的需求)
  • ✅ 管理 MCP 工具(增删改查)
  • ✅ 配置不同的 Agent 能力

这让 AI Browser 变得更加灵活和可定制。

agent-configuration.png

6. 工具箱页面

改进

  • ✅ 集中访问所有系统功能
  • ✅ 更清晰的导航
  • ✅ 一键跳转到配置、定时任务、历史等模块

toolbox.png


🗺️ 接下来要做什么

基于用户反馈和我们自己的规划,接下来会重点做这几件事:

第 1 阶段(近期,1-2 周)

小优化快速迭代

  1. 任务工作目录隔离

    • 每次任务使用独立的工作目录
    • 避免生成文件相互干扰
    • 更清晰的文件管理
  2. Windows 后台运行优化

    • 改善 Windows 系统下的后台运行特性
    • 减少资源占用
    • 提升稳定性
  3. 生成文件支持下载

    • AI 生成的文件可直接下载
    • 支持批量下载
    • 更方便的文件管理
  4. 播放速率调节

    • 历史回放支持速度调节
    • 可快进/慢放
    • 更灵活的回放体验

第 2 阶段(中期,2-4 周)

用户体验提升

  1. 性能优化

    • 长对话的虚拟滚动(100+ 消息不卡顿)
    • 内存优化
    • 更快的启动速度
  2. 多语言完善

    • 自动检测系统语言
    • 动态下载对应语音的离线包
    • 支持动态配置在线语音识别(Microsoft、xunfei)
  3. 主题定制

    • 深色模式
    • 多种配色方案
    • 用户自定义颜色

第 3 阶段(长期,1-2 个月)

核心能力扩展

  1. 工作流可视化编辑器

    • 支持workflow步骤的调整
    • 支持对某个workflow的保存
    • 创建定时任务时可以导入之前存储的workflow
  2. 插件市场

    • 官方 MCP 工具库,支持MCP协议的工具(http、stdio、sse)
    • 社区插件分享
    • 一键安装/更新
  3. 更多 Agent 支持

    • ShellAgent(执行命令行)
    • EmailAgent(邮件收发)
    • NotionAgent(Notion 操作)

🤔 我们需要什么

作为一个开源项目,我们需要三种支持:

1. ⭐️ Star(最简单但很重要)

为什么重要?

  • 让更多人发现这个项目
  • 吸引潜在的贡献者
  • 给我们持续开发的动力

只需 5 秒github.com/DeepFundAI/…

2. 💬 反馈和建议

你的使用场景是什么?

  • 遇到了什么问题?
  • 希望增加什么功能?
  • 有什么改进建议?

在 GitHub Issues 或评论区告诉我们!

3. 🤝 代码贡献

如果你是开发者

  • 欢迎提 PR 修复 Bug
  • 欢迎贡献新功能
  • 欢迎完善文档

我们会认真对待每一个贡献。


📌 快速链接


最后

从最初的想法,到现在一个能真正解决问题的工具,这个过程充满挑战也充满乐趣。

每一个 Star、每一条反馈、每一个使用者,都是我们继续前进的动力。

如果你还没试过 AI Browser,不妨下载体验一下。如果你已经在用,欢迎分享你的使用心得。

最重要的是,如果你觉得这个项目有价值,请去 GitHub 点个 Star ⭐️

👉 github.com/DeepFundAI/…

让我们一起把 AI Browser 做得更好!


#人工智能 #浏览器自动化 #开源项目 #效率工具 #AI应用

关注我,持续分享 AI 工具开发的经验和心得。

有任何问题,欢迎在评论区交流!