AI Browser：从想法到产品，我们走了多远？大家好，上次发文介绍这个项目已经过去一段时间了。由于得到了Claude

大家好，上次发文介绍这个项目已经过去一段时间了。由于得到了Claude Code 辅助工具的加成，在完成本职工作之余，最近也一直在持续迭代这个开源项目。今天想和大家聊聊这段时间我们做了什么，以及接下来要做什么。

在开始之前，先说个小请求：如果你是个开发且觉得这个项目有价值，请去 GitHub 帮我们点个 Star ⭐️

AIBrowser仓库(需手动复制到浏览器打开)：github.com/DeepFundAI/…

Star 不仅是对我们的鼓励，更能让更多人发现这个工具。目前我们已经获得了一些关注，但还需要更多人的支持才能走得更远。

📊 先说说现状

从项目发布到现在，有一些数据让我挺欣慰的：

✅ 收到了很多有价值的反馈和建议
✅ 有开发者开始关注和研究这个项目
✅ 跨平台支持（Mac、Windows）运行稳定【也可能使用者有问题也没反馈哈哈】

但坦白说，作为一个刚起步的开源项目，我们还需要更多的关注和支持。这也是为什么我恳请大家去 GitHub 点个 Star —— 这真的很重要。

🎉 这段时间我们做了什么

1. 历史任务回放 + 继续会话

以前的痛点：历史记录只能看，不能继续

现在：

✅ 点击历史任务可以完整回放执行过程（带打字机效果）
✅ 支持播放/暂停/速度调节
✅ 可以继续对话，接着上次的任务继续执行
✅ 附件文件可以直接预览

技术实现：我们开发了一个 PlaybackEngine 回放引擎，将消息流拆解为原子片段（AtomicFragment），每个片段都是最小的可回放单元。这样可以精确控制回放进度和速度。任务数据通过 IndexedDB 持久化存储，支持离线查看。会话恢复时，我们会还原完整的执行上下文（包括 workflow、steps、附件等），确保可以无缝续传。

这个功能让任务的延续性大大增强。比如你昨天让 AI 帮你采集了一些数据，今天可以直接在历史记录里继续分析，不用重新开始。

2. 人机交互能力

场景：AI 执行任务时遇到需要人工决策的情况

解决方案：

✅ AI 可以在执行过程中主动向你提问
✅ 你回答后，AI 继续执行
✅ 适用于登录确认、选项选择等场景

举个例子：

任务：帮我采集某个需要登录的网站数据

AI：检测到需要登录，是否已经登录？
你：是的，已登录
AI：好的，继续采集数据...

技术实现：基于 eko 框架的 HumanInteraction 消息类型，AI 执行过程中可以发起交互请求。我们在主进程和渲染进程之间通过 Electron IPC 建立双向通信通道，当 AI 需要询问时，工作流会暂停并等待用户响应。用户回答后，通过 IPC 将答案传回 Agent，工作流继续执行。整个过程都有完整的状态管理和错误处理。

这让 AI Browser 真正具备了处理复杂任务的能力。

3. 语音输入支持

功能：

✅ 支持语音输入任务（不用打字了！）
✅ 支持vosk离线语音识别
✅ 根据语言自动切换识别模型

技术实现：默认使用 Vosk 本地离线语音识别引擎，无需联网即可使用，保护用户隐私。Vosk 会根据用户选择的语言（中文/英文）自动加载对应的识别模型。后续会支持 Microsoft Azure 和讯飞云服务作为可选方案。

这个功能特别适合：

懒得打字的时候
需要快速输入复杂任务的场景
无障碍使用需求

注意：由于我们使用的是离线语音识别，目前只嵌入了比较简单的中英文识别模型，中文识别效果不是很理想。

4. 多语言国际化

支持：

✅ 中文/英文界面切换
✅ 完整的翻译覆盖
✅ 日期时间本地化

技术实现：基于 i18next + react-i18next 构建完整的国际化方案。翻译资源文件按模块组织（main.json、history.json、agent-config.json 等），支持命名空间隔离。语言切换通过 Zustand 全局状态管理，切换时无需刷新页面。日期时间使用 date-fns 的 locale 功能实现本地化格式化。未来可以快速扩展更多语言，只需添加对应的 JSON 翻译文件。

我们希望这个工具能被更多人使用，不局限于中文用户。

5. Agent 配置系统

功能：

✅ 自定义 Agent 的 Prompt（让 AI 更符合你的需求）
✅ 管理 MCP 工具（增删改查）
✅ 配置不同的 Agent 能力

这让 AI Browser 变得更加灵活和可定制。

6. 工具箱页面

改进：

✅ 集中访问所有系统功能
✅ 更清晰的导航
✅ 一键跳转到配置、定时任务、历史等模块

🗺️ 接下来要做什么

基于用户反馈和我们自己的规划，接下来会重点做这几件事：

第 1 阶段（近期，1-2 周）

小优化快速迭代：

任务工作目录隔离
- 每次任务使用独立的工作目录
- 避免生成文件相互干扰
- 更清晰的文件管理
Windows 后台运行优化
- 改善 Windows 系统下的后台运行特性
- 减少资源占用
- 提升稳定性
生成文件支持下载
- AI 生成的文件可直接下载
- 支持批量下载
- 更方便的文件管理
播放速率调节
- 历史回放支持速度调节
- 可快进/慢放
- 更灵活的回放体验

第 2 阶段（中期，2-4 周）

用户体验提升：

性能优化
- 长对话的虚拟滚动（100+ 消息不卡顿）
- 内存优化
- 更快的启动速度
多语言完善
- 自动检测系统语言
- 动态下载对应语音的离线包
- 支持动态配置在线语音识别（Microsoft、xunfei）
主题定制
- 深色模式
- 多种配色方案
- 用户自定义颜色

第 3 阶段（长期，1-2 个月）

核心能力扩展：

工作流可视化编辑器
- 支持workflow步骤的调整
- 支持对某个workflow的保存
- 创建定时任务时可以导入之前存储的workflow
插件市场
- 官方 MCP 工具库，支持MCP协议的工具（http、stdio、sse）
- 社区插件分享
- 一键安装/更新
更多 Agent 支持
- ShellAgent（执行命令行）
- EmailAgent（邮件收发）
- NotionAgent（Notion 操作）

🤔 我们需要什么

作为一个开源项目，我们需要三种支持：

1. ⭐️ Star（最简单但很重要）

为什么重要？

让更多人发现这个项目
吸引潜在的贡献者
给我们持续开发的动力

只需 5 秒：github.com/DeepFundAI/…

2. 💬 反馈和建议

你的使用场景是什么？

遇到了什么问题？
希望增加什么功能？
有什么改进建议？

在 GitHub Issues 或评论区告诉我们！

3. 🤝 代码贡献

如果你是开发者：

欢迎提 PR 修复 Bug
欢迎贡献新功能
欢迎完善文档

我们会认真对待每一个贡献。

📌 快速链接

🌟 GitHub：github.com/DeepFundAI/…
📥 下载体验：www.deepfundai.com/altas/downl…
📖 配置指南：github.com/DeepFundAI/…
💬 问题反馈：github.com/DeepFundAI/…

最后

从最初的想法，到现在一个能真正解决问题的工具，这个过程充满挑战也充满乐趣。

每一个 Star、每一条反馈、每一个使用者，都是我们继续前进的动力。

如果你还没试过 AI Browser，不妨下载体验一下。如果你已经在用，欢迎分享你的使用心得。

最重要的是，如果你觉得这个项目有价值，请去 GitHub 点个 Star ⭐️

👉 github.com/DeepFundAI/…

让我们一起把 AI Browser 做得更好！

#人工智能 #浏览器自动化 #开源项目 #效率工具 #AI应用

关注我，持续分享 AI 工具开发的经验和心得。

有任何问题，欢迎在评论区交流！