大家好,我是ocbot的作者。
最近我把手头折腾了一段时间的项目开源了:一个直接基于 Chromium 底层 源码 修改的 AI 原生浏览器。(github.com/instry/ocbo…)
如果你对 AI 开发感兴趣,或者想了解现在的 AI Agent 到底能怎么落地,不妨来看看这个项目。
💡 这是一个什么样的项目?
我给这个项目设定的愿景是:Web4,也就是 Agentic Web 时代的浏览器。
听起来有点大词,我个人的理解是:
- 即将到来的 Web4,主角可能不再是纯粹的人类,而是 AI Agent。Agent 将代替我们在开放的互联网上自主浏览、行动甚至交易。
ocbot 里的 Agent 是直接接管操作的“原住民”:
-
自主操作 DOM:它能在网页上导航、点击、填表单、提取数据甚至截图,整个 Web 就是它的行动空间。
-
视觉自愈:做过前端自动化的人都知道,网页 UI 稍微一改,跑 XPath 的脚本就容易崩。但在 ocbot 里,Agent 能通过视觉理解(Vision),在网页结构变化时自动修复执行路径。
-
无损体验:因为底座是纯正的 Chromium,所以你的书签、历史记录完全兼容,它可以作为日常主力浏览器使用,支持接入云端大模型,也支持本地部署 LLM。
🛠 为什么做这个?以及想和大家分享什么?
其实现在做 AI 应用,常见的就是“调大API 拼积木”。我做这个项目的初衷,就是想啃一啃硬骨头,看看能不能在更底层的地方做点创新,真正摸一摸 Agentic Web 的门槛。
如果你拉下代码来看,会发现这里面涉及很多全栈的技术点:
-
浏览器底层定制:如何写 C++ 补丁(Patches)去拦截、修改浏览器底层行为。这需要你对庞大的 Chromium 源码有宏观的把控。
-
Agent 与 DOM /视觉的交互:在
web/目录里,有一整套 AI 扩展与 Agent 运行时的交互逻辑。AI 只是帮你生成了具体的代码片段,但“如何让大模型理解复杂的 DOM 树”、“如何结合视觉信息做出决策”,这些核心架构设计,必须由开发者自己来主导。 -
跨语言工程结构:从外层的 Python 自动化构建脚本,到前端交互,再到深层的 C++ 源码魔改。你需要用清晰的工程思维,把这些被 AI 生成的零散代码,有机地组织在一起。
🚀 总结与开源地址
在这个 AI 辅助编码越来越普及的时代,纯粹的 CRUD 代码越来越不值钱,真正有价值的,是开发者面对复杂工程时的架构设计能力和底层逻辑思考。Agentic Web 时代需要的是能设计出让 Agent 自主行动的基础设施,而不仅仅是套壳对话框。
如果你对 AI Agent 落地方向感兴趣,或者想了解如何组织和架构一个跨语言的大型底层项目,欢迎来围观一下这个仓库,看看源码。
GitHub 地址: github.com/instry/ocbo…
如果你觉得这种“啃硬骨头”的思路对你有点启发,恳请在 GitHub 上点个 Star ⭐️ 支持一下。开源不易,特别是编译 Chromium 这种折磨人的事情。
如果你在看源码时有任何疑问,或者对这种全栈开发模式有想法,欢迎在评论区交流,欢迎感兴趣的同学一起提交 PR!
加入社区,一起探索 Web4
我们在微信建了一个开发者交流群,群里有不少对 AI Agent、底层开发和 Web3 感兴趣的硬核开发者。如果你在使用 Ocbot 时遇到编译问题,或者对项目的发展有好的想法,欢迎扫码进群和我们直接交流!
👇 [在此处插入您的微信讨论群二维码图片] 👇