我们基于 Chromium 爆改了一款 Web4 AI 浏览器,现已开源

2 阅读3分钟

标签: 开源 人工智能 前端 Chromium Web3

大家好,今天想和大家分享一个我们在 GitHub 上开源的硬核项目:Ocbot —— 一个真正把 AI Agent 当作互联网“一等公民”的 Web4 浏览器。

如果你曾经被 Puppeteer 或 Selenium 脆弱的 UI 自动化折磨过(页面改个 class name 脚本就全盘崩溃),或者对下一代 Agentic Workflow(智能体工作流)感兴趣,那么这个项目绝对值得你花几分钟了解一下。

痛点:为什么我们需要一个新的 AI 浏览器?

传统的浏览器自动化工具是为“测试”而生的,而不是为“智能体”而生的。

现在的 AI Agent 在执行网页任务时,往往面临几个死穴:

  1. 视觉与 DOM 解析脱节:强依赖固定选择器,网页稍微一改版,Agent 就变瞎子。
  2. 缺乏原生支付与身份验证:Agent 帮你在网上办事,到了“支付”或“证明我是我”的环节,往往只能中断并交回给人类。

为了解决这些问题,我们意识到仅仅做个浏览器插件是不够的,必须深入到底层。

硬核的底层重构:直面 Chromium

搞过底层开发的朋友都知道,单单是把 Chromium 的超大源码库 clone 下来并在本地环境跑通,就已经能劝退一波人了。特别是在 Windows 系统下折腾环境配置时,光是处理那令人崩溃的超长路径限制(Path length limits)、各种环境依赖报错甚至是网络 TLS 连接失败的问题,就要耗费大量的精力。

但为了让 AI 获得最纯粹的控制权,我们选择了这条最难走的路——直接对 Chromium 进行 Patch 修改,配合 WXT 扩展框架,让 AI 拥有比普通脚本高得多的权限和感知力。

Ocbot 中,我们实现了:

  • 自愈型工作流 (Self-healing Workflow):AI 不再死磕特定的 DOM 节点,而是像人类一样通过视觉和语义理解页面。按钮换了位置?没关系,它能自己找到并继续执行任务。
  • 本地 LLM 支持:更强的隐私保护,你的浏览数据无需全部上传云端。
  • Web4 原生能力:内置链上身份(ERC-8004)和原生微支付(USDC/x402)。这意味着你的 Agent 可以在没有你干预的情况下,自主完成跨站点的身份验证和极小额的支付结算。

为了让产品能顺利触达全球用户,在客户端的分发环节,我们也非常注重底层安全与软件信任。通过部署类似 Certum EV 这样的专业企业级代码签名证书,确保在 Windows 等各大平台上分发时,能够直接建立系统级的信任,避免被杀毒软件误拦截,让用户能安心体验 AI 浏览器的强大。

为什么选择开源?

Ocbot 目前还处于快速迭代期,构建一个真正的“Web4 基础设施”单靠少数人的力量是不够的。我们需要社区的力量来丰富它的技能库、完善底层补丁,并探索更多 AI Agent 的落地场景。

如果你对以下方向感兴趣:

👉 浏览器底层架构与 Chromium 定制

👉 本地大模型(LLM)与自动化工作流的结合

👉 Web3 链上身份与加密支付的实际应用场景

恳请大家去我们的 GitHub 仓库点个 Star ⭐️ 支持一下!你们的每一个 Star 都是我们熬夜写代码、改 Bug 的最大动力!

🔗 项目 GitHub 地址: github.com/instry/ocbo… (求 Star!求 Fork!求 PR!)

加入社区,一起探索 Web4

我们在微信建了一个开发者交流群,群里有不少对 AI Agent、底层开发和 Web3 感兴趣的硬核开发者。如果你在使用 Ocbot 时遇到编译问题,或者对项目的发展有好的想法,欢迎扫码进群和我们直接交流!

👇 [在此处插入您的微信讨论群二维码图片] 👇

104eb48708dd539ed61c29594999b033.jpg