AI Agent:浏览器迎来新纪元

188 阅读5分钟

Browserbase 及其开源 Stagehand 框架旨在为 AI 代理创建更有效的浏览器工具,解决传统浏览器自动化工具的脆弱性问题。

译自:Why AI Agents Need a New Kind of Browser

作者:Frederic Lardinois

AI 代理需要浏览网页,但传统的浏览器自动化工具对于这项任务来说过于脆弱。这就是连续创业者 Paul Klein IV 正在通过 Browserbase 及其开源框架 Stagehand 解决的问题:创建一个 AI 代理可以有效使用的浏览器工具。

“我真的很喜欢思考,我如何才能通过驱动软件的基元来帮助推动软件的未来?” Klein 在我们的 The New Stack Agents 播客第四版中解释道。“我在 Twilio 做过这件事。我在 Mux 做过这件事。现在我们正在用 Browserbase 再次做这件事,但在一个更新的类别中,这就是代理浏览器,或者可以被 AI 控制的浏览器的概念。”

适用于智能 AI 代理的无头浏览器

为测试而构建的传统无头浏览器工具出了名的脆弱。即使一个按钮移动几个像素,测试也会中断。但是 AI 代理需要完全不同的东西。

“随着开发人员构建了更多在线存在的软件、更多网站和 Web 应用程序,他们需要一种测试这些应用程序的方法,” Klein 在被问及无头浏览器的历史时解释说,也就是没有典型用户界面的浏览器。“事实证明,在发布一个功能后,进入网站上的新功能并点击所有按钮 100 次,并且每次更改功能时都继续这样做,这是非常乏味的。因此,开发人员开始思考方法,好的,现在我们有人使用浏览器,但对于我们的软件测试工作流程,我们需要计算机。[...] 所以让我们创建一个可以被一些代码控制的浏览器。”

他解释说,在某种程度上,这些工具在设计上是脆弱的,因为当更改破坏 Web 应用程序时,开发人员需要知道它。Browserbase 的开源工具 Stagehand 采取了不同的方法。Klein 指出,Stagehand 的构建比现有框架更持久,因为它可以在站点上处理这些类型的更改,并处理 LLM 提示的模糊性。

“在旧世界中,你可以说:点击登录按钮。它是页面上的第五个按钮。颜色是红色。上面写着‘登录’,” Klein 解释说。“在新世界中,你可以告诉 AI:嘿,我想点击登录按钮。你为我解决这个问题。如果登录按钮改变颜色,也许它改变了位置,也许从‘登录’变为‘注册’,你仍然可以使用大型语言模型在页面上找到该按钮。”

Klein 认为,这种转变释放了巨大的潜力。“在旧世界中,如果你想自动化 100 个网站,你必须编写 100 个脚本。在 AI 的新世界中,你可以编写一个可以控制数百、数千或数百万个网站的脚本。”

为 AI 未来构建浏览器基础设施

“在 Browserbase,我们帮助 AI 代理与互联网交互,” Klein 说。“因此,我们提供了浏览器工具,这是一个重要的工具,可以让 AI 代表你工作。当你想到你和我每天所做的所有工作时,很多工作都发生在浏览器上,与互联网上的网站交互。因此,如果我们想要拥有 AI 将帮助我们工作的未来,我们必须为 AI 提供工具来与我们已经完成的工作进行交互,那就是 Web 浏览器。”

Klein 的愿景不仅仅是让浏览器更智能。他看到了人与软件之间的界面从根本上发生变化的未来。“我认为软件的未来实际上根本不是在考虑浏览器。你正在考虑更强大的按钮,”他说。“当我说,提交我的税款时,它不会给我一个我打印出来的 PDF。它只会去网站并为我完成它。”

但是构建这个基础设施并非易事。“浏览器本身并非设计为在服务器上运行。无头一直是一种黑客行为,” Klein 承认。为代理构建浏览器工具的技术挑战有很多,从处理表情符号和编解码器到跨分布式系统管理时区和区域设置。

当 AWS 打电话时,你会怎么做?

我们在 AWS 宣布其 Bedrock AgentCore 服务以在生产中大规模运行 AI 代理的同一天录制了播客。此服务包括一个浏览器工具,事实证明,Klein 今年 4 月与 AWS 举行了一次会议,讨论潜在的合作伙伴关系。在 X/Twitter 上,Klein 对他对此会议的看法 非常直言不讳。“我们不担心。它缺乏使 Browserbase 变得伟大的所有东西,”他写道。“但三个月前,AWS 伏击了我们,举行了一次‘合作伙伴会议’,试图窃取我们的秘密。我们看穿了这一点,”他在 X 上写道。

当然,我们向他询问了有关此会议的更多详细信息。

“我对 AWS 在这里的一些行为感到有点失望,但这很正常。这不是非法的。你知道,试图安排一次会议并询问我关于他们的产品当然不是非法的,最后,我告诉了他们我现在告诉你的同样的事情:使 Browserbase 变得伟大的事情是我们热爱我们的开发人员社区,是那些为 Stagehand 做出贡献的人,以及我们完全沉迷于构建下一个类别定义公司,这将允许所有类型的 AI 出去并自动化 Web。”

至于会议本身,Klein 说这让他想起了硅谷剧集中的一个场景,“Pied Piper 的人们被拉入会议,突然出现一个白板,他们要求你写下你的架构是如何工作的。”