Ai2推出MolmoWeb:开源网络代理新突破

4 阅读4分钟

Ai2发布开源视觉网络代理MolmoWeb,参数达8B,可本地运行。它能模拟人类执行网页任务,在基准测试中表现出色,旨在为研究提供开放替代。

译自:Ai2 launches MolmoWeb, an open-source web agent

作者:Frederic Lardinois

可以浏览网页并代表用户完成任务的AI代理在过去几个月里取得了显著进步,但支持它们运行的模型在很大程度上仍然是专有的。

周二,艾伦人工智能研究所 (Ai2) 推出了MolmoWeb,这是一款新的开源视觉网络代理,是Ai2 Molmo 2模型家族的一部分。

新模型有两种尺寸:40亿参数和80亿参数,使其足够小巧,可以在本地运行。与Ai2几乎所有模型一样,该团队也公开了其权重、训练数据、代码(即将推出)和评估工具。

与类似的代理一样,这里的想法是构建一个可以在网页浏览器中执行任务的系统,使用与人类相同的界面。

该代理应能够导航网站、填写表格、在购物网站上搜索产品以及检索信息。

虽然有许多像WebMCP这样的积极努力正在进行中,旨在使代理更容易与单个网站交互,但像MolmoWeb这样的代理系统会接收一个任务,然后通过查看网页截图、预测下一步操作以及通过点击按钮、输入文本和滚动来操作浏览器来尝试执行该任务。这意味着该代理应能够导航网站、填写表格、在购物网站上搜索产品以及检索信息。

图片来源:Ai2。

MolmoWeb与其他一些网络代理的区别不仅在于其小巧的尺寸,还在于Ai2并未通过从专有视觉代理中提炼模型来训练它。相反,团队写道,“数据来自文本专用可访问性树代理生成的合成轨迹和人类演示。”

基准测试

这种方法在一些标准浏览器使用基准测试中取得了令人印象深刻的性能。MolmoWeb,例如,超越了OpenAI( admittedly older)的GPT-4o,后者依赖于带注释的截图和结构化页面数据。在开源权重模型中,MolmoWeb——在4B和8B两种变体中——也超越了Fara-7B和GLM-4.1V-9B等竞争对手。

图片来源:Ai2。

然而,在大多数情况下,Anthropic、Google、OpenAI等公司的专有模型仍然轻易超越这些开源模型,但值得记住的是,Ai2的部分使命不一定是为了与这些模型竞争,而是为了给希望理解这些系统如何工作的研究人员提供一种替代方案。

Ai2的使命不一定是为了与Anthropic或OpenAI竞争,而是为了给研究人员提供一种替代方案。

正如团队所指出的,“开源社区不仅缺乏模型,还缺乏构建具有竞争力替代方案所需的训练数据、基础设施和评估工具。这种差距限制了可复现性,减缓了研究进展,并使得难以理解这些系统实际如何工作。在许多方面,今天的网络代理就像Olmo之前的LLM一样——社区需要一个开放的基础来构建。”

MolmoWeb的训练数据

MolmoWeb的训练集包括30,000条人类任务轨迹,Ai2将其描述为“迄今为止公开发布的、最大规模的人类网络任务执行数据集”。这包括跨越1,100多个网站的近600,000个独立子任务。

这是大量数据,但不足以训练一个模型,因此团队还使用通过可访问性树操作网站的代理生成了合成轨迹,这对于这些代理来说要容易得多,因为它们不必解释截图。

训练集还包括带有网站不同元素信息的带注释截图,以及来自推理任务的220多万个问答对,其中模型回答了约400个网站截图的问题。

可用性

MolmoWeb现在已在Hugging Face和GitHub上可用,所有训练数据和评估工具也一并提供。