Holo3:开源计算机使用 Agent 的新突破

9 阅读2分钟

2026年4月1日,Hugging Face上的Hcompany团队发布了Holo3,这是一款专注于计算机使用(Computer Use)的AI Agent。在OSWorld-Verified基准测试中达到78.85%,创下行业新纪录。

OSWorld 基准测试

OSWorld是评估AI agent操作桌面计算机能力的基准测试。任务包括:

  • 在浏览器中完成表单填写
  • 操作桌面应用程序
  • 多步骤工作流(如跨应用数据传输)

78.85%的得分意味着Holo3能够在接近8成的测试场景中正确完成计算机操作任务。

Holo3 的技术特点

参数效率

  • 活跃参数:10B
  • 总参数:122B
  • 成本远低于GPT 5.4和Opus 4.6

开源可用

  • 模型权重在Hugging Face开源
  • Apache 2.0许可证
  • 推理API提供免费 tier

Agentic Learning Flywheel

Holo3的核心创新是"agentic learning flywheel"——一个持续反馈循环的训练pipeline:

  1. 合成导航数据:使用人类和生成的指令,生成特定场景的导航示例
  2. 域外增强:程序化扩展场景和数据,确保处理意外情况
  3. 精选强化学习:通过高级数据过滤和RL最大化性能

Synthetic Environment Factory

团队还构建了"合成环境工厂"——自动构建企业系统环境的工具。这是Holo3的训练场。

评估使用H Corporate Benchmarks:

  • 486个多步骤现实任务
  • 4个类别:电商、企业软件、协作、多应用设置

对开发者的意义

企业自动化的可能性

  • 自动化跨应用工作流(如从PDF提取数据→核对预算→发送审批邮件)
  • 更低成本的部署(相比闭源大模型)

开源生态

  • 继OpenAI的Computer Use API之后,开源方案也取得了突破
  • 开发者可以在本地部署计算机使用Agent

与 Claude Computer Use 的对比

Anthropic的Claude是计算机使用Agent的先行者。Holo3的意义在于:

  • 提供了一个开源替代方案
  • 成本更低(10B vs 更大规模)
  • 可以在Hugging Face生态中使用

小结

Holo3代表了开源社区在计算机使用Agent领域的最新突破。它证明了在特定任务上,中等规模的模型可以达到接近闭源大模型的性能。

对于需要自动化桌面工作流的开发者,Holo3提供了一个值得关注的选择——不仅能力出众,而且成本可控、可以本地部署。


本文首发于掘金

参考来源: