2026年4月1日,Hugging Face上的Hcompany团队发布了Holo3,这是一款专注于计算机使用(Computer Use)的AI Agent。在OSWorld-Verified基准测试中达到78.85%,创下行业新纪录。
OSWorld 基准测试
OSWorld是评估AI agent操作桌面计算机能力的基准测试。任务包括:
- 在浏览器中完成表单填写
- 操作桌面应用程序
- 多步骤工作流(如跨应用数据传输)
78.85%的得分意味着Holo3能够在接近8成的测试场景中正确完成计算机操作任务。
Holo3 的技术特点
参数效率:
- 活跃参数:10B
- 总参数:122B
- 成本远低于GPT 5.4和Opus 4.6
开源可用:
- 模型权重在Hugging Face开源
- Apache 2.0许可证
- 推理API提供免费 tier
Agentic Learning Flywheel
Holo3的核心创新是"agentic learning flywheel"——一个持续反馈循环的训练pipeline:
- 合成导航数据:使用人类和生成的指令,生成特定场景的导航示例
- 域外增强:程序化扩展场景和数据,确保处理意外情况
- 精选强化学习:通过高级数据过滤和RL最大化性能
Synthetic Environment Factory
团队还构建了"合成环境工厂"——自动构建企业系统环境的工具。这是Holo3的训练场。
评估使用H Corporate Benchmarks:
- 486个多步骤现实任务
- 4个类别:电商、企业软件、协作、多应用设置
对开发者的意义
企业自动化的可能性:
- 自动化跨应用工作流(如从PDF提取数据→核对预算→发送审批邮件)
- 更低成本的部署(相比闭源大模型)
开源生态:
- 继OpenAI的Computer Use API之后,开源方案也取得了突破
- 开发者可以在本地部署计算机使用Agent
与 Claude Computer Use 的对比
Anthropic的Claude是计算机使用Agent的先行者。Holo3的意义在于:
- 提供了一个开源替代方案
- 成本更低(10B vs 更大规模)
- 可以在Hugging Face生态中使用
小结
Holo3代表了开源社区在计算机使用Agent领域的最新突破。它证明了在特定任务上,中等规模的模型可以达到接近闭源大模型的性能。
对于需要自动化桌面工作流的开发者,Holo3提供了一个值得关注的选择——不仅能力出众,而且成本可控、可以本地部署。
本文首发于掘金
参考来源: