什么是 Harness Engineering,为什么最近都在说它

0 阅读2分钟

大家好,我是拭心。

最近 Harness Engineering 很火,国内外都在谈论它,我们也来简单聊聊。

起因是 OpenAI 的这篇 《Harness engineering: leveraging Codex in an agent-first world》(openai.com/zh-Hans-CN/… Harness Engineering 的概念。

简单来说,OpenAI 花了五个月做了一件事:完全靠 AI 实现了一个大规模(100万行)、可以使用的产品,人类没有编写一行代码

最终 AI 可以自动开发这些工作:

  • 产品代码与测试
  • CI 配置和发布工具
  • 内部开发者工具
  • 文档和设计历史
  • 评估框架
  • review 评论和回复
  • 管理代码仓库本身的脚本

可以看到,基本上做到了能自动完成整个研发流程。

这在之前是无法想象的,通过提示词和上下文优化,我们可以让 AI 多做一些事情,但总是需要人类去 review、测试、指出问题。每次开发需求都是输入提示词开始,人工测试修复结束。

OpenAI 这次的实验,就是秉持着「review 流程,而不是 review 代码」的态度。

遇到问题,不是人为去解决,而是思考「智能体还需要什么样的能力」,比如 AI 无法感知到运行问题,就让应用程序的 UI、日志和应用指标等内容对 Codex 直接可读,从而让智能体可以自测、收集运行情况。

最后,他们把这种 完全靠 AI 完成复杂系统,人类不写一行代码,定义为 Harness Engineering。

Harness 是马具的意思,表达像控制马一样管理大模型。

从目的上来讲,Harness Engineering(Harness 工程) 比提示词工程、上下文工程要宏大

  • 提示词工程的核心是优化问题,让 AI 理解问题细节;
  • 上下文工程的核心是优化模型的输入信息,让 AI 有更多决策信息;
  • Harness Engineering 的核心,则是完全让 AI 自动实现整个流程。

别的不说,光是这个概念,就让工程师、企业老板有了无限的遐想:如果这个系统真的实现了,那真的吃着火锅唱着歌,就把事干了、钱赚了。

听着很厉害,这要怎么做到呢?我们下篇聊。

更多精彩教程,尽在我的转型 AI 应用开发专栏:《转型 AI 工程师|提升竞争力》