Harness Engineering(OpenAi、Anthropic的设计)

0 阅读3分钟

一、基础概念

Harness Engineering = 编排层 + 执行层 + 反馈层 + 记忆层

  1. 记忆层:

    1. 提示词工程:通过写提示词的方式让LLM模型明确你的需求和输出标准,解决了无引导乱说话(怎么问问题)
    2. 上下文工程:解决了上下文组织的问题,在合适的时候给定合适的内容,动态管理上下文(怎么给信息)
      1. 组成:提示词 + 其他资料
      2. 上下文窗口限制
      3. 具体代表:各种coding agent,cursor、claude code、Trae
      4. 实现原理:召回 + 压缩 + 组装
        1. 召回:找到最相关的信息,技术实现:RAG、Memory
        2. 压缩:分片、压缩内容大小
        3. 重排:调整消息位置和顺序,会影响大模型的理解和输出
    3. 规则文件:背景、技术栈、目录规则等等
  2. 编排层:做全局规划,清晰目标,拆解任务

  3. 执行层:从只能聊天变成真正的干活

    1. 组成:Bash沙箱 + 文件系统 + MCP
    2. 工程:外用工具、读写文件、执行命令
  4. 反馈层:收集执行层反馈的结果进行过滤处理并反馈给记忆层

AI Agnet = LLM + Harness Engineering

提示词工程:角色、背景、历史对话、参考文档、限制、输出格式等

为什么相同大模型换个AI IDE效果不一样?

因为上下文


二、如何落地?

Spec-kit插件:生成约束、明确需求、定制计划、拆解任务、开始实现



三、openAi的harness

3.1、上下文管理

  1. 大文件拆分文档目录(解决文档腐化)
  2. 把所有资料(老员工脑子里面,飞书,企业微信,各种文档)移动到代码仓库里面(资料全)

3.2、验证与反馈

  1. 前期准备:
    1. codex结合tools以及skills,比如使用谷歌浏览器工具可以模拟用户操作从而具备验证与反馈能力
    2. 可观测性搭建,比如可读取日志,可链路追踪
  2. 执行流程:
    1. agent生成代码➡️代码验证➡️报错反馈➡️全部通过

3.3、技术债清理

重复代码、代码命名、偏离架构规则

  1. 定期扫描代码库,优化错误代码
  2. 定期扫描文档,修正错误文档


四、Anthropic的harness

三大agent智能协作:

  1. planner:计划编排
  2. generator:代码生成
  3. evluator:质量评估

为什么需要多agent?

可以做到环境隔离,因为agent自己老盲目自信并且可能草草了事

协作流程:

planner把需求拆分成需求列表

generator进行代码生成然后与evluator进行沟通协作写到满意的代码,然后继续执行下一个功能,在最新的opus4.6随着大模型的增强可以一起处理所有功能任务