最近AI圈又开始冒新词了。前段时间大家还在讲Prompt Engineering(提示词工程,就是怎么让AI回答得更准)、Context Engineering(上下文工程,就是怎么给AI喂对信息)。 这段时间,又开始有人聊Harness Engineering(驾驭工程,就是怎么让AI在复杂任务里不翻车)。 也有人继续讲Agent orchestration(智能体编排)、workflow(工作流)、subagents(子智能体)。
OpenAI公开文档现在已经把agent讲成模型、工具、知识、控制逻辑的组合。 Anthropic也在反复强调subagents、context management、orchestration这些能力。
这说明一件事:
行业正在从怎么让AI回答得更好,走向怎么让AI在复杂任务里稳定干活。
这个方向,我很认同。 但老金我这段时间越看越觉得,很多新概念的问题,不是没价值。 而是太像圈内人的黑话。
你听着很先进。一落地,还是懵。。。
到底怎么拆?怎么分工?怎么接力?怎么校验?怎么回滚? 很多文章没讲到这一步。
所以我一直更想讲一个更短、更硬。
也更容易被中国人听懂的字: 元。
什么叫元——不是最小零件,是最小可治理单元
我先把定义钉死。
元,就是复杂任务里的最小可治理单元。
注意,不是最小零件。是最小可治理单元。
为什么一定要加可治理三个字? 因为只说最小单位,太空。按钮也是单位,代码块也是单位,一个提示词片段也能算单位。 但它们不一定能进入协作,不一定能被编排、验证、替换。
一个合格的元,至少满足五个标准: 独立:能单独拿出来理解、讨论、调用 足够小:拆到刚好合适的粒度,再往下拆治理成本反噬 边界清晰:负责什么、不负责什么,要说明白 可替换:能升级、能替换、能重组,一换不塌 可复用:不只在这一件事里勉强活一下
为什么很多人用AI,做出来的东西改不动、交不了付、下次还得从头来? 因为从根上就没拆成元。 写文章时,把选题、结构、风格、审核揉成一锅。 做产品时,把提醒、推荐、引导、转化全堆在一起。
做Agent(能自己干活的AI助手)时更夸张。 既让它理解需求,又让它找资料,又让它做方案,又让它执行,还让它自己验收。 简单任务还行。任务一复杂,马上串味。
如果你今天就想落地,不用记住五个标准。 只需要问自己五个问题: 1、这一步到底负责什么? 2、这一步不负责什么? 3、它什么时候触发? 4、它怎么和别的步骤接力? 5、它做完以后怎么验?
很多复杂问题,一旦这样拆,雾就开始散了。
元不是一层,它至少有三层
很多人一听元,会以为元只是一层。其实不是。
第一层:执行元 就是直接干活的。生成文案的、解析输入的、调用接口的、产出结果的。
第二层:编排元 不直接做结果,但负责决定谁先上、谁后上、谁接谁、什么时候中断、什么时候重试。
第三层:基础设施元 管状态、日志、记忆、权限、校验、缓存、规则这些底层能力。
很多系统为什么后面越做越乱? 就是因为三层混在一起。 能干活的顺手开始调度,调度的顺手开始判断,判断的顺手开始持久化。 所有边界都开始发霉。
你今天回去就可以拿自己的一个流程,强行标三种颜色: 执行层一色,编排层一色,基础设施层一色。 凡是一个模块同时占了三种颜色,大概率就是后面要出事的地方。
积木有了,但积木不会自己变成城市
你把东西拆成元,只是有了积木。但积木不会自己变成城市。
你还需要一套更高层的组织原则,去决定: 谁归谁管,谁和谁协作,谁有权限,谁做判断,谁做复核,谁做升级。
这个东西,我叫它:组织镜像。 不是把AI当人。而是借用人类组织在长期协作里已经被验证过的结构经验。 把复杂系统设计得更稳定、更清晰、更可进化。
这也是我在我的学术论文中证明的(我不是专业学者,完全靠AI来证明想法可行性,看思路就行。) 居然一段时间没看观看量涨了这么多。。之前还以为这玩意没人看呢。。
论文地址:zenodo.org/records/189… 对我一个学渣来讲,AI就是这个时代最强的武器。。。不然论文这种东西和我这辈子八杆子碰不到一起。 老金靠Claude Code+OpenClaw从零写完中英多Agent学术论文,可我英语没过四级代码不会写
怎么验证你有没有真的进入组织镜像? 看四件事:有没有明确分工,有没有明确升级路径,有没有明确复核点,有没有明确兜底点。 四个都没有,那还只是功能堆叠,还不是组织。
拿Claude Code讲明白
很多人一听发牌、编排,会觉得像玄学。 那我们就拿Claude Code(命令行AI编程工具)这种大家更熟的场景,把这件事讲透。
你让Claude Code帮你改一个登录页。顺手修两个接口字段,再补一段文档。 你以为你是在跟一个AI对话。 但如果这件事真想稳定做成,它背后已经隐含了一整套元、组织镜像、节奏编排、发牌机制。
先说有哪些元 任务理解元:把你的帮我改登录页拆清,是改UI还是改接口还是全改 仓库感知元:摸清项目长什么样,入口在哪,相关文件在哪 检索元:找文件、找关键字、找组件、找接口定义 方案元:提出修改路径,是小改还是局部重构 执行元:真正写代码、改代码 校验元:判断改完是不是对的,编译过不过,类型对不对 说明元:把改了什么、为什么这么改、还剩什么风险讲给你听 风险治理元:一旦发现公共逻辑被牵连,出来接管
你看,这已经不是万能AI在做事了。是一组元,在接力。
再说牌——10张牌覆盖所有状态 澄清牌:任务模糊时,先问清楚再动手 范围收缩牌:仓库太大、文件太多时,先把边界缩小 方案牌:信息够了但有多条路时,先给路线再写 执行牌:目标清楚、风险可控时,才真正动代码 校验牌:改完不算完,编译、类型、依赖都要看 修复牌:校验不过就修复,不装作已经完成 回滚牌:风险超预期或污染范围扩大时,退回去 风险牌:牵扯公共组件、全局逻辑时,把风险摆上台面 建议牌:你卡住了但又没必要打断太重时,给个低成本下一步 留白牌:有时候最好的动作不是继续推,而是停
走一条完整流程 你对Claude Code说:帮我把登录页改成新的视觉稿,顺手把登录接口字段从phone改成mobile,然后补一下登录相关文档。
第一步,系统不会马上写代码。因为任务太混,先触发澄清牌。 你是只改Web登录页,还是App端也一起改?
第二步,仓库感知元和检索元上。 开始找登录页文件在哪、接口定义在哪、有没有现成登录组件、mobile字段是不是别处已经用过。
第三步,一查发现仓库里有两个Login页面。 一个是旧版,一个是新版壳子下的实验页面。 这时候发范围收缩牌,先钉死到底改哪一版。
第四步,发现登录页表单组件是公共组件。 直接改字段可能会影响注册页、找回密码页。 发风险牌。必要时风险治理元插队。
第五步,方案元上。至少两条路: 只改登录页映射层,对外还是phone,内部转成mobile。快,影响小。 把整个公共表单和接口定义一起升级成mobile。长期干净,但影响面更大。
第六步,你拍板走影响小的方案。 执行牌触发,执行元开始改页面、改映射、补文档。
第七步,改完以后校验元上。 编译、类型检查、搜索全局引用,确认没把别的页面带崩。
第八步,校验通过,说明元最后上。 把三件事讲清:改了什么、为什么这么改、还有什么没改。 如果校验没过,那就修复牌先上。 如果修复过程中影响范围比预估大得多,回滚牌准备接管。
你看,一条真实任务走下来: 元,就在分工里。镜像,就在接力里。 节奏,就在先后顺序里。发牌,就在每个状态转折点上。
如果对你有帮助,记得关注一波~
为什么这套东西能讲明白很多乱象
讲到这里,我给你们四个现实场景。 你们会发现,只要问题一复杂,最后都会绕回这条主线。
场景一:AI写文章,第一篇像神,第三篇开始串味 因为他做的不是系统,只是一次性生成。 真正成熟的写作系统,至少有这些元: 选题元、受众元、立场元、结构元、案例元、风格元、审核元。 最容易混的三件事:选题、结构、审核。一旦混在一起,文章越写越串。
场景二:多智能体项目,演示时惊艳,上线后崩塌 演示只有一条路径,变量很少。 一旦上业务,任务类型变多,输入质量变差,边界变模糊。 所有智能体开始顺手多干一点。 一顺手,边界就脏。边界一脏,结果就串。结果一串,系统变玄学。 名字很好起。结构最难补。
场景三:智能提醒越做越烦,最后没人点 用户登录发一下,停留发一下,犹豫发一下,退出前再发一下。 表面很积极,实际在把用户往外推。 因为告诉用户某件事,是有成本的。 每多发一次,就多一次注意力竞争,多一次优先级污染,多一次记忆负担。 成熟系统不是能发就发。 而是判断:这张牌现在该不该出现?发完以后,用户是更清楚还是更乱?
场景四:团队越干越乱 一个需求来了,策划补一点,产品补一点,研发顺手改一点,运营又加一点。 看着都很积极,最后没人能说清这东西到底谁负责、边界在哪、失败时怎么回滚。 团队不是缺执行,而是缺最小可治理单元。 先把一个需求补两列:谁拍板,谁验收。 很多混乱,先把这两列补上,就会立刻少一半。
这条主线,一次收完
我今天讲的是一整条系统成长路径。
第一步:元 找到最小可治理单元,让问题不再是一锅粥。
第二步:组织镜像 让这些元按分工、职责、权限、协作关系组织起来。
第三步:节奏编排 不是所有东西都同时出现,成熟系统要学会按时机出牌。
第四步:意图放大 顶层目标和意图,要被层层展开,最后落到结构、动作、触点和交付上。
所谓意图放大,就是上面一句话,下面要能拆成谁来做、何时做、做到什么算完成。 拆不到这一步,那还不叫放大,只是表达。
这四步连起来,才是一套完整的方法。少一步,都容易变形。
这套东西不是纸上概念了
老金说句实在话。 外面越多人开始讲orchestration、workflow、harness,我反而越确定自己这条路没走偏。 大家都在往复杂系统怎么组织这件事上靠。 只不过,我更想把这件事讲得更人话一点,也讲得更能落地一点。
其实我在做队伍编排时候,就已经有了元的雏形。 github.com/KimYx0207/a…
之后大概在1个多月前,我在自己的课程群里第一次把元提出来。 到现在,已经开始有一些落地反馈,也已经看到一部分成效。
接下来我更想做的事: 不是把概念讲得更大。 而是把它继续压缩,压成一个更简单、能直接上手的通用版本。 然后把这套东西整理出来,放到GitHub开源。
一些简单的实现效果,这只是结果而不是出发。 也就是说这套方法论,可以面向任何事情拆解不同的元来进行。 并且可替换、可复用。
这套方法也不是万能的。它解决的是复杂任务的组织问题,不是所有问题都需要拆成元。 简单的、一次性的、试错成本低的任务,直接让AI干就行,别过度设计。 真正需要这套方法的,是那些改不动、交不了付、下次还得从头来的任务。
以及我还在反复迭代,这是我说的最多的一句话。。
近期我会在 我的Github上开源整套架构。 GitHub地址在文末。
4月19号,老金会在waytoagi做一场直播
到时候会把今天讲的每个概念,用更多真实项目案例再展开一遍。 时间来得及的话,还会做现场互动拆解。 想来的朋友,关注waytoagi的动态,老金到时候在直播间等你们。
如果今天这篇文章你只记住一句话,那老金希望是这一句:
AI时代真正拉开差距的,不只是模型,不只是Agent,也不只是新概念。 而是你有没有能力,把复杂问题拆成元,再把元组织成一个能稳定交付的系统。 最重要的一点,元,并没有固定的形式,它是一套方法论,而不是方法。 每个人落地的方法,来源于自己的生活、工作等全部的经验。 简而言之,你需要塑造自己的元。
你们觉得这套思路对你们有启发吗? 评论区聊聊,老金我很好奇你们在复杂任务里踩过什么坑。
飞书****开源知识库(实时更新 交流群**):** tffyvtlai4.feishu.cn/wiki/OhQ8wq…
Claude Code & Openclaw 双顶流全中文从零开始的教程:不懂代码照样造网站,老金15万字Claude Code+OpenClaw教程免费开源
我的小破站(含我开源的项目):www.aiking.dev/
每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。 我不会代码,我英语也不好,但是我做出来了很多东西。 我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。
谢谢你读我的文章。 如果觉得不错,随手点个赞、在看、转发三连吧🙂 如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。