Harness Engineering,终究是个伪命题

0 阅读5分钟

jimeng-2026-03-28-5811-纯黑背景中,一名罗马女将军,骑着一匹由发光的代码构成的马,马套着赛博朋克风格的马....png 要讨论这个,还得从 AI 大模型的本质开始聊起。

现在 AI 被用得越来越多,吹得神乎其神,好像它什么都能做。

但如果你深入了解它背后的数学原理和代码机制(不用太深),就会发现,它其实只是一个推理机器。

它和传统机器的不同之处在于,它的产出不是固定的,而是有一定的概率会产出不同的结果。


它所接受的数据来源主要有两个。

一方面是训练大模型所用的数据,这些数据经过清洗、处理、规范化,然后喂给大模型。

大模型就是用这些东西作为学习资料,形成各种各样固定的模式并固化下来,这就是我们现在所知道的带有多少多少亿个参数的大模型。

另一个,就是我们在使用大模型时输入给它的提示词。

提示词既包含数据,也包含命令,大模型通过解析提示词来获取必要的信息,然后再执行其中的指令。

现在可以给 AI 增加一些 skill(技能),比如让它去网上搜索,或者让它去找某些文件。这实际上就是让它的提示词输入变得更多。


但是大模型本身是不变的,你这一次输入给它的东西,下一次它是不会记得的。技术上讲叫做“无状态(Stateless)”。

那为什么我们跟它聊天的时候,它好像认得我们一样?

这是因为,它把之前跟你聊天的记录打了一个包,可能经过一些技术上的处理,比如压缩、截断、总结等等,在下一次输入提示词的时候,把这些记录一起带了过去。

其实不打包直接发过去也不是不行,不过提示词越长,就会使用越多的词元(token),也就是烧掉的钱也越多,得出结果的时间也越长;同时,过长的提示词会导致 AI 知道得太多,反而不利于它做出决策(这种情况叫做“注意力分散”)。

通过把过去的记录一起带过去这种方式,AI 每一次圣诞,都是重新认识了你一遍,重新回忆了一下你们之前的聊天记录。所以它才能在回答你的新问题时,表现得就像认识你一样。


所以归根结底,对于使用者来说,大模型其实只有一个输入,就是提示词。

所有的“上下文”,其实是把提示词放在外界的地方存储,需要时再加上。

现在已经不太有人提起的“提示词工程”,就是要把提示词尽可能地完善,让 AI 更加明确地产出指定内容。

而现在新出的“架驭工程”(Harnessing Engineering),实际上是借助 AI 之外的各种工程手段去处理上下文和提示词。最后让 AI 在某些场景下,只读取跟当前场景、命令有关的提示词,来达到让它专注于当前任务的目的。

所以我们所有的工程手段,最终其实都归结于对提示词的处理。


我说Harness Engineering是个伪命题,其实是有时间限制的。

目前,这还是最佳的提升 AI 能力的手段,没有之一。这比大模型本身的版本更新还有效。


但是,AI 大模型是在一直迭代和进化的。

在提示词工程(Prompt Engineering)很火的时候,就有明确的证据表明,提示词是针对当前版本的。

一旦大模型更新,旧有的提示词很可能起不到任何作用,甚至会起到反效果。

比如在 GPT-3.5 时代,我们需要写上百字的 Few-shot(少样本提示)来教它输出 JSON;但到了目前的先进模型,你再塞这么一堆冗长的提示词,反而会干扰它的原生指令遵循能力,导致输出崩坏。

所以每当模型更新版本时,这些提示词都要重新验证一遍。

这是因为在大模型的新版本里,它的训练数据很可能已经把这些提示词包含进去了,重复给它相同的数据,最终会造成负面影响。

现在的 Harness Engineering 也是一样的。如果大模型版本变更,所有的 Harness 都要重新检查并验证一遍。 很有可能这些原来约束 AI 的条件,最后反而会导致 AI 的产出还不如以前。


那么,是不是可以这样猜想:

当 AI 进化到一定程度之后,能够理解所有的模糊语言,那所有这些工程化的手段,都会变得没有意义。


只是这个“一定程度”,什么时候会到,没人说得准。可能是五年,可能是十年,也可能就是下个星期。

尽管Harness Engineering长远来看必然消亡,但是不妨碍它现在是棵巨大的摇钱树。

就算将来,Harness Engineering不再有效,大概也会出现一个新的 XXX Engineering 取代它的位置。 就像它取代了提示词工程一样。


AI 时代的护城河,从来不是你记住了多少个绝妙的 Prompt,也不是你搭出了多么复杂的 Harness 架构,而是你敏锐洞察大模型能力边界,并迅速用工程手段去填补这段缝隙的‘元能力’。