AI 失败率 95%,问题出在哪儿

1 阅读6分钟

看了 Jixian Wang《加了一层 Harness,AI 成功率从 33% 飙到 97%》这个视频后有感而发。
他的这期视频有一个设计得很聪明的开场:他录到一半,突然说自己"懒得录了",宣布将后半段交给 AI 完成:用 AI 克隆的声音,讲完关于"如何让 AI 可靠工作"的剩余内容。

AI 项目失败率 95% 封面


那组数字

视频开门见山引了三份报告:

MIT 媒体实验室 NANDA 项目:访谈 150 位企业高管、调研 350 名员工、分析 300 个真实案例,结论是——95% 的 GenAI 试点项目没有带来任何可衡量的业务影响

S&P Global 调查 1000 余家企业:42% 的公司在 2025 年放弃了大多数 AI 项目,一年前这个数字还是 17%。

BCG 2024 年底:74% 的企业尚未从 AI 投入中看到有形价值,到 2025 年恶化为 60%。

钱在烧,失败率在涨。

MIT 的报告把根因归结为三点:工具学习成本被低估、资源错配(超过一半的 AI 预算花在销售营销上,而 ROI 最高的是后台自动化)、构建方式的选择(内购专业工具成功率 67%,自建只有 33%)。

说白了,AI 项目的失败,很多时候不是模型不够聪明,是工程没跟上。

三大权威报告数据对比


两种死法

视频把工程层面的失败归纳成两类:部署太慢上线即黑盒

前者举了个例子——房产公司 Keller Williams 引入 Harness 前,每年只能做 4 到 7 次软件部署,每次需要三周准备。AI 需要每天迭代 Prompt 和评估逻辑。这种节奏,慢性死亡。

后者更麻烦。传统软件出问题,工程师能查日志、看报错、定位代码。AI 系统出问题,你看到的只是"用户说回答很奇怪"——问题到底出在 Prompt、模型、上下文长度还是数据,根本不知道。而且 AI 的失败往往不是硬崩溃,是悄悄变差:用户满意度慢慢下滑,等你发现的时候,已经被后面二十次部署覆盖了。

视频用一句话概括了这个困境:"现在引入 AI,问题不是消失了,是乘以 10。"

这句话我觉得说得很准。传统软件是确定性的,给定输入,输出可预测。AI 是概率性的,同样的 Prompt 在不同时刻可能给出不同答案。多 Agent 系统更难——一个 Agent 的错误会被下一个放大,最后用户看到的是完全摸不着头脑的结果,没法溯源。

AI 项目的两种典型死法


Harness 是什么

核心论点是:单靠 Prompt Engineering 解决不了这些问题,需要 Harness

Harness 字面意思是马具。大模型是一匹力量强大但方向不定的马,Harness 是围绕它搭建的一切控制机制:

Agent = Model + Harness

大模型没有记忆、没有执行能力、没有自我验证。Harness 的活,是补这三块短板。

视频拆出了五个核心模块:

上下文工程:决定什么信息在什么时候注入 Context。Anthropic 的研究说 Token 用量可以解释多 Agent 系统 80% 的性能差异——这个数字我没想到有这么高。

CI/CD 管道:代码改了测试自动跑,部署自动触发,Eval Pipeline 也集成进来,每次 Prompt 更新都跑一批测试用例。

Feature Flag:不重新部署就能控制 AI 功能的开关和版本,5 秒钟切换,不动代码。

混沌工程:主动制造故障——模拟 LLM API 超时、注入格式异常的 AI 输出、切断工具访问。找到弱点再上线,比等用户爆 bug 强多了。

DORA 指标:部署频率、变更前置时间、变更失败率、故障恢复时间。你不能改进你无法衡量的东西。

Harness 五大核心模块框架


让我印象最深的几组数字

OpenAI Codex 内部实验:3 名工程师,5 个月,约 100 万行代码,1500 个 Pull Request,平均每人每天 3.5 个 PR,全程零行手写代码。早期进展慢,不是因为模型不够强,是因为环境没搭好。agents.md、测试框架、工具调用全到位之后,速度就爆了。

Anthropic 多 Agent 研究:一个 Opus 主脑加多个并行 Sonnet 子 Agent,比单个 Opus Agent 强 90.2%。原因是并行扩展了有效 Token 预算。多 Agent 的本质,就是用并行换 Token。

Stripe 欺诈检测:把每笔支付当作 Token,用户行为序列当 Context Window,欺诈检测准确率从 59% 提升到 90%。

DORA 2024 数据:精英团队 vs 低效团队,不是百分比差距,是量级差距。部署频率高 182 倍,故障恢复速度快 2293 倍

三个案例,一个共同点:都不是换了更好的模型解决的,都是工程架构解决的。


工程师的角色变了

OpenAI 实验里总结得很直接:人类工程师的工作,正在从写代码转向搭建让 AI 能够可靠工作的环境

具体是——上下文基础设施(agents.md、文档结构、工具接口)、反馈循环设计、验证标准定义。

跟用什么语言写代码关系不大。跟对系统设计、质量标准、可观测性的理解关系更大。

视频提到三类正在出现的职位:AI 可靠性工程师、Harness 工程师、AI 产品工程师。写代码的门槛在降低,设计好的 AI 工程系统,门槛在升高。


看完的感受

这期视频最有价值的地方,不是什么新技术,是它用真实数据戳破了一个幻觉:认为换个更好的模型就能解决问题的幻觉。

95% 的失败率,原因不在模型。

视频开头那个悬念,最后答案揭晓:AI 确实完成了剩余内容,声音几乎以假乱真。背后有一整套看不见的 Harness 在支撑,这才是真正的工作量所在。