AI 失败率 95%，问题出在哪儿AI 失败率 95%，问题出在哪儿那组数字视频开门见山引了三份报告： MIT 媒体

看了 Jixian Wang《加了一层 Harness，AI 成功率从 33% 飙到 97%》这个视频后有感而发。
他的这期视频有一个设计得很聪明的开场：他录到一半，突然说自己"懒得录了"，宣布将后半段交给 AI 完成：用 AI 克隆的声音，讲完关于"如何让 AI 可靠工作"的剩余内容。

AI 项目失败率 95% 封面

那组数字

视频开门见山引了三份报告：

MIT 媒体实验室 NANDA 项目：访谈 150 位企业高管、调研 350 名员工、分析 300 个真实案例，结论是——95% 的 GenAI 试点项目没有带来任何可衡量的业务影响。

S&P Global 调查 1000 余家企业：42% 的公司在 2025 年放弃了大多数 AI 项目，一年前这个数字还是 17%。

BCG 2024 年底：74% 的企业尚未从 AI 投入中看到有形价值，到 2025 年恶化为 60%。

钱在烧，失败率在涨。

MIT 的报告把根因归结为三点：工具学习成本被低估、资源错配（超过一半的 AI 预算花在销售营销上，而 ROI 最高的是后台自动化）、构建方式的选择（内购专业工具成功率 67%，自建只有 33%）。

说白了，AI 项目的失败，很多时候不是模型不够聪明，是工程没跟上。

三大权威报告数据对比

视频把工程层面的失败归纳成两类：部署太慢和上线即黑盒。

前者举了个例子——房产公司 Keller Williams 引入 Harness 前，每年只能做 4 到 7 次软件部署，每次需要三周准备。AI 需要每天迭代 Prompt 和评估逻辑。这种节奏，慢性死亡。

后者更麻烦。传统软件出问题，工程师能查日志、看报错、定位代码。AI 系统出问题，你看到的只是"用户说回答很奇怪"——问题到底出在 Prompt、模型、上下文长度还是数据，根本不知道。而且 AI 的失败往往不是硬崩溃，是悄悄变差：用户满意度慢慢下滑，等你发现的时候，已经被后面二十次部署覆盖了。

视频用一句话概括了这个困境："现在引入 AI，问题不是消失了，是乘以 10。"

这句话我觉得说得很准。传统软件是确定性的，给定输入，输出可预测。AI 是概率性的，同样的 Prompt 在不同时刻可能给出不同答案。多 Agent 系统更难——一个 Agent 的错误会被下一个放大，最后用户看到的是完全摸不着头脑的结果，没法溯源。

AI 项目的两种典型死法

核心论点是：单靠 Prompt Engineering 解决不了这些问题，需要 Harness。

Harness 字面意思是马具。大模型是一匹力量强大但方向不定的马，Harness 是围绕它搭建的一切控制机制：

Agent = Model + Harness

大模型没有记忆、没有执行能力、没有自我验证。Harness 的活，是补这三块短板。

视频拆出了五个核心模块：

上下文工程：决定什么信息在什么时候注入 Context。Anthropic 的研究说 Token 用量可以解释多 Agent 系统 80% 的性能差异——这个数字我没想到有这么高。

CI/CD 管道：代码改了测试自动跑，部署自动触发，Eval Pipeline 也集成进来，每次 Prompt 更新都跑一批测试用例。

Feature Flag：不重新部署就能控制 AI 功能的开关和版本，5 秒钟切换，不动代码。

混沌工程：主动制造故障——模拟 LLM API 超时、注入格式异常的 AI 输出、切断工具访问。找到弱点再上线，比等用户爆 bug 强多了。

DORA 指标：部署频率、变更前置时间、变更失败率、故障恢复时间。你不能改进你无法衡量的东西。

Harness 五大核心模块框架

OpenAI Codex 内部实验：3 名工程师，5 个月，约 100 万行代码，1500 个 Pull Request，平均每人每天 3.5 个 PR，全程零行手写代码。早期进展慢，不是因为模型不够强，是因为环境没搭好。agents.md、测试框架、工具调用全到位之后，速度就爆了。

Anthropic 多 Agent 研究：一个 Opus 主脑加多个并行 Sonnet 子 Agent，比单个 Opus Agent 强 90.2%。原因是并行扩展了有效 Token 预算。多 Agent 的本质，就是用并行换 Token。

Stripe 欺诈检测：把每笔支付当作 Token，用户行为序列当 Context Window，欺诈检测准确率从 59% 提升到 90%。

DORA 2024 数据：精英团队 vs 低效团队，不是百分比差距，是量级差距。部署频率高 182 倍，故障恢复速度快 2293 倍。

三个案例，一个共同点：都不是换了更好的模型解决的，都是工程架构解决的。

OpenAI 实验里总结得很直接：人类工程师的工作，正在从写代码转向搭建让 AI 能够可靠工作的环境。

具体是——上下文基础设施（agents.md、文档结构、工具接口）、反馈循环设计、验证标准定义。

跟用什么语言写代码关系不大。跟对系统设计、质量标准、可观测性的理解关系更大。

视频提到三类正在出现的职位：AI 可靠性工程师、Harness 工程师、AI 产品工程师。写代码的门槛在降低，设计好的 AI 工程系统，门槛在升高。

这期视频最有价值的地方，不是什么新技术，是它用真实数据戳破了一个幻觉：认为换个更好的模型就能解决问题的幻觉。

95% 的失败率，原因不在模型。

视频开头那个悬念，最后答案揭晓：AI 确实完成了剩余内容，声音几乎以假乱真。背后有一整套看不见的 Harness 在支撑，这才是真正的工作量所在。