为什么 AI 优化不能长期只靠“我觉得”

3 阅读8分钟

做 AI 功能有一个特别容易让人上头的地方。

你改了一版 Prompt,跑了一次,看到输出似乎更顺了、更像人写了、结构也更整齐了,于是很自然地会冒出一个念头:

“这版明显更好了。”

这种感觉非常真实,也非常常见。
问题在于,AI 工程如果长期只靠这种感觉推进,迟早会遇到瓶颈。

因为“我觉得更好了”这句话,通常很难回答下面这些更关键的问题:

  • 它是真的更好,还是只是这次样例刚好更适合?
  • 它是信息更完整了,还是只是更啰嗦了?
  • 它是更准确了,还是只是文风更讨喜了?
  • 换另一条输入,它还会不会一样稳定?

这篇文章想讲清楚的,就是为什么 AI 优化不能长期只靠“我觉得”,以及为什么“最基础的评估意识”会成为 AI 工程里从 Demo 走向产品最重要的一课。

适用读者

这篇文章适合:

  • 已经开始反复改 Prompt,却陷入“打地鼠”困境的开发者
  • 有多个版本输出,但越来越难判断哪个更好的人
  • 对 LLM 输出稳定性有追求,想让功能变得更稳、更可复现的人
  • 在团队里需要和别人讨论“效果到底有没有变好”的人

结论前置

AI 优化如果长期只靠感觉,会越来越容易陷入:

  • 反复横跳:改好了一个 Case,却改坏了另外三个。
  • 结论飘忽:早上的判断到了晚上就因为换了个模型 Session 而推翻。
  • 团队难对齐:产品、研发、测试对“好”的定义各执一词。

更可持续的做法不是一开始就上很复杂的评测体系(Eval Framework),而是先建立最小的评估习惯

  1. 固定测试样例
  2. 定义“什么叫更好”
  3. 对比不同版本输出
  4. 记录判断理由

换句话说:评估的意义,不是追求绝对科学,而是让优化不再处于“凭感觉漂移”的状态。

为什么“我觉得更好了”在早期特别有迷惑性

因为它经常不是完全错的。

有时候你确实改对了,模型输出也确实更好了。所以这种“凭感觉判断”的方式,在非常早期(从 0 到 0.1 的阶段)是能工作的。

但问题在于,它太依赖当下那几次运行给你的印象。而模型输出本身又有波动,这就会导致一个常见现象:

今天你觉得版本 A 更好;明天换一条输入,你又觉得版本 B 更好;过两天再看,又觉得两者差不多。

这时候你会开始越来越难受,因为你明明在努力优化,却说不清自己到底有没有变好

这正是很多 AI 开发从“新鲜”走向“混乱”的分水岭。

AI 工程为什么特别需要评估意识

因为 AI 功能不像传统逻辑代码那样“输入固定,输出完全可预测”。它的结果常常受到这些因素影响:

  • Prompt 的微小措辞差异
  • 输入样例的极端程度
  • 任务边界的模糊性
  • 模型当下的生成波动(Temperature 等参数影响)

这意味着,如果你没有一个最基本的评估框架,优化就很容易变成一种“边改边猜”的状态。而工程最怕的,就是系统建立在猜测上。

最小评估,不是复杂打分,而是先固定样例

很多人一听到“评估”,就会觉得这件事很重,仿佛要上专门平台、指标体系、自动化脚本。

其实不是。对于学习阶段和早期工程阶段,最小可用的第一步往往只是:先固定几条测试样例。

比如你做商品信息提取器,可以准备 3 到 5 条固定输入:

  • 典型案例:一条信息完整的正常描述。
  • 压力案例:一条描述很短或信息极度匮乏的。
  • 干扰案例:一条比较混乱、包含多个误导信息的。
  • 边界案例:一条容易让模型产生幻觉的特殊输入。

这样做的意义非常大。从这一刻开始,你后面的每次优化,都不再是在不同题目上“凭印象答题”,而是在同一套小考卷上做对比。这会让你第一次拥有“可比较性”。

为什么“先定义什么叫更好”比想象中更重要

很多评估做不起来,不是因为没有工具,而是因为标准太模糊。比如你说:“我希望摘要更好。”

这个“更好”在不同维度下意义完全不同:

  • 更完整(不遗漏关键信息)?
  • 更简洁(去掉冗余废话)?
  • 更准确(没有事实性错误)?
  • 更稳定(格式符合程序解析要求)?

如果标准没有拆开,讨论就会一直糊在一起。你看到的是“整体感觉”,而不是“具体维度”。这也是为什么很多团队讨论 AI 效果时,会出现**“审美博弈”**的局面——每个人都觉得自己说得有道理,但就是很难对齐,因为大家看的其实不是同一个“好”。

好看,不一定等于更好

这是 AI 评估里特别容易踩的一个坑。

模型输出很容易让人被“文风”吸引。一段话如果更流畅、更自然,就会很容易让人产生一种判断:“这个版本更高级。”

但从工程角度看,真正要问的往往是:

  • 信息有没有漏?
  • 字段有没有错?
  • 有无偏离原文?
  • 格式是否稳定?

“更好看”不一定等于“更好用”。 这一点在结构化输出、摘要生成、信息提取这类任务里尤其明显。

团队协作视角下,评估是最低成本的沟通工具

在个人练习里,凭感觉做决定最多只是自己反复纠结。但在团队里,这种方式会迅速放大成协作灾难:

  • 产品说:“我觉得这版更自然。”
  • 工程说:“我觉得这版结构更稳。”
  • 测试说:“我觉得这版更容易翻车。”

每个人都在“觉得”,但没有共同参照系。而只要你们开始有最小评估习惯,哪怕只是一个简单表格,很多讨论就会落地很多:

  • 用哪几条样例看?
  • 按哪几个维度比较?
  • 哪一版在多数样例下胜出?

讨论开始从“主观辩论”转向“客观的任务达成度判断”。

评估不需要一开始就很高级

评估不是非得一步到位。哪怕只是最简单的人工对照表,也已经会比纯感觉好很多。

例如:

样例A版本(当前)B版本(优化后)胜出者理由
样例1: 长文摘要输出略显啰嗦,带了引导词简洁但漏掉了关键日期AB虽然简洁但影响了信息完整性
样例2: 乱序输入无法解析出正确字段成功识别关键信息BB的鲁棒性明显更强
样例3: 边界测试产生了一定幻觉诚实回答“未找到”BB在幻觉控制上做得更好

这看起来很朴素,但价值很大。它会逼你开始把“更好”说具体,把“优化”变科学。

给刚开始优化 AI 功能的人一个建议

下次你改完 Prompt 之后,先别急着说:“这版应该更好了。”先做这 4 件小事:

  1. 用同一组固定样例跑两版输出。
  2. 先写下你希望比较的维度(比如:完整度、准确性)。
  3. 一条一条对照看。
  4. 记录为什么你认为 A 比 B 更好。

只要坚持做几次,你会发现自己判断效果的方式会明显变稳。你不再只是“有感觉”,而是开始“有依据”。

常见误区

  • 误区 1:多跑几次,凭直觉看哪个顺眼就行。(短期可以,长期会陷入循环。)。
  • 误区 2:输出更像人写的,就一定更好。(不一定。它可能只是更会说,但任务完成得不一定更稳。)。
  • 误区 3:评估必须很复杂才有意义。(不是。最小人工评估表已经是巨大的工程进步。)。

适用边界

这篇文章强调的是“最小评估意识”,并不意味着:

  • 你现在就必须搭完整评测平台
  • 所有任务都能轻松量化
  • 主观判断完全没有价值

更准确地说,它适用于这样一个阶段:

你已经开始做 AI 优化,但又不想长期困在“我觉得”里打转。

在这个阶段,哪怕只是固定样例加人工对比,也会比完全没有评估好很多。

结语

AI 优化最容易让人上瘾的地方,是每次改完都好像能看到一点变化。但 AI 优化最容易让人困住的地方,也是每次改完都好像能看到一点变化。

如果没有最基础的评估意识,你很容易在这种变化感里反复横跳,却越来越难判断什么才是真正的进步。

AI 优化不能长期只靠“我觉得”,因为感觉会漂,但评估会留下坐标。