为什么 AI 优化不能长期只靠“我觉得”这篇文章想讲清楚的，就是为什么 AI 优化不能长期只靠“我觉得”，以及为什么“最

做 AI 功能有一个特别容易让人上头的地方。

你改了一版 Prompt，跑了一次，看到输出似乎更顺了、更像人写了、结构也更整齐了，于是很自然地会冒出一个念头：

“这版明显更好了。”

这种感觉非常真实，也非常常见。
问题在于，AI 工程如果长期只靠这种感觉推进，迟早会遇到瓶颈。

因为“我觉得更好了”这句话，通常很难回答下面这些更关键的问题：

它是真的更好，还是只是这次样例刚好更适合？
它是信息更完整了，还是只是更啰嗦了？
它是更准确了，还是只是文风更讨喜了？
换另一条输入，它还会不会一样稳定？

这篇文章想讲清楚的，就是为什么 AI 优化不能长期只靠“我觉得”，以及为什么“最基础的评估意识”会成为 AI 工程里从 Demo 走向产品最重要的一课。

适用读者

这篇文章适合：

已经开始反复改 Prompt，却陷入“打地鼠”困境的开发者
有多个版本输出，但越来越难判断哪个更好的人
对 LLM 输出稳定性有追求，想让功能变得更稳、更可复现的人
在团队里需要和别人讨论“效果到底有没有变好”的人

结论前置

AI 优化如果长期只靠感觉，会越来越容易陷入：

反复横跳：改好了一个 Case，却改坏了另外三个。
结论飘忽：早上的判断到了晚上就因为换了个模型 Session 而推翻。
团队难对齐：产品、研发、测试对“好”的定义各执一词。

更可持续的做法不是一开始就上很复杂的评测体系（Eval Framework），而是先建立最小的评估习惯：

固定测试样例
定义“什么叫更好”
对比不同版本输出
记录判断理由

换句话说：评估的意义，不是追求绝对科学，而是让优化不再处于“凭感觉漂移”的状态。

为什么“我觉得更好了”在早期特别有迷惑性

因为它经常不是完全错的。

有时候你确实改对了，模型输出也确实更好了。所以这种“凭感觉判断”的方式，在非常早期（从 0 到 0.1 的阶段）是能工作的。

但问题在于，它太依赖当下那几次运行给你的印象。而模型输出本身又有波动，这就会导致一个常见现象：

今天你觉得版本 A 更好；明天换一条输入，你又觉得版本 B 更好；过两天再看，又觉得两者差不多。

这时候你会开始越来越难受，因为你明明在努力优化，却说不清自己到底有没有变好。

这正是很多 AI 开发从“新鲜”走向“混乱”的分水岭。

AI 工程为什么特别需要评估意识

因为 AI 功能不像传统逻辑代码那样“输入固定，输出完全可预测”。它的结果常常受到这些因素影响：

Prompt 的微小措辞差异
输入样例的极端程度
任务边界的模糊性
模型当下的生成波动（Temperature 等参数影响）

这意味着，如果你没有一个最基本的评估框架，优化就很容易变成一种“边改边猜”的状态。而工程最怕的，就是系统建立在猜测上。

最小评估，不是复杂打分，而是先固定样例

很多人一听到“评估”，就会觉得这件事很重，仿佛要上专门平台、指标体系、自动化脚本。

其实不是。对于学习阶段和早期工程阶段，最小可用的第一步往往只是：先固定几条测试样例。

比如你做商品信息提取器，可以准备 3 到 5 条固定输入：

典型案例：一条信息完整的正常描述。
压力案例：一条描述很短或信息极度匮乏的。
干扰案例：一条比较混乱、包含多个误导信息的。
边界案例：一条容易让模型产生幻觉的特殊输入。

这样做的意义非常大。从这一刻开始，你后面的每次优化，都不再是在不同题目上“凭印象答题”，而是在同一套小考卷上做对比。这会让你第一次拥有“可比较性”。

为什么“先定义什么叫更好”比想象中更重要

很多评估做不起来，不是因为没有工具，而是因为标准太模糊。比如你说：“我希望摘要更好。”

这个“更好”在不同维度下意义完全不同：

是更完整（不遗漏关键信息）？
是更简洁（去掉冗余废话）？
是更准确（没有事实性错误）？
是更稳定（格式符合程序解析要求）？

如果标准没有拆开，讨论就会一直糊在一起。你看到的是“整体感觉”，而不是“具体维度”。这也是为什么很多团队讨论 AI 效果时，会出现**“审美博弈”**的局面——每个人都觉得自己说得有道理，但就是很难对齐，因为大家看的其实不是同一个“好”。

好看，不一定等于更好

这是 AI 评估里特别容易踩的一个坑。

模型输出很容易让人被“文风”吸引。一段话如果更流畅、更自然，就会很容易让人产生一种判断：“这个版本更高级。”

但从工程角度看，真正要问的往往是：

信息有没有漏？
字段有没有错？
有无偏离原文？
格式是否稳定？

“更好看”不一定等于“更好用”。 这一点在结构化输出、摘要生成、信息提取这类任务里尤其明显。

团队协作视角下，评估是最低成本的沟通工具

在个人练习里，凭感觉做决定最多只是自己反复纠结。但在团队里，这种方式会迅速放大成协作灾难：

产品说：“我觉得这版更自然。”
工程说：“我觉得这版结构更稳。”
测试说：“我觉得这版更容易翻车。”

每个人都在“觉得”，但没有共同参照系。而只要你们开始有最小评估习惯，哪怕只是一个简单表格，很多讨论就会落地很多：

用哪几条样例看？
按哪几个维度比较？
哪一版在多数样例下胜出？

讨论开始从“主观辩论”转向“客观的任务达成度判断”。

评估不需要一开始就很高级

评估不是非得一步到位。哪怕只是最简单的人工对照表，也已经会比纯感觉好很多。

例如：

样例	A版本（当前）	B版本（优化后）	胜出者	理由
样例1: 长文摘要	输出略显啰嗦，带了引导词	简洁但漏掉了关键日期	A	B虽然简洁但影响了信息完整性
样例2: 乱序输入	无法解析出正确字段	成功识别关键信息	B	B的鲁棒性明显更强
样例3: 边界测试	产生了一定幻觉	诚实回答“未找到”	B	B在幻觉控制上做得更好

这看起来很朴素，但价值很大。它会逼你开始把“更好”说具体，把“优化”变科学。

给刚开始优化 AI 功能的人一个建议

下次你改完 Prompt 之后，先别急着说：“这版应该更好了。”先做这 4 件小事：

用同一组固定样例跑两版输出。
先写下你希望比较的维度（比如：完整度、准确性）。
一条一条对照看。
记录为什么你认为 A 比 B 更好。

只要坚持做几次，你会发现自己判断效果的方式会明显变稳。你不再只是“有感觉”，而是开始“有依据”。

常见误区

误区 1：多跑几次，凭直觉看哪个顺眼就行。（短期可以，长期会陷入循环。）。
误区 2：输出更像人写的，就一定更好。（不一定。它可能只是更会说，但任务完成得不一定更稳。）。
误区 3：评估必须很复杂才有意义。（不是。最小人工评估表已经是巨大的工程进步。）。

适用边界

这篇文章强调的是“最小评估意识”，并不意味着：

你现在就必须搭完整评测平台
所有任务都能轻松量化
主观判断完全没有价值

更准确地说，它适用于这样一个阶段：

你已经开始做 AI 优化，但又不想长期困在“我觉得”里打转。

在这个阶段，哪怕只是固定样例加人工对比，也会比完全没有评估好很多。

结语

AI 优化最容易让人上瘾的地方，是每次改完都好像能看到一点变化。但 AI 优化最容易让人困住的地方，也是每次改完都好像能看到一点变化。

如果没有最基础的评估意识，你很容易在这种变化感里反复横跳，却越来越难判断什么才是真正的进步。

AI 优化不能长期只靠“我觉得”，因为感觉会漂，但评估会留下坐标。