做 AI 功能有一个特别容易让人上头的地方。
你改了一版 Prompt,跑了一次,看到输出似乎更顺了、更像人写了、结构也更整齐了,于是很自然地会冒出一个念头:
“这版明显更好了。”
这种感觉非常真实,也非常常见。
问题在于,AI 工程如果长期只靠这种感觉推进,迟早会遇到瓶颈。
因为“我觉得更好了”这句话,通常很难回答下面这些更关键的问题:
- 它是真的更好,还是只是这次样例刚好更适合?
- 它是信息更完整了,还是只是更啰嗦了?
- 它是更准确了,还是只是文风更讨喜了?
- 换另一条输入,它还会不会一样稳定?
这篇文章想讲清楚的,就是为什么 AI 优化不能长期只靠“我觉得”,以及为什么“最基础的评估意识”会成为 AI 工程里从 Demo 走向产品最重要的一课。
适用读者
这篇文章适合:
- 已经开始反复改 Prompt,却陷入“打地鼠”困境的开发者
- 有多个版本输出,但越来越难判断哪个更好的人
- 对 LLM 输出稳定性有追求,想让功能变得更稳、更可复现的人
- 在团队里需要和别人讨论“效果到底有没有变好”的人
结论前置
AI 优化如果长期只靠感觉,会越来越容易陷入:
- 反复横跳:改好了一个 Case,却改坏了另外三个。
- 结论飘忽:早上的判断到了晚上就因为换了个模型 Session 而推翻。
- 团队难对齐:产品、研发、测试对“好”的定义各执一词。
更可持续的做法不是一开始就上很复杂的评测体系(Eval Framework),而是先建立最小的评估习惯:
- 固定测试样例
- 定义“什么叫更好”
- 对比不同版本输出
- 记录判断理由
换句话说:评估的意义,不是追求绝对科学,而是让优化不再处于“凭感觉漂移”的状态。
为什么“我觉得更好了”在早期特别有迷惑性
因为它经常不是完全错的。
有时候你确实改对了,模型输出也确实更好了。所以这种“凭感觉判断”的方式,在非常早期(从 0 到 0.1 的阶段)是能工作的。
但问题在于,它太依赖当下那几次运行给你的印象。而模型输出本身又有波动,这就会导致一个常见现象:
今天你觉得版本 A 更好;明天换一条输入,你又觉得版本 B 更好;过两天再看,又觉得两者差不多。
这时候你会开始越来越难受,因为你明明在努力优化,却说不清自己到底有没有变好。
这正是很多 AI 开发从“新鲜”走向“混乱”的分水岭。
AI 工程为什么特别需要评估意识
因为 AI 功能不像传统逻辑代码那样“输入固定,输出完全可预测”。它的结果常常受到这些因素影响:
- Prompt 的微小措辞差异
- 输入样例的极端程度
- 任务边界的模糊性
- 模型当下的生成波动(Temperature 等参数影响)
这意味着,如果你没有一个最基本的评估框架,优化就很容易变成一种“边改边猜”的状态。而工程最怕的,就是系统建立在猜测上。
最小评估,不是复杂打分,而是先固定样例
很多人一听到“评估”,就会觉得这件事很重,仿佛要上专门平台、指标体系、自动化脚本。
其实不是。对于学习阶段和早期工程阶段,最小可用的第一步往往只是:先固定几条测试样例。
比如你做商品信息提取器,可以准备 3 到 5 条固定输入:
- 典型案例:一条信息完整的正常描述。
- 压力案例:一条描述很短或信息极度匮乏的。
- 干扰案例:一条比较混乱、包含多个误导信息的。
- 边界案例:一条容易让模型产生幻觉的特殊输入。
这样做的意义非常大。从这一刻开始,你后面的每次优化,都不再是在不同题目上“凭印象答题”,而是在同一套小考卷上做对比。这会让你第一次拥有“可比较性”。
为什么“先定义什么叫更好”比想象中更重要
很多评估做不起来,不是因为没有工具,而是因为标准太模糊。比如你说:“我希望摘要更好。”
这个“更好”在不同维度下意义完全不同:
- 是更完整(不遗漏关键信息)?
- 是更简洁(去掉冗余废话)?
- 是更准确(没有事实性错误)?
- 是更稳定(格式符合程序解析要求)?
如果标准没有拆开,讨论就会一直糊在一起。你看到的是“整体感觉”,而不是“具体维度”。这也是为什么很多团队讨论 AI 效果时,会出现**“审美博弈”**的局面——每个人都觉得自己说得有道理,但就是很难对齐,因为大家看的其实不是同一个“好”。
好看,不一定等于更好
这是 AI 评估里特别容易踩的一个坑。
模型输出很容易让人被“文风”吸引。一段话如果更流畅、更自然,就会很容易让人产生一种判断:“这个版本更高级。”
但从工程角度看,真正要问的往往是:
- 信息有没有漏?
- 字段有没有错?
- 有无偏离原文?
- 格式是否稳定?
“更好看”不一定等于“更好用”。 这一点在结构化输出、摘要生成、信息提取这类任务里尤其明显。
团队协作视角下,评估是最低成本的沟通工具
在个人练习里,凭感觉做决定最多只是自己反复纠结。但在团队里,这种方式会迅速放大成协作灾难:
- 产品说:“我觉得这版更自然。”
- 工程说:“我觉得这版结构更稳。”
- 测试说:“我觉得这版更容易翻车。”
每个人都在“觉得”,但没有共同参照系。而只要你们开始有最小评估习惯,哪怕只是一个简单表格,很多讨论就会落地很多:
- 用哪几条样例看?
- 按哪几个维度比较?
- 哪一版在多数样例下胜出?
讨论开始从“主观辩论”转向“客观的任务达成度判断”。
评估不需要一开始就很高级
评估不是非得一步到位。哪怕只是最简单的人工对照表,也已经会比纯感觉好很多。
例如:
| 样例 | A版本(当前) | B版本(优化后) | 胜出者 | 理由 |
|---|---|---|---|---|
| 样例1: 长文摘要 | 输出略显啰嗦,带了引导词 | 简洁但漏掉了关键日期 | A | B虽然简洁但影响了信息完整性 |
| 样例2: 乱序输入 | 无法解析出正确字段 | 成功识别关键信息 | B | B的鲁棒性明显更强 |
| 样例3: 边界测试 | 产生了一定幻觉 | 诚实回答“未找到” | B | B在幻觉控制上做得更好 |
这看起来很朴素,但价值很大。它会逼你开始把“更好”说具体,把“优化”变科学。
给刚开始优化 AI 功能的人一个建议
下次你改完 Prompt 之后,先别急着说:“这版应该更好了。”先做这 4 件小事:
- 用同一组固定样例跑两版输出。
- 先写下你希望比较的维度(比如:完整度、准确性)。
- 一条一条对照看。
- 记录为什么你认为 A 比 B 更好。
只要坚持做几次,你会发现自己判断效果的方式会明显变稳。你不再只是“有感觉”,而是开始“有依据”。
常见误区
- 误区 1:多跑几次,凭直觉看哪个顺眼就行。(短期可以,长期会陷入循环。)。
- 误区 2:输出更像人写的,就一定更好。(不一定。它可能只是更会说,但任务完成得不一定更稳。)。
- 误区 3:评估必须很复杂才有意义。(不是。最小人工评估表已经是巨大的工程进步。)。
适用边界
这篇文章强调的是“最小评估意识”,并不意味着:
- 你现在就必须搭完整评测平台
- 所有任务都能轻松量化
- 主观判断完全没有价值
更准确地说,它适用于这样一个阶段:
你已经开始做 AI 优化,但又不想长期困在“我觉得”里打转。
在这个阶段,哪怕只是固定样例加人工对比,也会比完全没有评估好很多。
结语
AI 优化最容易让人上瘾的地方,是每次改完都好像能看到一点变化。但 AI 优化最容易让人困住的地方,也是每次改完都好像能看到一点变化。
如果没有最基础的评估意识,你很容易在这种变化感里反复横跳,却越来越难判断什么才是真正的进步。
AI 优化不能长期只靠“我觉得”,因为感觉会漂,但评估会留下坐标。