“评估驱动开发(Evaluation-Driven Development, EDD)”里的 EOD 一般指的是:
EOD = Evaluation-Oriented Design(面向评估的设计)
或更直白地说:开发从一开始就围绕“怎么评估效果”来设计。
它强调的是:先把评估体系(指标、数据、测试集、评估流程)设计好,再去做功能/模型/Prompt/策略开发,而不是做完再临时找办法验收。
EOD 在 EDD 里具体是什么意思?
在评估驱动开发里,EOD 通常包含这些核心动作:
-
先定义目标与指标
- 例如:准确率、召回率、通过率、用户满意度、成本、延迟等
-
构建评估数据/测试集(Eval Set)
- 覆盖关键场景、边界条件、失败案例
-
设计评估方法
- 人工评审 / 自动评估 / LLM-as-a-judge
- 评分规则、打分维度、容错机制
-
把评估嵌入开发流程
- 每次迭代必须跑评估
- 用评估结果决定是否上线/回滚
举个例子(直观理解)
假设你在做一个客服机器人。
-
传统做法:先做功能 → 上线试试 → 用户骂了再改
-
EOD:先做评估设计
- 定义“回答正确率 ≥ 90%”
- 做 500 条典型问题测试集
- 规定评分标准
- 每次改 Prompt/检索/模型都跑一次评估
这样你会非常清楚:每次迭代到底变好还是变差。