评估驱动开发 EDD 介绍

7 阅读1分钟

“评估驱动开发(Evaluation-Driven Development, EDD)”里的 EOD 一般指的是:

EOD = Evaluation-Oriented Design(面向评估的设计)
或更直白地说:开发从一开始就围绕“怎么评估效果”来设计

它强调的是:先把评估体系(指标、数据、测试集、评估流程)设计好,再去做功能/模型/Prompt/策略开发,而不是做完再临时找办法验收。


EOD 在 EDD 里具体是什么意思?

在评估驱动开发里,EOD 通常包含这些核心动作:

  1. 先定义目标与指标

    • 例如:准确率、召回率、通过率、用户满意度、成本、延迟等
  2. 构建评估数据/测试集(Eval Set)

    • 覆盖关键场景、边界条件、失败案例
  3. 设计评估方法

    • 人工评审 / 自动评估 / LLM-as-a-judge
    • 评分规则、打分维度、容错机制
  4. 把评估嵌入开发流程

    • 每次迭代必须跑评估
    • 用评估结果决定是否上线/回滚

举个例子(直观理解)

假设你在做一个客服机器人。

  • 传统做法:先做功能 → 上线试试 → 用户骂了再改

  • EOD:先做评估设计

    • 定义“回答正确率 ≥ 90%”
    • 做 500 条典型问题测试集
    • 规定评分标准
    • 每次改 Prompt/检索/模型都跑一次评估

这样你会非常清楚:每次迭代到底变好还是变差