AI产品评测方法综述与传统软件"输入A必然得到输出B"的确定性测试不同，AI产品（尤其是基于LLM的产品）具有概率性、

综述

能力层（它聪明吗？）：
- 基准测试 (Benchmarks): 使用公开数据集（如MMLU, GSM8K, C-Eval）测试逻辑推理、代码能力、数学能力。
- 垂类能力: 如果是医疗AI，需要构建专门的医疗知识问答集。
质量层（它说得对吗？）：
- 幻觉率 (Hallucination): 检查AI是否一本正经地胡说八道。
- 一致性 (Consistency): 同样的问题问五次，答案的核心含义是否一致？
- 引用归因: 它的回答是否有据可依（针对搜索/RAG产品）。
安全与伦理层（它安全吗？）：
- 红队测试 (Red Teaming): 故意攻击AI，诱导其输出暴力、色情、偏见或违规内容，测试防护栏（Guardrails）的有效性。
- Prompt注入: 测试用户是否能绕过系统指令（System Prompt）。
体验与性能层（它好用吗？）：
- 首字延迟 (Time to First Token, TTFT): 用户等待多久看到第一个字？
- 生成速度 (Tokens per Second): 输出是否流畅？
- 交互意图理解: AI是否准确识别了用户的意图（例如：用户想画图，AI却在写代码）。

构建"黄金数据集"： 这是系统性评测的基石，必须建立一个包含几百到几千条典型用户Query的测试集。
- 输入: 典型问题、边缘Case、恶意攻击Prompt。
- 标准答案: 由人类专家撰写的理想回答（Ground Truth）。
LLM-as-a-Judge (用AI评测AI)： 随着测试量级变大，人工评测太慢且贵。目前主流方法是用一个更强的模型（如GPT-4o或Claude 3.5 Sonnet）作为"裁判"，给待测模型的回答打分。
- 打分维度: 准确性(1-5分)、相关性、友好度。
- Pairwise Comparison: 让两个模型回答同一个问题，让裁判选"哪个更好"。这类似竞技游戏中的Elo排名系统（LMSYS Chatbot Arena就是这个逻辑）。
RAG 评测三元组 (RAG Triad)： 如果产品涉及知识库检索，可以使用RAG专门的评测框架（如Ragas）：
- Context Relevance (上下文相关性): 检索到的文档是否真的和问题有关？
- Faithfulness (忠实度): AI生成的答案是否完全基于检索到的文档（没有瞎编）？
- Answer Relevance (答案相关性): 生成的答案是否直接回答了用户的问题？
自动化红队测试： 使用工具（如Giskard, PyRIT）自动生成成千上万条攻击性指令，轰炸你的AI产品，扫描潜在漏洞。