揭秘大模型评测:如何用“说明书”式方法实现业务场景下的精准评估
概述
定义
大模型评测的目标是通过设计合理的测试任务和数据集来对大模型的能力进行全面、量化的评估。本文聚焦对大模型业务效果方面的评测,不包括大模型的性能测试,性能测试通过压测实现。
区别于基础模型的Benchmark(基准测试),本文更加聚焦在针对具体业务场景下大模型的效果。在基础模型发布时,模型厂商提供的测试报告无法覆盖用户实际业务场景。用户需要通过针对自己业务场景设计的评测来评估大模型的实际表现。同时大模型评测除了针对模型本身,也可以面向整个模型应用进行评测,覆盖RAG、MCP、工作流等构成的统一整体进行端到端的测试。
场景
以下是几种典型的评测场景:
- 大模型上线:在大模型应用上线前,通过评测了解大模型的能力,判断大模型应用是否具备上线条件。
- 大模型升级切换:因为需要切换模型厂商、更换模型尺寸、模型微调或模型版本升级等原因,用户需要通过评测对新旧模型的效果进行比对,从而决策是否进行切换。
- 大模型优化:通过评测发现的bad case,持续提升大模型效果。通过分析bad case的原因,可以进行诸如优化知识库、优化提示词、优化工作流、引入或优化MCP以及对模型进行微调等方式优化效果。
挑战
- 评测维度:评测维度如何设计才能更好的衡量大模型效果,并推动大模型优化?
- 评测集:如何设计评测集才能更好地仿真实际的线上场景。如何平衡不同场景的比例失衡的问题,确保不同场景的覆盖?
- 标注:标注人员质量参差不齐,不同人对标准的理解不一致。同一个人不同时间标注,也会导致结果不同,最终导致标注准确性稳定性差。除了标注效果外,人工标注非常耗时且需要投入额外的人工成本,导致无法开展大规模评测。
- 业务变化:随着技术方案和业务场景的变化,大模型本身也在持续迭代演进。不同大模型特点不同,评测标准和评测集的构成也各不相同。
大模型评测方法
评测流程
大模型评测流程,整体可以分为4个阶段共9个动作。前7个为模型评测本身的动作,以输出评测报告为目标。后续2个动作为通过持续优化模型与模型评测本身,以达到最后的模型上线切换等目标。
需求分析
业务场景
- 大模型被使用在什么业务里?
- 这个业务都有哪些业务流程,大模型在其中哪个流程中,起到什么样的作用?
- 在这个业务场景里,大模型的使用者是谁。是否包含C端用户。
- 用户使用大模型需要解决什么问题。用户会提供什么信息,并期望大模型输出什么?
- 目前大模型是否已经投产了?还是处于测试阶段?
评测对象
- 我们要评测的对象是模型(基础模型/微调模型),还是大模型应用。
- 对象=基础模型:具体的模型名称,是否是经过微调。
- 对象=模型应用:请提供大模型的技术架构。
- 如果是基于百炼调用,请提供测试账号方便了解技术细节。
- 是需要对单一大模型对象进行评测,还是需要和其他的大模型进行比较评测结果。如果是需要比较的话,对比对象是什么?