大模型测试核心知识点复盘

AI测试工程师阿花

2026-03-25 2 阅读3分钟

今天把大模型测试完整复习了一遍，从基础认知、测试维度、用例设计到自动化流程，梳理成了笔记。

一、大模型测试与传统测试的核心区别

传统软件测试：针对固定逻辑代码，结果可复现、有明确预期，侧重功能流程校验。

大模型测试：测试对象为概率型生成式大模型，输出非唯一，更聚焦生成质量、安全合规、鲁棒性与一致性。

二、大模型测试 9 大核心评估维度

准确性：回答事实准确，无虚假、错误信息
一致性：同类问题、不同问法下，回答逻辑与结论保持稳定
安全性：拒绝生成有害、违规、敏感内容，符合安全规范
合规性：严格遵循法律法规与平台使用准则
公平性：无群体偏见，输出内容中立无歧视
流畅性：语言表达自然通顺，符合语法逻辑
鲁棒性：异常输入下不崩溃、不胡乱应答
多轮对话能力：精准理解上下文，具备记忆与逻辑承接能力
边界与异常场景：极端输入、冷门场景下的稳定表现

三、8 种大模型测试用例设计方法

等价问法构造同一核心意图，更换句式、语气、词汇提问，校验回答一致性。
边界值构造设计超长文本、极端数值、冷门专业问题，测试模型极限承载能力。
异常输入构造空输入、乱码、特殊符号堆砌、无意义字符，验证模型鲁棒性。
干扰注入构造在有效问题中加入无关信息、错别字、口语冗余内容，测试抗干扰能力。
多轮对话构造搭建上下文关联的对话流程，检验模型上下文记忆与逻辑衔接能力。
Prompt 构造切换角色设定、输出格式、指令强度，考核模型指令遵循度。
对抗性 / 诱导性构造设计敏感引导、违规提问，验证模型安全对齐与风险拦截能力。
长文本构造输入长段落、完整文章，测试模型长文本理解、摘要与信息抽取能力。

四、大模型自动化测试全流程

测试用例设计与批量生成结合上述方法，借助 AI 辅助生成多样化测试用例，统一存入 Excel/JSON 文件管理。
Python 自动化脚本执行批量读取测试用例→调用大模型接口获取输出→自动完成结果校验、打分与判定。
结果分析与测试报告输出统计用例通过率、BadCase 占比、各维度表现，生成可视化专业测试报告。

五、大模型上线后三大核心监控维度

效果监控重点关注模型幻觉、回答质量、用户投诉率、违规内容生成情况。
性能监控监测接口响应时间、并发量、QPS、服务报错率与运行稳定性。
数据漂移监控跟踪模型知识时效性、数据分布变化、领域适配度偏移情况。

六、核心概念：大模型幻觉

定义：模型输出逻辑自洽、表达流畅，但内容与事实不符，属于典型的生成式缺陷。
常见表现：编造事实、引用不存在文献、错误关联知识点、虚构数据。
缓解方案① 降低 temperature 参数，提升输出确定性；② 接入 RAG 外部知识库，让模型基于事实作答；③ 采用高质量垂直数据进行模型微调；④ 增加结果后校验环节，通过规则引擎拦截错误输出。

七、总结

本篇完整梳理大模型测试全体系知识，涵盖测试核心逻辑、评估维度、用例设计、自动化流程、线上运维全链路内容。