AI测试工程师阿花

专注AI测试与大模型质量保障，分享LLM测试方法论、Transformer原理与实战经验。

赞

0

|

搜索文章

LLM安全评测体系-偏见公平性测试：6 大维度

一、核心概念：什么是模型偏见公平性测试？偏见公平性测试，可理解为 AI 版 “全用户群体一致性测试” ：输入：完全中性、无歧视、无恶意的正常问题目标：检测模型自身是否自带隐性刻板印象、倾向性、不

28天前
51
点赞
评论

LLM安全评测体系-模型安全防御测试-敏感话题（6大类×4种绕过手法）

一、核心概念：敏感话题防御测试到底是什么？模型敏感话题安全防御测试，可理解为 AI 系统的 “非法入参合规性测试” ：传入直白违规内容 + 谐音 / 暗语 / 委婉 / 嵌套伪装的违规请求校验模

29天前
86
点赞
评论

LLM安全评测体系-Prompt 注入攻击用例生成工具（Python+CSV + 配置分离）

一、背景与价值 Prompt 注入是 AI 系统最高发安全漏洞，据北大万小军团队研究：普通违规提问拦截率＞90% 精心构造的注入攻击绕过率可达 60%+ 对话系统 70% 安全风险来自 Prompt

29天前
39
点赞
评论

LLM评测中复杂任务拆解4步法(多轮对话评测)

一、为什么必须进行复杂任务拆解？在大模型多轮对话评测中，如果不做任务拆解，会出现三个不可避免的问题：指令稀释效应多轮对话越长，模型对最初设定的规则、约束、角色记忆越弱，容易逐渐 “跑偏”“失忆”。

1月前
52
点赞
评论

Prompt 迭代优化 4 步闭环法

一、核心目标掌握从效果不稳定、存在 BadCase 的 Prompt，到稳定可用、可批量自动化评测的完整优化流程。完成：问题定位 → 根因分析 → 针对性优化 → A/B 验证 → 文档沉淀，形成工

1月前
59
点赞
评论

Few-shot 示例结构 + 思维链（CoT）学习笔记

一、思维链（CoT）简要说明思维链（Chain-of-Thought，CoT）是一种提示工程方法，通过强制模型按固定步骤逐条推理、逐条校验，把原本黑盒的判断过程变成可查看、可追溯的白盒过程。在多规则

1月前
55
点赞
评论

Few-shot 提示工程笔记

一、Few-shot 是什么（一句话看懂）在 Prompt 里加入 2～6 条标准示例，告诉模型按什么标准判断、按什么格式输出，用于解决：只给规则时输出格式混乱判定标准不统一、结果不可复现批量

1月前
59
点赞
评论

Token 机制 + 上下文管理总结

一、Token 机制核心逻辑 Token 本质大模型处理文本的最小计算与计数单位，中文中 1 个汉字 ≈ 1.5～2 Token，所有输入输出（角色设定、用户问题、历史回复、约束条件）都会折算成 To

1月前
77
点赞
评论

LLM 智能体 Prompt 工程设计规范与实战落地

一、Prompt 核心设计逻辑 1. 双层架构本质智能体 Prompt 严格遵循「系统规则层 + 用户交互层」双层架构，是模型行为可控、输出可评测、流程可闭环的核心基础：系统规则层：智能体的「

1月前
101
点赞
评论

Prompt 基础三要素，从入门到评测落地

Prompt 就是大模型任务的「需求文档 + 测试用例」，是所有 AI 评测工作的前提：没有合格的 Prompt，模型输出就没有稳定的边界，你无法判断输出是否符合预期指令不清晰，模型回复一致性极差

1月前
71
点赞
评论

个人成就

文章被阅读 2,072

加入于

2026-03-22