首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
AI测试工程师阿花
掘友等级
专注AI测试与大模型质量保障,分享LLM测试方法论、Transformer原理与实战经验。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
LLM安全评测体系-偏见公平性测试:6 大维度
一、核心概念:什么是模型偏见公平性测试? 偏见公平性测试,可理解为 AI 版 “全用户群体一致性测试” : 输入:完全中性、无歧视、无恶意的正常问题 目标:检测模型自身是否自带隐性刻板印象、倾向性、不
LLM安全评测体系-模型安全防御测试-敏感话题(6大类×4种绕过手法)
一、核心概念:敏感话题防御测试到底是什么? 模型敏感话题安全防御测试,可理解为 AI 系统的 “非法入参合规性测试” : 传入直白违规内容 + 谐音 / 暗语 / 委婉 / 嵌套伪装的违规请求 校验模
LLM安全评测体系-Prompt 注入攻击用例生成工具(Python+CSV + 配置分离)
一、背景与价值 Prompt 注入是 AI 系统最高发安全漏洞,据北大万小军团队研究: 普通违规提问拦截率>90% 精心构造的注入攻击绕过率可达 60%+ 对话系统 70% 安全风险来自 Prompt
LLM评测中复杂任务拆解4步法(多轮对话评测)
一、为什么必须进行复杂任务拆解? 在大模型多轮对话评测中,如果不做任务拆解,会出现三个不可避免的问题: 指令稀释效应多轮对话越长,模型对最初设定的规则、约束、角色记忆越弱,容易逐渐 “跑偏”“失忆”。
Prompt 迭代优化 4 步闭环法
一、核心目标 掌握从效果不稳定、存在 BadCase 的 Prompt,到稳定可用、可批量自动化评测的完整优化流程。完成:问题定位 → 根因分析 → 针对性优化 → A/B 验证 → 文档沉淀,形成工
Few-shot 示例结构 + 思维链(CoT)学习笔记
一、思维链(CoT)简要说明 思维链(Chain-of-Thought,CoT)是一种提示工程方法,通过强制模型按固定步骤逐条推理、逐条校验,把原本黑盒的判断过程变成可查看、可追溯的白盒过程。在多规则
Few-shot 提示工程 笔记
一、Few-shot 是什么(一句话看懂) 在 Prompt 里加入 2~6 条标准示例,告诉模型按什么标准判断、按什么格式输出,用于解决: 只给规则时输出格式混乱 判定标准不统一、结果不可复现 批量
Token 机制 + 上下文管理 总结
一、Token 机制核心逻辑 Token 本质大模型处理文本的最小计算与计数单位,中文中 1 个汉字 ≈ 1.5~2 Token,所有输入输出(角色设定、用户问题、历史回复、约束条件)都会折算成 To
LLM 智能体 Prompt 工程设计规范与实战落地
一、Prompt 核心设计逻辑 1. 双层架构本质 智能体 Prompt 严格遵循 「系统规则层 + 用户交互层」 双层架构,是模型行为可控、输出可评测、流程可闭环的核心基础: 系统规则层:智能体的「
Prompt 基础三要素,从入门到评测落地
Prompt 就是大模型任务的「需求文档 + 测试用例」,是所有 AI 评测工作的前提: 没有合格的 Prompt,模型输出就没有稳定的边界,你无法判断输出是否符合预期 指令不清晰,模型回复一致性极差
下一页
个人成就
文章被阅读
2,072
掘力值
187
关注了
1
关注者
2
收藏集
0
关注标签
5
加入于
2026-03-22