首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
AI测试工程师阿花
掘友等级
专注AI测试与大模型质量保障,分享LLM测试方法论、Transformer原理与实战经验。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
AI测试工程师阿花
7小时前
关注
LLM安全评测体系-Prompt 注入攻击用例生成工具(Python+CSV + 配置分离)
一、背景与价值 Prompt 注入是 AI 系统最高发安全漏洞,据北大万小军团队研究: 普通违规提问拦截率>90% 精心构造的注入攻击绕过率可达 60%+ 对话系统 70%...
0
评论
分享
AI测试工程师阿花
6天前
关注
LLM评测中复杂任务拆解4步法(多轮对话评测)
一、为什么必须进行复杂任务拆解? 在大模型多轮对话评测中,如果不做任务拆解,会出现三个不可避免的问题: 指令稀释效应多轮对话越长,模型对最初设定的规则、约束、角色记忆越弱,...
0
评论
分享
AI测试工程师阿花
11天前
关注
Prompt 迭代优化 4 步闭环法
一、核心目标 掌握从效果不稳定、存在 BadCase 的 Prompt,到稳定可用、可批量自动化评测的完整优化流程。完成:问题定位 → 根因分析 → 针对性优化 → A/B...
0
评论
分享
AI测试工程师阿花
11天前
关注
Few-shot 示例结构 + 思维链(CoT)学习笔记
一、思维链(CoT)简要说明 思维链(Chain-of-Thought,CoT)是一种提示工程方法,通过强制模型按固定步骤逐条推理、逐条校验,把原本黑盒的判断过程变成可查看...
0
评论
分享
AI测试工程师阿花
12天前
关注
Few-shot 提示工程 笔记
一、Few-shot 是什么(一句话看懂) 在 Prompt 里加入 2~6 条标准示例,告诉模型按什么标准判断、按什么格式输出,用于解决: 只给规则时输出格式混乱 判定标...
0
评论
分享
AI测试工程师阿花
13天前
关注
Token 机制 + 上下文管理 总结
一、Token 机制核心逻辑 Token 本质大模型处理文本的最小计算与计数单位,中文中 1 个汉字 ≈ 1.5~2 Token,所有输入输出(角色设定、用户问题、历史回复...
0
评论
分享
AI测试工程师阿花
14天前
关注
LLM 智能体 Prompt 工程设计规范与实战落地
一、Prompt 核心设计逻辑 1. 双层架构本质 智能体 Prompt 严格遵循 「系统规则层 + 用户交互层」 双层架构,是模型行为可控、输出可评测、流程可闭环的核心基...
0
评论
分享
AI测试工程师阿花
14天前
关注
Prompt 基础三要素,从入门到评测落地
Prompt 就是大模型任务的「需求文档 + 测试用例」,是所有 AI 评测工作的前提: 没有合格的 Prompt,模型输出就没有稳定的边界,你无法判断输出是否符合预期 指...
0
评论
分享
AI测试工程师阿花
15天前
关注
LLM测试通用标准用例库
参考框架说明 1. 框架与核心设计准则 HELM 框架是目前全球业界广泛认可的 LLM 通用评估标准,本用例库遵循其三大核心设计准则: 整体性原则:不单独测试模型的单一能力...
0
评论
分享
AI测试工程师阿花
16天前
关注
LLM BadCase自动化分析
一、什么是 LLM BadCase LLM BadCase 指用户发起请求后,模型输出结果不符合业务需求、功能预期、事实规范,或未遵守预设约束规则的异常案例。它是大模型质量...
0
评论
分享
AI测试工程师阿花
17天前
关注
LLM大语言模型自动化测试脚本(含容错 + 断点续跑 + 重试 + 图表 + HTML报告)
一、项目目录结构 二、依赖包(requirements.txt) 安装命令:pip install -r requirements.txt 三、Excel 模板(llm_t...
0
评论
分享
AI测试工程师阿花
18天前
关注
LLM 大语言模型测试方案通用模板
一、测试背景 随着大语言模型(LLM)技术在______(填写业务场景,如:企业内部知识服务、智能客服、内容创作、教育咨询)场景的落地应用,模型输出的准确性、安全性、稳定性...
0
评论
分享
AI测试工程师阿花
关注了
亚马逊云开发者
AI测试工程师阿花
18天前
关注
效率神器!Codex CLI 搭配 Superpowers技能,一键部署全流程
一、Superpowers 是什么,为什么好用 Superpowers 是 GitHub 上开源的 AI 增强技能库:https://github.com/obra/sup...
0
评论
分享
AI测试工程师阿花
20天前
关注
大模型测试核心知识点复盘
一、大模型测试与传统测试的核心区别 传统软件测试:针对固定逻辑代码,结果可复现、有明确预期,侧重功能流程校验。 大模型测试:测试对象为概率型生成式大模型,输出非唯一,更聚焦...
0
1
分享
AI测试工程师阿花
21天前
关注
从零到上线:基于 HuggingFace + Gradio 搭建 LLM 测试工具实战
一、项目背景 最近在学习大模型相关内容,越学越觉得:大模型看不见、摸不着,光靠想很难理解它的行为。需要一个可视化工具,方便自己观察生成效果、构造测试用例、练习 BadCas...
0
评论
分享
AI测试工程师阿花
23天前
关注
从零看懂 Transformer:大模型底层核心学习笔记
本文适合谁看 想入门大模型、搞懂底层逻辑的新手 想把大模型知识与自身岗位结合的技术同学 想从原理层定位大模型 BadCase 的测试同学 一、Transformer 到底是...
0
评论
分享
个人成就
文章被阅读
718
掘力值
153
关注了
1
关注者
1
收藏集
0
关注标签
5
加入于
2026-03-22