首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
AGI技巧
冬奇Lab
创建于2025-12-08
订阅专栏
Prompt 工程、代码审查、AI 辅助重构等
等 36 人订阅
共96篇文章
创建于2025-12-08
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Agent 系列(23):Web Agent——让 Agent 真正浏览网页
从零搭建一个能真正浏览网页的 Web Agent:DuckDuckGo 搜索 + 页面抓取 + LangGraph 执行图。重点讲三个工程 Guard
Agent 系列(22):Context Engineering 深度——三种上下文管理策略的量化对比
用 30 轮合成对话 + 4 个早期决策召回测试,量化对比三种上下文管理策略:Naive(全量历史)/ Sliding Window(截断)/ Rolling Summary(滚动摘要)。
Agent 系列(21):Harness 测试工程——45 个测试怎么设计,以及它发现了什么 bug
用三类测试(功能测试 19 个 / 对抗测试 17 个 / 混沌测试 9 个)验证第 20 篇的 Harness 包。重点分享两个测试驱动发现的真实 bug——两个注入检测正则漏洞
如何让 AI Skill 质量有据可查?Benchmark 驱动的评测体系设计
AI Skill 的质量管理,本质上和 ML 模型评估是同一个问题——需要固定基准、可比较的数字、执行与评分的严格分离。本文从概念设计层面完整梳理 Skill 与 Workflow 的评测体系
Agent 系列(20):Harness 实战——从单文件到生产级模块包
把 Article 19 的单文件 Harness 拆成可复用的 Python 包:registry / budget / sandbox / audit / rollback / harness
Skill 平台的五个深坑:企业 AI 能力体系的质量治理
当企业 AI 平台积累了几十上百个 Skill 之后,真正的问题才开始暴露:质量无保障、边界模糊、接口混乱、Token 管理各自为政、大量重复开发。本文剖析五个系统性问题的根因,以及对应的治理方向
Agent 系列(19):Harness 完整体系——8 层防护框架全景
从入门的五要素到完整的 8 层框架:最小权限、动作注册表、权限预算、执行沙箱、人工检查点、不可篡改审计日志、回滚协调器、威胁模型。四个对抗场景揭示三个反直觉结论:工具范围限制是软防御、预算在审批前扣除
真正的 AI-Native Workflow 是什么?——四个判断测试
大多数企业在推进 AI 提效时,本质上只是在用 AI 替代人做每一个步骤。这不是 AI-Native,这是 AI 平移。本文提出四个判断测试,帮你识别真正的 AI-Native Workflow
Agent 系列(18):成本与性能优化——省钱且更快
Agent 的成本大头在哪里?本文用四个对比实验覆盖核心优化策略:系统提示 Token 成本拆解(含 Prompt Caching 原理)、模型路由(直接 LLM vs 完整 Agent)等
Agent 系列(17):Harness Engineering——给自主 Agent 装上安全护栏
本文用实验覆盖 Harness Engineering 五要素:Action Space、Human Checkpoint、Execution Boundary、Audit Log、Rollback
Agent 系列(16):工具链设计——让 LLM 用对工具的五个原则
工具设计不是给人看的,是给 LLM 看的。本文用三个对比实验覆盖工具设计的核心原则:描述质量影响工具选择(但有反直觉的前提条件)、raise 异常 vs 返回错误字符串的实测差异、以及粗粒度 omni
AI Agent 找代码:多仓库多技术栈下的代码定位工程
企业级软件系统往往横跨十几个独立仓库、多种技术栈。当 AI Agent 收到一个任务时,第一步"找到正确的代码"就已经是个工程难题。本文系统梳理三个递进层次的挑战,以及结构化方案
每日一个开源项目 第124篇:last30days —— 洞察最近30天:跨越信息茧房的 AI Agent 搜索引擎
last30days 并不是另一个普通的搜索引擎。它是一个由 AI Agent 驱动的、基于真实用户互动(点赞、投赞成票、金钱下注)的洞察工具,能够跨越 Reddit、X、YouTube 等封闭平台
Agent 系列(15):Agent 记忆系统进阶——短期、长期、压缩,三层记忆架构
gent 的记忆不只是"存对话历史"。本文拆解三层记忆架构:短期记忆(MemorySaver 保持会话内上下文)、长期记忆(跨会话用户事实存储与注入)、历史压缩(token 守卫)。
Agent 系列(14):Agent 可观测性——追踪每一步决策,让黑盒变透明
Agent 的决策过程天然不透明:为什么它调了三次工具?延迟来自哪里?生产环境里它出错了怎么复现?本文用 LangChain BaseCallbackHandler 实现三种可观测性模式
Agent 系列(13):Agent 安全与防护——提示词注入、工具滥用、数据泄露怎么防
Agent 的攻击面比普通 LLM 大得多:提示词注入可以绕过角色限制,工具参数可以注入代码,输出可以意外泄露敏感数据。本文用三个可运行 Demo 覆盖三条攻击链进行实测
Agent 系列(12):Agent 评估框架——怎么知道你的 Agent 到底好不好
Agent 不是普通函数,传统软件测试不够用。本文拆解 Agent 评估的三个维度:能力(工具调用准确率 + 任务完成率)、效率(步骤数 + Token 消耗 + 延迟)、鲁棒性(边缘用例 + 对抗
Agent 系列(11):A2A 协议——Agent 与 Agent 如何协作
深入解析 A2A(Agent-to-Agent)协议的定位与实现——它解决的不是 Agent 调工具,而是 Agent 委托给 Agent。包含三个可运行 Demo
Agent 系列(10):MCP 协议——工具生态的标准化接入
深入解析 Model Context Protocol(MCP)解决的核心问题:工具生态的标准化。包含三个可运行 Demo来对比和解析三种工具调用方法的优劣
Agent 系列(9):多 Agent 架构设计模式——Supervisor 与 Pipeline
深度解析多 Agent 的两种核心架构模式:Supervisor(LLM 分类 + 确定性路由)与 Pipeline(固定线性链)。包含三个可运行的 LangGraph Demo,实测对比效果
下一页