AGI技巧

AGI技巧

AGI技巧

Prompt 工程、代码审查、AI 辅助重构等

等 36 人订阅共96篇文章创建于2025-12-08

Agent 系列（23）：Web Agent——让 Agent 真正浏览网页

从零搭建一个能真正浏览网页的 Web Agent：DuckDuckGo 搜索 + 页面抓取 + LangGraph 执行图。重点讲三个工程 Guard

17小时前
79
1
评论

Agent 系列（23）：Web Agent——让 Agent 真正浏览网页

Agent 系列（22）：Context Engineering 深度——三种上下文管理策略的量化对比

用 30 轮合成对话 + 4 个早期决策召回测试，量化对比三种上下文管理策略：Naive（全量历史）/ Sliding Window（截断）/ Rolling Summary（滚动摘要）。

1天前
79
1
评论

Agent 系列（22）：Context Engineering 深度——三种上下文管理策略的量化对比

Agent 系列（21）：Harness 测试工程——45 个测试怎么设计，以及它发现了什么 bug

用三类测试（功能测试 19 个 / 对抗测试 17 个 / 混沌测试 9 个）验证第 20 篇的 Harness 包。重点分享两个测试驱动发现的真实 bug——两个注入检测正则漏洞

2天前
86
点赞
评论

Agent 系列（21）：Harness 测试工程——45 个测试怎么设计，以及它发现了什么 bug

如何让 AI Skill 质量有据可查？Benchmark 驱动的评测体系设计

AI Skill 的质量管理，本质上和 ML 模型评估是同一个问题——需要固定基准、可比较的数字、执行与评分的严格分离。本文从概念设计层面完整梳理 Skill 与 Workflow 的评测体系

4天前
95
点赞
评论

如何让 AI Skill 质量有据可查？Benchmark 驱动的评测体系设计

Agent 系列（20）：Harness 实战——从单文件到生产级模块包

把 Article 19 的单文件 Harness 拆成可复用的 Python 包：registry / budget / sandbox / audit / rollback / harness

6天前
98
点赞
评论

Agent 系列（20）：Harness 实战——从单文件到生产级模块包

Skill 平台的五个深坑：企业 AI 能力体系的质量治理

当企业 AI 平台积累了几十上百个 Skill 之后，真正的问题才开始暴露：质量无保障、边界模糊、接口混乱、Token 管理各自为政、大量重复开发。本文剖析五个系统性问题的根因，以及对应的治理方向

6天前
93
点赞
评论

Skill 平台的五个深坑：企业 AI 能力体系的质量治理

Agent 系列（19）：Harness 完整体系——8 层防护框架全景

从入门的五要素到完整的 8 层框架：最小权限、动作注册表、权限预算、执行沙箱、人工检查点、不可篡改审计日志、回滚协调器、威胁模型。四个对抗场景揭示三个反直觉结论：工具范围限制是软防御、预算在审批前扣除

7天前
98
点赞
评论

Agent 系列（19）：Harness 完整体系——8 层防护框架全景

真正的 AI-Native Workflow 是什么？——四个判断测试

大多数企业在推进 AI 提效时，本质上只是在用 AI 替代人做每一个步骤。这不是 AI-Native，这是 AI 平移。本文提出四个判断测试，帮你识别真正的 AI-Native Workflow

8天前
124
点赞
评论

真正的 AI-Native Workflow 是什么？——四个判断测试

Agent 系列（18）：成本与性能优化——省钱且更快

Agent 的成本大头在哪里？本文用四个对比实验覆盖核心优化策略：系统提示 Token 成本拆解（含 Prompt Caching 原理）、模型路由（直接 LLM vs 完整 Agent）等

9天前
123
点赞
评论

Agent 系列（18）：成本与性能优化——省钱且更快

Agent 系列（17）：Harness Engineering——给自主 Agent 装上安全护栏

本文用实验覆盖 Harness Engineering 五要素：Action Space、Human Checkpoint、Execution Boundary、Audit Log、Rollback

10天前
107
点赞
评论

Agent 系列（17）：Harness Engineering——给自主 Agent 装上安全护栏

Agent 系列（16）：工具链设计——让 LLM 用对工具的五个原则

工具设计不是给人看的，是给 LLM 看的。本文用三个对比实验覆盖工具设计的核心原则：描述质量影响工具选择（但有反直觉的前提条件）、raise 异常 vs 返回错误字符串的实测差异、以及粗粒度 omni

11天前
133
2
评论

Agent 系列（16）：工具链设计——让 LLM 用对工具的五个原则

AI Agent 找代码：多仓库多技术栈下的代码定位工程

企业级软件系统往往横跨十几个独立仓库、多种技术栈。当 AI Agent 收到一个任务时，第一步"找到正确的代码"就已经是个工程难题。本文系统梳理三个递进层次的挑战，以及结构化方案

13天前
85
点赞
评论

AI Agent 找代码：多仓库多技术栈下的代码定位工程

每日一个开源项目第124篇：last30days —— 洞察最近30天：跨越信息茧房的 AI Agent 搜索引擎

last30days 并不是另一个普通的搜索引擎。它是一个由 AI Agent 驱动的、基于真实用户互动（点赞、投赞成票、金钱下注）的洞察工具，能够跨越 Reddit、X、YouTube 等封闭平台

13天前
80
点赞
评论

每日一个开源项目第124篇：last30days —— 洞察最近30天：跨越信息茧房的 AI Agent 搜索引擎

Agent 系列（15）：Agent 记忆系统进阶——短期、长期、压缩，三层记忆架构

gent 的记忆不只是"存对话历史"。本文拆解三层记忆架构：短期记忆（MemorySaver 保持会话内上下文）、长期记忆（跨会话用户事实存储与注入）、历史压缩（token 守卫）。

13天前
73
点赞
评论

Agent 系列（15）：Agent 记忆系统进阶——短期、长期、压缩，三层记忆架构

Agent 系列（14）：Agent 可观测性——追踪每一步决策，让黑盒变透明

Agent 的决策过程天然不透明：为什么它调了三次工具？延迟来自哪里？生产环境里它出错了怎么复现？本文用 LangChain BaseCallbackHandler 实现三种可观测性模式

14天前
72
点赞
评论

Agent 系列（14）：Agent 可观测性——追踪每一步决策，让黑盒变透明

Agent 系列（13）：Agent 安全与防护——提示词注入、工具滥用、数据泄露怎么防

Agent 的攻击面比普通 LLM 大得多：提示词注入可以绕过角色限制，工具参数可以注入代码，输出可以意外泄露敏感数据。本文用三个可运行 Demo 覆盖三条攻击链进行实测

14天前
94
点赞
评论

Agent 系列（13）：Agent 安全与防护——提示词注入、工具滥用、数据泄露怎么防

Agent 系列（12）：Agent 评估框架——怎么知道你的 Agent 到底好不好

Agent 不是普通函数，传统软件测试不够用。本文拆解 Agent 评估的三个维度：能力（工具调用准确率 + 任务完成率）、效率（步骤数 + Token 消耗 + 延迟）、鲁棒性（边缘用例 + 对抗

15天前
121
点赞
评论

Agent 系列（12）：Agent 评估框架——怎么知道你的 Agent 到底好不好

Agent 系列（11）：A2A 协议——Agent 与 Agent 如何协作

深入解析 A2A（Agent-to-Agent）协议的定位与实现——它解决的不是 Agent 调工具，而是 Agent 委托给 Agent。包含三个可运行 Demo

16天前
159
1
评论

Agent 系列（11）：A2A 协议——Agent 与 Agent 如何协作

Agent 系列（10）：MCP 协议——工具生态的标准化接入

深入解析 Model Context Protocol（MCP）解决的核心问题：工具生态的标准化。包含三个可运行 Demo来对比和解析三种工具调用方法的优劣

17天前
189
点赞
评论

Agent 系列（10）：MCP 协议——工具生态的标准化接入

Agent 系列（9）：多 Agent 架构设计模式——Supervisor 与 Pipeline

深度解析多 Agent 的两种核心架构模式：Supervisor（LLM 分类 + 确定性路由）与 Pipeline（固定线性链）。包含三个可运行的 LangGraph Demo，实测对比效果

18天前
152
点赞
评论

Agent 系列（9）：多 Agent 架构设计模式——Supervisor 与 Pipeline