第一章:Agent 基础概念与架构
1.1 什么是 AI Agent?
AI Agent(智能代理)是一个能够自主感知环境、做出决策、执行行动的 AI 系统。
与普通 AI 应用的区别
| 特性 | 普通 AI 应用 | AI Agent |
|---|---|---|
| 交互方式 | 单次问答 | 多轮自主执行 |
| 工具使用 | 无 | 可调用外部工具 |
| 记忆 | 无状态 | 有长期记忆 |
| 目标 | 回答问题 | 完成任务 |
| 自主性 | 被动响应 | 主动规划执行 |
核心特征
- 自主性 - 不需要每步人工干预
- 感知能力 - 理解环境和上下文
- 决策能力 - 选择最优行动路径
- 执行能力 - 调用工具完成任务
- 学习能力 - 从反馈中改进
1.2 Agent 架构设计
基础架构
┌─────────────────────────────────────────────┐
│ Agent │
├─────────────────────────────────────────────┤
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 感知层 │→│ 决策层 │→│ 执行层 │ │
│ └─────────┘ └─────────┘ └─────────┘ │
│ ↑ ↑ ↓ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 记忆层 │←│ 规划层 │←│ 工具层 │ │
│ └─────────┘ └─────────┘ └─────────┘ │
└─────────────────────────────────────────────┘
五层架构详解
1. 感知层(Perception)
- 接收用户输入
- 解析任务目标
- 提取关键信息
2. 记忆层(Memory)
- 短期记忆:当前对话上下文
- 长期记忆:持久化存储的经验、知识
- 工作记忆:当前任务状态
3. 规划层(Planning)
- 任务分解
- 步骤排序
- 目标管理
4. 决策层(Decision)
- 选择下一步行动
- 评估工具调用
- 处理异常情况
5. 执行层(Execution)
- 调用工具
- 与外部系统交互
- 返回执行结果
1.3 主流 Agent 框架对比
| 框架 | 语言 | 特点 | 适用场景 |
|---|---|---|---|
| LangChain | Python/JS | 生态丰富,组件多 | 通用 Agent 开发 |
| AutoGPT | Python | 自主性强,自动化 | 自动化任务 |
| CrewAI | Python | 多 Agent 协作 | 团队协作场景 |
| OpenClaw | TypeScript | 轻量,工具化 | 个人助手 |
| AutoGen | Python | 微软出品,多 Agent | 企业级应用 |
选择建议
- 快速原型:LangChain
- 多 Agent 协作:CrewAI / AutoGen
- 个人助手:OpenClaw
- 自动化任务:AutoGPT
1.4 开发一个最简单的 Agent
Python 示例(使用 LangChain)
from langchain.agents import initialize_agent, Tool
from langchain.llms import OpenAI
# 定义工具
tools = [
Tool(
name="Calculator",
func=lambda x: eval(x),
description="用于数学计算"
)
]
# 初始化 LLM
llm = OpenAI(temperature=0)
# 创建 Agent
agent = initialize_agent(tools, llm, agent="zero-shot-react-description")
# 运行
result = agent.run("计算 123 * 456")
print(result)
TypeScript 示例
import { Agent } from "langchain/agents";
const agent = new Agent({
llm: new OpenAI(),
tools: [
{
name: "calculator",
description: "数学计算",
execute: (input) => eval(input)
}
]
});
const result = await agent.call("计算 123 * 456");
1.5 本节小结
- Agent 是能自主完成任务的 AI 系统
- 核心架构:感知 → 记忆 → 规划 → 决策 → 执行
- 根据场景选择合适的框架
- 最简 Agent 只需:LLM + 工具定义
下一章预告
第二章将深入讲解大模型 API 接入实战,包括:
- OpenAI API 完整指南
- 国内大模型接入(智谱、通义千问、Kimi)
- 流式输出处理
- 错误处理与重试策略