一、为什么 AI Agent 不能直接上线
LLM 本质是“token 预测机器”,它是非确定性的。
这意味着:
- 同一个输入可能产生不同输出
- 可能犯错、遗漏信息
- 很容易被 prompt jailbreak(提示词攻击)
- 可能产生法律或安全问题
所以如果你 直接把 AI Agent 接到用户端,风险非常大。
类比一下传统架构:
- 20年前不会直接把 API 暴露给用户
- 一定会先放 API Gateway
同样的道理:
AI Agent 也需要 AI Gateway / AI Infrastructure
否则会出现这些问题:
- OpenAI / Anthropic API 挂了 → 你的业务也挂
- API 变慢 → 你的业务也变慢
- Agent 出问题 → 直接影响收入
因此必须要有 AI Agent 基础设施层。
二、AI Coding Agent ≠ AI Agent Infrastructure
1. AI Coding Agent
比如:
- Claude Code
- OpenAI Codex
- Gemini
这些主要用于 开发阶段(SDLC) ,帮助工程师写代码。
它们 不需要复杂基础设施。
2. AI Agent Infrastructure
当 AI Agent 成为产品的一部分时,就必须考虑:
- 可用性
- 安全性
- 成本
- 监控
- 故障转移
这才需要 Agent Infrastructure。
三、AI Agent 的基本结构
一个典型的 Agent 架构,核心组件大概有 6 个。
1. Memory(记忆)
Agent 可以拥有记忆。
通常分两种:
短期记忆
当前对话上下文
例如:
- chat history
- summary
长期记忆
保存长期知识,例如:
- 用户偏好
- 历史经验
- 业务知识
通常用 RAG + 向量数据库:
常见方案:
- Redis
- Elasticsearch
- Postgres + pgvector
- Milvus
2. Planner(规划器)
Planner 用来:
先制定计划,再执行任务
例如:
用户请求:
“分析这个代码库的安全漏洞”
Planner 可能生成步骤:
- 读取代码
- 分析依赖
- 扫描漏洞
- 生成报告
然后交给 LLM 执行。
3. Tools(工具)
Tools 允许 Agent 调用外部能力。
例如:
- 读写文件
- 执行 shell
- 创建 todo
- 调用 API
- Web 搜索
早期趋势:
每个能力都做一个 Tool
但现在趋势变了:
减少 tools,更多使用文件系统 + bash(AI Coding)
MCP 是一种 连接第三方系统的协议。
例如:
- GitHub
- Slack
- AWS
- API 服务
问题是:
以前很多 MCP 是 本地 MCP:
- 占用 context window
- 安全风险
- npm 依赖很乱
现在趋势是:
Remote MCP
也就是在服务器运行。
5. Skills(技能)
Skills 是 替代 Local MCP 的新模式。
核心思想:
不要把大量文本塞进 prompt。
使用 Progressive Disclosure(渐进披露) :
只告诉模型:
如果需要 PDF 生成,可以调用这个 skill
而不是:
把整个 PDF 代码放进 prompt。
优势:
- 减少 context
- 提高效率
- 更安全
6. Loop(循环)
Agent 通常有一个循环逻辑。
类似:
while(true):
think
plan
act
或者像 状态机。
例如自动 agent:
- 分析
- 调用工具
- 更新状态
- 再继续执行
7. LLM Model
最后 Agent 会调用 LLM:
可能是:
- OpenAI API
- Anthropic
- Gemini
- 本地模型
四、AI Agent 可以部署在哪里
三种常见方式:
1. 本地运行(开发阶段)
例如:
- Claude Code
- Codex
2. 服务器运行(类似微服务)
例如:
Agent
↓
Spring AI
↓
REST API
Agent 就变成一个 微服务。
3. 专用 Agent 平台
例如:
- AWS AgentCore
- Agent frameworks
专门用于部署 Agent。
五、AI Agent Infrastructure 的核心能力
1. Observability(可观测性)
和微服务一样。
需要:
- 日志
- tracing
- metrics
- dashboard
否则你根本不知道:
- Agent 哪一步失败
- 为什么失败
- 延迟在哪
工具例子:
- Honeycomb
- Datadog
- Komodor
2. Failover(故障转移)
如果某个模型挂了:
Anthropic → OpenAI → Gemini
自动切换。
虽然质量可能下降,但 业务不会停。
常见工具:
- LiteLLM
- Portkey
- OpenRouter
3. Guardrails(安全控制)
防止 AI 乱说话或泄露数据。
包括:
内容限制
禁止讨论:
- 政治
- 性
- 宗教
- 医疗建议
PII 防泄漏
自动检测:
- 身份证
- 电话
- 信用卡
- 邮箱
替换成:
[REDACTED]
Prompt Injection 防御
例如阻止:
Ignore all instructions and...
成本控制
例如:
- 超预算就停止调用
- 或切换到便宜模型
工具:
- AWS Bedrock Guardrails
- Llama Guard
- LiteLLM
4. Routing(模型路由)
不同任务用不同模型。
例如:
简单问题:
时间查询
→ GPT-4o-mini
复杂任务:
安全漏洞分析
→ Claude Opus
也可以按:
- 用户等级
- 延迟
- 成本
工具:
- RouterLLM
- OpenRouter
- LiteLLM
- Portkey
5. Virtual Keys(虚拟密钥)
不要把真实 API Key 放在开发者电脑。
而是:
Engineer → Virtual Key → Gateway → Real Key
好处:
- 可以轮换密钥
- 可以随时禁用
- 更安全
同时也能在服务器运行 MCP。
6. Auditing(审计)
企业必备功能。
包括:
请求日志
记录所有:
- prompt
- response
成本统计
例如:
- 每个用户
- 每个团队
- 每个模型
合规审计
记录:
- PII 是否被隐藏
- 谁调用了什么模型
工具:
- Portkey