讨论：什么是 AI Agent Infra？AI Agent 用于生产环境需基础设施支持，包括记忆、规划、工具、循环等结

未命名文件.png

一、为什么 AI Agent 不能直接上线

LLM 本质是“token 预测机器”，它是非确定性的。

这意味着：

同一个输入可能产生不同输出
可能犯错、遗漏信息
很容易被 prompt jailbreak（提示词攻击）
可能产生法律或安全问题

所以如果你 直接把 AI Agent 接到用户端，风险非常大。

类比一下传统架构：

20年前不会直接把 API 暴露给用户
一定会先放 API Gateway

同样的道理：

AI Agent 也需要 AI Gateway / AI Infrastructure

否则会出现这些问题：

OpenAI / Anthropic API 挂了 → 你的业务也挂
API 变慢 → 你的业务也变慢
Agent 出问题 → 直接影响收入

因此必须要有 AI Agent 基础设施层。

二、AI Coding Agent ≠ AI Agent Infrastructure

1. AI Coding Agent

比如：

Claude Code
OpenAI Codex
Gemini

这些主要用于 开发阶段（SDLC） ，帮助工程师写代码。

它们 不需要复杂基础设施。

2. AI Agent Infrastructure

当 AI Agent 成为产品的一部分时，就必须考虑：

可用性
安全性
成本
监控
故障转移

这才需要 Agent Infrastructure。

三、AI Agent 的基本结构

一个典型的 Agent 架构，核心组件大概有 6 个。

1. Memory（记忆）

Agent 可以拥有记忆。

通常分两种：

短期记忆

当前对话上下文

例如：

chat history
summary

长期记忆

保存长期知识，例如：

用户偏好
历史经验
业务知识

通常用 RAG + 向量数据库：

常见方案：

Redis
Elasticsearch
Postgres + pgvector
Milvus

2. Planner（规划器）

Planner 用来：

先制定计划，再执行任务

例如：

用户请求：

“分析这个代码库的安全漏洞”

Planner 可能生成步骤：

读取代码
分析依赖
扫描漏洞
生成报告

然后交给 LLM 执行。

3. Tools（工具）

Tools 允许 Agent 调用外部能力。

例如：

读写文件
执行 shell
创建 todo
调用 API
Web 搜索

早期趋势：

每个能力都做一个 Tool

但现在趋势变了：

减少 tools，更多使用文件系统 + bash（AI Coding）

MCP 是一种 连接第三方系统的协议。

例如：

GitHub
Slack
AWS
API 服务

问题是：

以前很多 MCP 是 本地 MCP：

占用 context window
安全风险
npm 依赖很乱

现在趋势是：

Remote MCP

也就是在服务器运行。

5. Skills（技能）

Skills 是 替代 Local MCP 的新模式。

核心思想：

不要把大量文本塞进 prompt。

使用 Progressive Disclosure（渐进披露） ：

只告诉模型：

如果需要 PDF 生成，可以调用这个 skill

而不是：

把整个 PDF 代码放进 prompt。

优势：

减少 context
提高效率
更安全

6. Loop（循环）

Agent 通常有一个循环逻辑。

类似：

while(true):
    think
    plan
    act

或者像 状态机。

例如自动 agent：

分析
调用工具
更新状态
再继续执行

7. LLM Model

最后 Agent 会调用 LLM：

可能是：

OpenAI API
Anthropic
Gemini
本地模型

四、AI Agent 可以部署在哪里

三种常见方式：

1. 本地运行（开发阶段）

例如：

Claude Code
Codex

2. 服务器运行（类似微服务）

例如：

Agent
   ↓
Spring AI
   ↓
REST API

Agent 就变成一个 微服务。

3. 专用 Agent 平台

例如：

AWS AgentCore
Agent frameworks

专门用于部署 Agent。

五、AI Agent Infrastructure 的核心能力

1. Observability（可观测性）

和微服务一样。

需要：

日志
tracing
metrics
dashboard

否则你根本不知道：

Agent 哪一步失败
为什么失败
延迟在哪

工具例子：

Honeycomb
Datadog
Komodor

2. Failover（故障转移）

如果某个模型挂了：

Anthropic → OpenAI → Gemini

自动切换。

虽然质量可能下降，但 业务不会停。

常见工具：

LiteLLM
Portkey
OpenRouter

3. Guardrails（安全控制）

防止 AI 乱说话或泄露数据。

包括：

内容限制

禁止讨论：

政治
性
宗教
医疗建议

PII 防泄漏

自动检测：

身份证
电话
信用卡
邮箱

替换成：

[REDACTED]

Prompt Injection 防御

例如阻止：

Ignore all instructions and...

成本控制

例如：

超预算就停止调用
或切换到便宜模型

工具：

AWS Bedrock Guardrails
Llama Guard
LiteLLM

4. Routing（模型路由）

不同任务用不同模型。

例如：

简单问题：

时间查询
→ GPT-4o-mini

复杂任务：

安全漏洞分析
→ Claude Opus

也可以按：

用户等级
延迟
成本

工具：

RouterLLM
OpenRouter
LiteLLM
Portkey

5. Virtual Keys（虚拟密钥）

不要把真实 API Key 放在开发者电脑。

而是：

Engineer → Virtual Key → Gateway → Real Key

好处：

可以轮换密钥
可以随时禁用
更安全

同时也能在服务器运行 MCP。

6. Auditing（审计）

企业必备功能。

包括：

请求日志

记录所有：

prompt
response

成本统计

例如：

每个用户
每个团队
每个模型

合规审计

记录：

PII 是否被隐藏
谁调用了什么模型

工具：

Portkey