讨论:什么是 AI Agent Infra?

11 阅读4分钟

未命名文件.png

一、为什么 AI Agent 不能直接上线

LLM 本质是“token 预测机器”,它是非确定性的。

这意味着:

  • 同一个输入可能产生不同输出
  • 可能犯错、遗漏信息
  • 很容易被 prompt jailbreak(提示词攻击)
  • 可能产生法律或安全问题

所以如果你 直接把 AI Agent 接到用户端,风险非常大。

类比一下传统架构:

  • 20年前不会直接把 API 暴露给用户
  • 一定会先放 API Gateway

同样的道理:

AI Agent 也需要 AI Gateway / AI Infrastructure

否则会出现这些问题:

  • OpenAI / Anthropic API 挂了 → 你的业务也挂
  • API 变慢 → 你的业务也变慢
  • Agent 出问题 → 直接影响收入

因此必须要有 AI Agent 基础设施层

二、AI Coding Agent ≠ AI Agent Infrastructure

1. AI Coding Agent

比如:

  • Claude Code
  • OpenAI Codex
  • Gemini

这些主要用于 开发阶段(SDLC) ,帮助工程师写代码。

它们 不需要复杂基础设施

2. AI Agent Infrastructure

当 AI Agent 成为产品的一部分时,就必须考虑:

  • 可用性
  • 安全性
  • 成本
  • 监控
  • 故障转移

这才需要 Agent Infrastructure

三、AI Agent 的基本结构

一个典型的 Agent 架构,核心组件大概有 6 个。

1. Memory(记忆)

Agent 可以拥有记忆。

通常分两种:

短期记忆

当前对话上下文

例如:

  • chat history
  • summary
长期记忆

保存长期知识,例如:

  • 用户偏好
  • 历史经验
  • 业务知识

通常用 RAG + 向量数据库

常见方案:

  • Redis
  • Elasticsearch
  • Postgres + pgvector
  • Milvus

2. Planner(规划器)

Planner 用来:

先制定计划,再执行任务

例如:

用户请求:

“分析这个代码库的安全漏洞”

Planner 可能生成步骤:

  1. 读取代码
  2. 分析依赖
  3. 扫描漏洞
  4. 生成报告

然后交给 LLM 执行。

3. Tools(工具)

Tools 允许 Agent 调用外部能力

例如:

  • 读写文件
  • 执行 shell
  • 创建 todo
  • 调用 API
  • Web 搜索

早期趋势:

每个能力都做一个 Tool

但现在趋势变了:

减少 tools,更多使用文件系统 + bash(AI Coding)

MCP 是一种 连接第三方系统的协议

例如:

  • GitHub
  • Slack
  • AWS
  • API 服务

问题是:

以前很多 MCP 是 本地 MCP

  • 占用 context window
  • 安全风险
  • npm 依赖很乱

现在趋势是:

Remote MCP

也就是在服务器运行。

5. Skills(技能)

Skills 是 替代 Local MCP 的新模式

核心思想:

不要把大量文本塞进 prompt。

使用 Progressive Disclosure(渐进披露)

只告诉模型:

如果需要 PDF 生成,可以调用这个 skill

而不是:

把整个 PDF 代码放进 prompt。

优势:

  • 减少 context
  • 提高效率
  • 更安全

6. Loop(循环)

Agent 通常有一个循环逻辑。

类似:

while(true):
    think
    plan
    act

或者像 状态机

例如自动 agent:

  • 分析
  • 调用工具
  • 更新状态
  • 再继续执行

7. LLM Model

最后 Agent 会调用 LLM:

可能是:

  • OpenAI API
  • Anthropic
  • Gemini
  • 本地模型

四、AI Agent 可以部署在哪里

三种常见方式:

1. 本地运行(开发阶段)

例如:

  • Claude Code
  • Codex

2. 服务器运行(类似微服务)

例如:

Agent
   ↓
Spring AI
   ↓
REST API

Agent 就变成一个 微服务

3. 专用 Agent 平台

例如:

  • AWS AgentCore
  • Agent frameworks

专门用于部署 Agent。

五、AI Agent Infrastructure 的核心能力

1. Observability(可观测性)

和微服务一样。

需要:

  • 日志
  • tracing
  • metrics
  • dashboard

否则你根本不知道:

  • Agent 哪一步失败
  • 为什么失败
  • 延迟在哪

工具例子:

  • Honeycomb
  • Datadog
  • Komodor

2. Failover(故障转移)

如果某个模型挂了:

Anthropic → OpenAI → Gemini

自动切换。

虽然质量可能下降,但 业务不会停

常见工具:

  • LiteLLM
  • Portkey
  • OpenRouter

3. Guardrails(安全控制)

防止 AI 乱说话或泄露数据。

包括:

内容限制

禁止讨论:

  • 政治
  • 宗教
  • 医疗建议
PII 防泄漏

自动检测:

  • 身份证
  • 电话
  • 信用卡
  • 邮箱

替换成:

[REDACTED]
Prompt Injection 防御

例如阻止:

Ignore all instructions and...

成本控制

例如:

  • 超预算就停止调用
  • 或切换到便宜模型

工具:

  • AWS Bedrock Guardrails
  • Llama Guard
  • LiteLLM

4. Routing(模型路由)

不同任务用不同模型。

例如:

简单问题:

时间查询
→ GPT-4o-mini

复杂任务:

安全漏洞分析
→ Claude Opus

也可以按:

  • 用户等级
  • 延迟
  • 成本

工具:

  • RouterLLM
  • OpenRouter
  • LiteLLM
  • Portkey

5. Virtual Keys(虚拟密钥)

不要把真实 API Key 放在开发者电脑。

而是:

Engineer → Virtual Key → Gateway → Real Key

好处:

  • 可以轮换密钥
  • 可以随时禁用
  • 更安全

同时也能在服务器运行 MCP。

6. Auditing(审计)

企业必备功能。

包括:

请求日志

记录所有:

  • prompt
  • response

成本统计

例如:

  • 每个用户
  • 每个团队
  • 每个模型

合规审计

记录:

  • PII 是否被隐藏
  • 谁调用了什么模型

工具:

  • Portkey