智能体(Agent)开发:大模型选型方案
面向 Agent 工程落地,从任务复杂度、模态、部署约束、成本、生态成熟度五个维度选择模型。
更新时间:2026-06-01。模型能力、上下文长度和 API 价格变化很快,本文只给工程选型口径;上线前必须以官方价格页和目标云区域实际报价复核。

0. 先给结论
0.1 默认推荐
| 场景 | 首选 | 备选 | 关键原因 |
|---|
| 海外通用 Agent / 产品原型 | GPT-5 / Claude Sonnet 4.6 | Gemini 2.5/3 Flash、GPT-5 mini | 工具调用、结构化输出、生态和稳定性强 |
| 复杂代码 / 长任务 Agent | Claude Sonnet 4.6 / Claude Opus 4.x | GPT-5 / GPT-5 Codex | 编码、代码库理解、多步任务表现稳定 |
| 数学、科研、强推理 | GPT-5 high / o3 / Claude Opus 4.x | DeepSeek-R1 / Qwen3-Max-Thinking | 推理能力优先,成本通常不是第一约束 |
| 国内 ToC / 成本敏感应用 | DeepSeek-V3/R1、Doubao、Qwen Plus/Max | MiniMax M2、Kimi K2、GLM-4.5/4.6 | 成本低、中文体验好、国内网络和合规友好 |
| 企业知识库 / 私有化 | Qwen3、GLM-4.5、DeepSeek、InternVL | Llama / Gemma / Phi | 开源可控,便于内网部署和微调 |
| 多模态文档 / 截图 / UI Agent | Gemini、Claude、GPT-5、Qwen-VL、GLM-4.5V | InternVL | 文档 OCR、图表理解、屏幕操作能力重要 |
| Voice Agent | GPT Realtime / Gemini Live | 豆包 Realtime、MiniMax、CosyVoice + ASR | 端到端语音延迟、打断、情绪和电话链路决定体验 |
| RAG 检索增强 | BGE-M3 / Qwen Embedding + bge-reranker / Qwen Reranker | OpenAI embedding、Voyage、Cohere | 召回和重排质量比单纯换生成模型更影响效果 |
0.2 一句话策略
- 先用强闭源模型把产品跑通:GPT-5、Claude、Gemini 适合验证复杂 Agent 的上限。
- 国内量大后做路由降本:DeepSeek、Qwen、Doubao、MiniMax、Kimi、GLM 通常能把大部分普通请求成本压低一个数量级。
- 私有化不是默认选项:只有数据合规、离线部署、稳定大流量或深度定制明确成立时,再承担 GPU、推理框架和运维成本。
- Agent 不要只看榜单:工具调用、JSON 稳定性、长上下文衰减、延迟、并发、重试成本,往往比单次 benchmark 更重要。
1. 模型分类总览
按 Agent 能力层分类
├── 1. 主模型 / Planner
│ ├── 通用旗舰:GPT-5、Claude Opus/Sonnet、Gemini Pro、Qwen Max、DeepSeek、GLM、Kimi
│ ├── 推理增强:o3、GPT-5 high、Claude Thinking、DeepSeek-R1、Qwen Thinking
│ └── 代码专项:Claude Code / Sonnet、GPT-5 Codex、Qwen Coder、DeepSeek Coder
│
├── 2. 执行与路由模型
│ ├── 快速模型:GPT-5 mini/nano、Gemini Flash、Claude Haiku、Qwen Turbo/Plus、Doubao Lite/Pro
│ └── 本地小模型:Qwen3 0.6B-14B、Phi、Gemma、MiniCPM
│
├── 3. 多模态模型
│ ├── 图文 / 文档 / 截图:GPT-5、Claude、Gemini、Qwen-VL、GLM-4.5V、InternVL
│ └── 实时全模态:GPT Realtime、Gemini Live、Qwen Omni、豆包 Realtime
│
├── 4. 内容生成模型
│ ├── 图像:GPT-Image、DALL·E、Imagen、Midjourney、Qwen-Image/妙笔、即梦、通义万相、Flux、SD
│ └── 视频:Veo、Runway、Kling、即梦、Hailuo、Vidu、HunyuanVideo、CogVideoX
│
└── 5. RAG 与语音配套
├── Embedding / Rerank:OpenAI、Voyage、Cohere、BGE、Qwen、Jina
├── ASR:Whisper、SenseVoice、Paraformer、火山、讯飞
└── TTS:OpenAI Audio、ElevenLabs、CosyVoice、豆包、MiniMax
2. 中美主流模型格局

2.1 海外模型
| 厂商 | 当前选型定位 | 代表模型 | 适合场景 | 注意点 |
|---|
| OpenAI | 通用能力、工具生态和 API 完整度最强之一 | GPT-5、GPT-5 mini/nano、o3、GPT Realtime、GPT Image | 通用 Agent、结构化输出、函数调用、语音、多模态产品 | 海外链路、合规和价格需评估;不同模型的 reasoning 开销差异大 |
| Anthropic | 代码、长任务、复杂 Agent 表现突出 | Claude Sonnet 4.6、Claude Opus 4.x、Claude Haiku 4.5 | 代码 Agent、复杂办公 Agent、长上下文任务 | Opus 成本高;部分 1M 上下文模型需按官方可用区域确认 |
| Google | 长上下文、多模态和性价比强 | Gemini Pro、Gemini Flash、Gemini Live、Imagen、Veo | 长文档、视频理解、低成本大流量、多模态 | AI Studio、Vertex、不同区域价格和配额不同 |
| xAI / Meta / Mistral 等 | 可作为生态补充 | Grok、Llama、Mistral | 特定开源、社交数据、欧洲部署等需求 | 国内可用性、企业支持和工具链成熟度需单独验证 |
2.2 中国模型
| 厂商 | 当前选型定位 | 代表模型 | 适合场景 | 注意点 |
|---|
| 阿里通义 | 国内综合能力、开源生态和企业云能力强 | Qwen3 / Qwen3.5、Qwen Max/Plus、Qwen-VL、Qwen Embedding/Reranker | 企业 Agent、中文 RAG、私有化、多模态 | 百炼有国内/国际/香港/欧盟等不同部署模式,价格不同 |
| DeepSeek | 极致性价比和推理模型影响力大 | DeepSeek-V3/V4、DeepSeek-R1 | 国内成本敏感、代码、推理、批处理 | 价格和并发策略变化快;需压测稳定性和峰值可用性 |
| 字节豆包 | 国内低价、高并发和产品化链路强 | Doubao Pro/Lite、Doubao Vision、豆包语音 | ToC、客服、内容生产、国内 Voice Agent | 模型命名和价格随火山引擎产品线变化较快 |
| 智谱 | 开源/政企/Agent 能力持续增强 | GLM-4.5/4.6、GLM-4.5V | 政企、私有化、Agentic Reasoning、代码 | 需按开源版和 API 版区分能力 |
| 月之暗面 | 长上下文和 Agentic 能力突出 | Kimi K2/K 系列 | 长文档、阅读、办公、低价 Agent | 老版本退役节奏要跟踪,避免绑定即将下线模型 |
| MiniMax | 低成本 Agent、语音、视频生态完整 | MiniMax M2/M2.x、Hailuo、T2A | Agent、角色对话、语音、视频生成 | 海内外平台和模型版本需区分 |
| 百度文心 / 讯飞星火 | 政企、行业和国产化生态 | ERNIE、Spark | 政务、教育、医疗、金融等行业项目 | 更适合已有云和行业生态客户 |
3. 文本模型选型

3.1 旗舰 API 模型对照
价格统一按「每 100 万 token」阅读;人民币价格建议上线前从对应云控制台导出,因为地域、缓存、Batch、阶梯价会改变实际成本。
| 层级 | 模型示例 | 典型价格区间(输入 / 输出) | 工程判断 |
|---|
| 海外旗舰 | GPT-5、Claude Opus、Gemini Pro | 约 1−15 / 10−75 | 用来做高价值复杂任务、评测基线、兜底模型 |
| 海外性价比 | Claude Sonnet、GPT-5 mini、Gemini Flash | 约 0.25−3 / 2−15 | 生产主力,适合工具调用和高并发 |
| 海外轻量 | GPT-5 nano、Claude Haiku、Flash Lite | 约 0.05−1 / 0.4−5 | 路由、分类、摘要、简单问答 |
| 国内旗舰 | Qwen Max、DeepSeek、Kimi、GLM、MiniMax | 约 0.1−1.5 / 0.3−6 | 中文和成本优势明显,适合国内大规模生产 |
| 国内轻量 | Qwen Plus/Turbo、Doubao、MiniMax 小模型 | 通常低于海外同级 | 用于路由、客服、内容生产和低价值请求 |
3.2 Agent 模块分工
| Agent 模块 | 推荐模型类型 | 选型示例 |
|---|
| 主决策 / 规划 | 旗舰或强推理模型 | GPT-5、Claude Opus/Sonnet、Gemini Pro、Qwen Max、DeepSeek-R1 |
| 工具调用 / 工作流执行 | 中高端、JSON 稳定、函数调用好 | Claude Sonnet、GPT-5 mini、Qwen Plus/Max、GLM-4.5、MiniMax M2 |
| 意图识别 / 路由 | 低价快速模型 | GPT-5 nano、Claude Haiku、Gemini Flash Lite、Qwen Turbo、Doubao |
| 代码生成 / 代码审查 | 代码强模型 | Claude Sonnet、GPT-5 Codex、Qwen Coder、DeepSeek Coder |
| 反思 / Critic | 推理增强模型 | o3、GPT-5 high、DeepSeek-R1、Qwen Thinking、Claude Thinking |
| 安全审核 / 合规拦截 | 小模型 + 规则 + 专项分类器 | 自研分类器、云厂商内容安全、轻量 LLM |
3.3 不建议的做法
- 不要让旗舰模型处理所有请求。生产系统应至少有路由模型、主模型、兜底模型三层。
- 不要只按输入/输出单价算成本。Reasoning 模型可能输出更长、重试更多,实际每单成本更高。
- 不要把超长上下文当作 RAG 替代品。长上下文适合“少量大文档”,RAG 适合“持续增长的知识库”。
- 不要直接相信模型自称支持的 JSON。必须做 schema 校验、重试和失败降级。
4. 开源与私有化模型
4.1 参数规模与硬件口径
| 档位 | 代表模型 | 典型部署 | 适合场景 |
|---|
| 0.5B-4B | Qwen 小模型、Phi、Gemma、MiniCPM | CPU、端侧、消费级 GPU | 路由、分类、离线小助手 |
| 7B-14B | Qwen、GLM、Llama、Gemma | 1 张 24G GPU 可量化运行 | 部门级私有化、低并发问答 |
| 30B-40B | Qwen3-32B、GLM-Air、Yi | 1 张 80G 或多张消费级 GPU | 企业内部 Agent、较强中文任务 |
| 70B 级 | Qwen、Llama、DeepSeek Distill | 多卡 A100/H100 或高端推理卡 | 企业主力私有化 |
| 200B+ MoE | DeepSeek、Qwen MoE、GLM-4.5 | 多机多卡集群 | 行业大脑、高价值私有化 |
4.2 私有化决策
只有同时满足下列至少两项,才建议认真评估私有化:
- 数据不能出内网或需要国产化软硬件适配。
- 月 API 成本已经稳定超过硬件折旧、运维和人力总成本。
- 需要深度微调、专有工具链或定制安全策略。
- 延迟、可用性、区域网络不可接受。
- 有团队能长期维护推理服务、量化、监控、扩缩容和模型升级。
多数早期 Agent 项目建议先用 API 验证业务闭环,再用日志做模型路由和私有化 ROI 测算。
5. 多模态、图像、视频与语音
5.1 多模态理解
| 任务 | 首选模型类型 | 推荐方向 |
|---|
| 文档 OCR、表格、合同审阅 | 强 VLM + RAG | Gemini、Claude、GPT-5、Qwen-VL、GLM-4.5V |
| 截图理解、网页/桌面操作 | VLM + Computer Use | Claude、GPT-5、Gemini、Qwen-VL |
| 视频理解 | 长上下文 VLM / 原生视频模型 | Gemini、GPT-5、Qwen-VL、InternVL |
| 私有化视觉问答 | 开源 VLM | Qwen-VL、GLM-4.5V、InternVL |
5.2 图像生成
| 类型 | 模型方向 | 适合场景 |
|---|
| 商用闭源 | GPT-Image、DALL·E、Imagen、Midjourney、Recraft、即梦、通义万相 | 海报、电商图、广告素材、Logo/UI 草图 |
| 国产生图 | Qwen-Image / 妙笔(阿里) | 阿里生态完善,多合一 ControlNet 兼容,适合高质量生图、图像编辑和中文电商/设计工作流 |
| 开源/可部署 | Flux、Stable Diffusion、HiDream、各类 LoRA/ControlNet | 私有化流水线、风格一致性、批量生成 |
图像 Agent 的关键不是单张图质量,而是提示词模板、参考图管理、风格一致性、审核和人工返修链路。
5.3 视频生成
| 类型 | 模型方向 | 适合场景 |
|---|
| 海外闭源 | Veo、Runway、Pika | 高质量广告、分镜、创意视频 |
| 国内闭源 | Kling、即梦、Hailuo、Vidu | 电商视频、短视频、中文语境素材 |
| 开源/可部署 | HunyuanVideo、CogVideoX、Mochi | 可控实验、私有化研究、低成本批处理 |
视频 Agent 要重点评估:角色一致性、镜头控制、物理稳定性、生成时长、版权与商用授权。
5.4 语音 Agent
| 环节 | 推荐方向 | 工程关注点 |
|---|
| ASR | Whisper、SenseVoice、Paraformer、火山、讯飞 | 噪声、方言、实时流式、标点和说话人 |
| TTS | OpenAI Audio、ElevenLabs、CosyVoice、豆包、MiniMax | 情绪、克隆、流式、授权 |
| 端到端实时 | GPT Realtime、Gemini Live、豆包 Realtime、MiniMax Voice | 首包延迟、打断、回声消除、电话网关 |
6. RAG 配套模型

6.1 推荐组合
| 语料与场景 | Embedding | Rerank | 生成模型 |
|---|
| 中文企业知识库 | BGE-M3 / Qwen Embedding | bge-reranker / Qwen Reranker | Qwen、DeepSeek、GLM、Claude Sonnet |
| 英文技术文档 | OpenAI / Voyage / Cohere | Cohere / Jina / bge | GPT-5、Claude、Gemini |
| 多语言知识库 | BGE-M3 / Qwen / Cohere | Jina / Qwen / bge | Gemini、Claude、Qwen |
| 私有化部署 | BGE / Qwen 开源系列 | bge / Qwen 开源系列 | Qwen、GLM、DeepSeek、Llama |
6.2 RAG 优先级
- 先做文档清洗、切分、元数据和权限过滤。
- 再调 Embedding 与 Rerank。
- 最后换更强生成模型。
很多知识库效果差,并不是主模型不够强,而是召回内容错误、权限过滤不严或上下文拼接混乱。
7. 成本测算
7.1 API 成本公式
月成本 ≈ DAU × 单用户日均轮次 × 单轮平均 token × 单价 × 30
更实用的拆法:
月成本 =
路由请求成本
+ 主模型输入成本
+ 主模型输出成本
+ reasoning / thinking 额外成本
+ embedding / rerank 成本
+ 图片 / 语音 / 视频成本
+ 重试、失败、缓存未命中成本
7.2 示例
假设:
- 1 万 DAU
- 人均每天 5 轮
- 单轮 3k input + 1k output
- 每月 30 天
| 模型层级 | 粗略单轮成本 | 月成本感知 |
|---|
| 海外旗舰,如 Opus 高价档 | 高 | 可能到数万美元/月 |
| 海外性价比,如 Sonnet / GPT mini / Gemini Flash | 中 | 通常可通过路由降到可控 |
| 国内低价模型,如 DeepSeek / Doubao / Qwen 低价档 | 低 | 大规模 ToC 更容易成立 |
实际项目中,最有效的降本手段通常是:
- 小模型先路由,只有复杂请求进旗舰模型。
- 对系统提示词、知识库片段做缓存。
- 对批处理任务使用 Batch 或离线队列。
- 控制输出长度,不让模型无限解释。
- 对失败重试设置预算上限。
8. 五维选型决策树
Q1:数据是否必须不出本地?
├─ 是 → 开源/私有化路线:Qwen / GLM / DeepSeek / InternVL / BGE
└─ 否 → 云端 API 路线
Q2:用户主要在国内还是海外?
├─ 国内 → 优先评估 Qwen / DeepSeek / Doubao / Kimi / MiniMax / GLM
└─ 海外 → 优先评估 GPT / Claude / Gemini
Q3:任务复杂度?
├─ 单步 FAQ / 分类 / 摘要 → 轻量模型
├─ 工具调用 / 多轮办公 → 中高端模型
└─ 长任务 / 代码 / 推理 → 旗舰或推理模型
Q4:是否需要多模态?
├─ 文档 / 截图 / UI → VLM
├─ 实时语音 → Realtime / Live
├─ 图像生成 → 图像模型
└─ 视频生成 → 视频模型
Q5:成本是否敏感?
├─ 极致敏感 → 国内低价模型 + 路由 + 缓存
├─ 中等敏感 → 性价比模型为主,旗舰兜底
└─ 不敏感 → 旗舰优先,先追求成功率
9. 典型 Agent 项目推荐
| 项目 | 主模型 | 配套模型 | 备注 |
|---|
| 通用 ToC 聊天 Agent | DeepSeek / Qwen / GPT-5 mini / Gemini Flash | 小模型路由 + 内容安全 | 先控成本,再用旗舰兜底高价值请求 |
| 企业知识库 Agent | Qwen / Claude Sonnet / DeepSeek / GLM | BGE/Qwen Embedding + Rerank | 权限、引用、可追溯比模型名更重要 |
| 代码开发 Agent | Claude Sonnet / GPT-5 Codex / Qwen Coder | 强制测试、静态检查、代码检索 | 需要工具沙箱和回滚机制 |
| 办公自动化 Agent | Claude Sonnet / Qwen / MiniMax / Doubao | 表格/文档工具 + RAG | 函数调用稳定性优先 |
| 电话客服 Voice Agent | GPT Realtime / 豆包 Realtime / MiniMax | ASR/TTS 兜底 + 人工转接 | 延迟和打断体验决定转化率 |
| 多模态运维巡检 | Gemini / Claude / Qwen-VL / GLM-4.5V | 规则引擎 + 目标检测 | 截图解析要做置信度和人工复核 |
| 营销素材 Agent | Sonnet/GPT/Qwen 编排 | 图像/视频生成模型 | 重点是流程、审核和版权 |
| 端侧/车机 Agent | 小模型本地 + 云端兜底 | ASR/TTS、意图分类 | 断网可用和隐私优先 |
10. 最简速记
- 海外复杂 Agent:Claude Sonnet / GPT-5 / Gemini Pro。
- 海外低成本高并发:GPT-5 mini/nano / Gemini Flash / Claude Haiku。
- 国内综合落地:Qwen / DeepSeek / Doubao / Kimi / MiniMax / GLM。
- 私有化合规:Qwen、GLM、DeepSeek、BGE、InternVL。
- 代码 Agent:Claude Sonnet、GPT-5 Codex、Qwen Coder、DeepSeek Coder。
- 复杂推理:GPT-5 high、o3、Claude Opus、DeepSeek-R1、Qwen Thinking。
- 多模态文档和截图:Gemini、Claude、GPT-5、Qwen-VL、GLM-4.5V。
- Voice Agent:GPT Realtime / Gemini Live / 豆包 Realtime / MiniMax。
- RAG 标配:高质量切分 + Embedding + Rerank + 引用溯源。
- 成本控制:路由、缓存、Batch、限长、兜底和日志回放。
11. 上线前检查清单
12. 主要信息源
以下来源用于校准本文的模型格局和价格口径,具体上线价格以控制台实时显示为准。