智能体（Agent）开发：大模型选型方案智能体（Agent）开发：大模型选型方案 0. 先给结论 0.1 默认推荐场景

智能体（Agent）开发：大模型选型方案

面向 Agent 工程落地，从任务复杂度、模态、部署约束、成本、生态成熟度五个维度选择模型。

更新时间：2026-06-01。模型能力、上下文长度和 API 价格变化很快，本文只给工程选型口径；上线前必须以官方价格页和目标云区域实际报价复核。

0. 先给结论

0.1 默认推荐

场景	首选	备选	关键原因
海外通用 Agent / 产品原型	GPT-5 / Claude Sonnet 4.6	Gemini 2.5/3 Flash、GPT-5 mini	工具调用、结构化输出、生态和稳定性强
复杂代码 / 长任务 Agent	Claude Sonnet 4.6 / Claude Opus 4.x	GPT-5 / GPT-5 Codex	编码、代码库理解、多步任务表现稳定
数学、科研、强推理	GPT-5 high / o3 / Claude Opus 4.x	DeepSeek-R1 / Qwen3-Max-Thinking	推理能力优先，成本通常不是第一约束
国内 ToC / 成本敏感应用	DeepSeek-V3/R1、Doubao、Qwen Plus/Max	MiniMax M2、Kimi K2、GLM-4.5/4.6	成本低、中文体验好、国内网络和合规友好
企业知识库 / 私有化	Qwen3、GLM-4.5、DeepSeek、InternVL	Llama / Gemma / Phi	开源可控，便于内网部署和微调
多模态文档 / 截图 / UI Agent	Gemini、Claude、GPT-5、Qwen-VL、GLM-4.5V	InternVL	文档 OCR、图表理解、屏幕操作能力重要
Voice Agent	GPT Realtime / Gemini Live	豆包 Realtime、MiniMax、CosyVoice + ASR	端到端语音延迟、打断、情绪和电话链路决定体验
RAG 检索增强	BGE-M3 / Qwen Embedding + bge-reranker / Qwen Reranker	OpenAI embedding、Voyage、Cohere	召回和重排质量比单纯换生成模型更影响效果

0.2 一句话策略

先用强闭源模型把产品跑通：GPT-5、Claude、Gemini 适合验证复杂 Agent 的上限。
国内量大后做路由降本：DeepSeek、Qwen、Doubao、MiniMax、Kimi、GLM 通常能把大部分普通请求成本压低一个数量级。
私有化不是默认选项：只有数据合规、离线部署、稳定大流量或深度定制明确成立时，再承担 GPU、推理框架和运维成本。
Agent 不要只看榜单：工具调用、JSON 稳定性、长上下文衰减、延迟、并发、重试成本，往往比单次 benchmark 更重要。

1. 模型分类总览

按 Agent 能力层分类
├── 1. 主模型 / Planner
│   ├── 通用旗舰：GPT-5、Claude Opus/Sonnet、Gemini Pro、Qwen Max、DeepSeek、GLM、Kimi
│   ├── 推理增强：o3、GPT-5 high、Claude Thinking、DeepSeek-R1、Qwen Thinking
│   └── 代码专项：Claude Code / Sonnet、GPT-5 Codex、Qwen Coder、DeepSeek Coder
│
├── 2. 执行与路由模型
│   ├── 快速模型：GPT-5 mini/nano、Gemini Flash、Claude Haiku、Qwen Turbo/Plus、Doubao Lite/Pro
│   └── 本地小模型：Qwen3 0.6B-14B、Phi、Gemma、MiniCPM
│
├── 3. 多模态模型
│   ├── 图文 / 文档 / 截图：GPT-5、Claude、Gemini、Qwen-VL、GLM-4.5V、InternVL
│   └── 实时全模态：GPT Realtime、Gemini Live、Qwen Omni、豆包 Realtime
│
├── 4. 内容生成模型
│   ├── 图像：GPT-Image、DALL·E、Imagen、Midjourney、Qwen-Image/妙笔、即梦、通义万相、Flux、SD
│   └── 视频：Veo、Runway、Kling、即梦、Hailuo、Vidu、HunyuanVideo、CogVideoX
│
└── 5. RAG 与语音配套
    ├── Embedding / Rerank：OpenAI、Voyage、Cohere、BGE、Qwen、Jina
    ├── ASR：Whisper、SenseVoice、Paraformer、火山、讯飞
    └── TTS：OpenAI Audio、ElevenLabs、CosyVoice、豆包、MiniMax

2. 中美主流模型格局

2.1 海外模型

厂商	当前选型定位	代表模型	适合场景	注意点
OpenAI	通用能力、工具生态和 API 完整度最强之一	GPT-5、GPT-5 mini/nano、o3、GPT Realtime、GPT Image	通用 Agent、结构化输出、函数调用、语音、多模态产品	海外链路、合规和价格需评估；不同模型的 reasoning 开销差异大
Anthropic	代码、长任务、复杂 Agent 表现突出	Claude Sonnet 4.6、Claude Opus 4.x、Claude Haiku 4.5	代码 Agent、复杂办公 Agent、长上下文任务	Opus 成本高；部分 1M 上下文模型需按官方可用区域确认
Google	长上下文、多模态和性价比强	Gemini Pro、Gemini Flash、Gemini Live、Imagen、Veo	长文档、视频理解、低成本大流量、多模态	AI Studio、Vertex、不同区域价格和配额不同
xAI / Meta / Mistral 等	可作为生态补充	Grok、Llama、Mistral	特定开源、社交数据、欧洲部署等需求	国内可用性、企业支持和工具链成熟度需单独验证

2.2 中国模型

厂商	当前选型定位	代表模型	适合场景	注意点
阿里通义	国内综合能力、开源生态和企业云能力强	Qwen3 / Qwen3.5、Qwen Max/Plus、Qwen-VL、Qwen Embedding/Reranker	企业 Agent、中文 RAG、私有化、多模态	百炼有国内/国际/香港/欧盟等不同部署模式，价格不同
DeepSeek	极致性价比和推理模型影响力大	DeepSeek-V3/V4、DeepSeek-R1	国内成本敏感、代码、推理、批处理	价格和并发策略变化快；需压测稳定性和峰值可用性
字节豆包	国内低价、高并发和产品化链路强	Doubao Pro/Lite、Doubao Vision、豆包语音	ToC、客服、内容生产、国内 Voice Agent	模型命名和价格随火山引擎产品线变化较快
智谱	开源/政企/Agent 能力持续增强	GLM-4.5/4.6、GLM-4.5V	政企、私有化、Agentic Reasoning、代码	需按开源版和 API 版区分能力
月之暗面	长上下文和 Agentic 能力突出	Kimi K2/K 系列	长文档、阅读、办公、低价 Agent	老版本退役节奏要跟踪，避免绑定即将下线模型
MiniMax	低成本 Agent、语音、视频生态完整	MiniMax M2/M2.x、Hailuo、T2A	Agent、角色对话、语音、视频生成	海内外平台和模型版本需区分
百度文心 / 讯飞星火	政企、行业和国产化生态	ERNIE、Spark	政务、教育、医疗、金融等行业项目	更适合已有云和行业生态客户

3. 文本模型选型

3.1 旗舰 API 模型对照

价格统一按「每 100 万 token」阅读；人民币价格建议上线前从对应云控制台导出，因为地域、缓存、Batch、阶梯价会改变实际成本。

层级	模型示例	典型价格区间（输入 / 输出）	工程判断
海外旗舰	GPT-5、Claude Opus、Gemini Pro	约 $1-$ 15 / $10-$ 75	用来做高价值复杂任务、评测基线、兜底模型
海外性价比	Claude Sonnet、GPT-5 mini、Gemini Flash	约 $0.25-$ 3 / $2-$ 15	生产主力，适合工具调用和高并发
海外轻量	GPT-5 nano、Claude Haiku、Flash Lite	约 $0.05-$ 1 / $0.4-$ 5	路由、分类、摘要、简单问答
国内旗舰	Qwen Max、DeepSeek、Kimi、GLM、MiniMax	约 $0.1-$ 1.5 / $0.3-$ 6	中文和成本优势明显，适合国内大规模生产
国内轻量	Qwen Plus/Turbo、Doubao、MiniMax 小模型	通常低于海外同级	用于路由、客服、内容生产和低价值请求

3.2 Agent 模块分工

Agent 模块	推荐模型类型	选型示例
主决策 / 规划	旗舰或强推理模型	GPT-5、Claude Opus/Sonnet、Gemini Pro、Qwen Max、DeepSeek-R1
工具调用 / 工作流执行	中高端、JSON 稳定、函数调用好	Claude Sonnet、GPT-5 mini、Qwen Plus/Max、GLM-4.5、MiniMax M2
意图识别 / 路由	低价快速模型	GPT-5 nano、Claude Haiku、Gemini Flash Lite、Qwen Turbo、Doubao
代码生成 / 代码审查	代码强模型	Claude Sonnet、GPT-5 Codex、Qwen Coder、DeepSeek Coder
反思 / Critic	推理增强模型	o3、GPT-5 high、DeepSeek-R1、Qwen Thinking、Claude Thinking
安全审核 / 合规拦截	小模型 + 规则 + 专项分类器	自研分类器、云厂商内容安全、轻量 LLM

3.3 不建议的做法

不要让旗舰模型处理所有请求。生产系统应至少有路由模型、主模型、兜底模型三层。
不要只按输入/输出单价算成本。Reasoning 模型可能输出更长、重试更多，实际每单成本更高。
不要把超长上下文当作 RAG 替代品。长上下文适合“少量大文档”，RAG 适合“持续增长的知识库”。
不要直接相信模型自称支持的 JSON。必须做 schema 校验、重试和失败降级。

4. 开源与私有化模型

4.1 参数规模与硬件口径

档位	代表模型	典型部署	适合场景
0.5B-4B	Qwen 小模型、Phi、Gemma、MiniCPM	CPU、端侧、消费级 GPU	路由、分类、离线小助手
7B-14B	Qwen、GLM、Llama、Gemma	1 张 24G GPU 可量化运行	部门级私有化、低并发问答
30B-40B	Qwen3-32B、GLM-Air、Yi	1 张 80G 或多张消费级 GPU	企业内部 Agent、较强中文任务
70B 级	Qwen、Llama、DeepSeek Distill	多卡 A100/H100 或高端推理卡	企业主力私有化
200B+ MoE	DeepSeek、Qwen MoE、GLM-4.5	多机多卡集群	行业大脑、高价值私有化

4.2 私有化决策

只有同时满足下列至少两项，才建议认真评估私有化：

数据不能出内网或需要国产化软硬件适配。
月 API 成本已经稳定超过硬件折旧、运维和人力总成本。
需要深度微调、专有工具链或定制安全策略。
延迟、可用性、区域网络不可接受。
有团队能长期维护推理服务、量化、监控、扩缩容和模型升级。

多数早期 Agent 项目建议先用 API 验证业务闭环，再用日志做模型路由和私有化 ROI 测算。

5. 多模态、图像、视频与语音

5.1 多模态理解

任务	首选模型类型	推荐方向
文档 OCR、表格、合同审阅	强 VLM + RAG	Gemini、Claude、GPT-5、Qwen-VL、GLM-4.5V
截图理解、网页/桌面操作	VLM + Computer Use	Claude、GPT-5、Gemini、Qwen-VL
视频理解	长上下文 VLM / 原生视频模型	Gemini、GPT-5、Qwen-VL、InternVL
私有化视觉问答	开源 VLM	Qwen-VL、GLM-4.5V、InternVL

5.2 图像生成

类型	模型方向	适合场景
商用闭源	GPT-Image、DALL·E、Imagen、Midjourney、Recraft、即梦、通义万相	海报、电商图、广告素材、Logo/UI 草图
国产生图	Qwen-Image / 妙笔（阿里）	阿里生态完善，多合一 ControlNet 兼容，适合高质量生图、图像编辑和中文电商/设计工作流
开源/可部署	Flux、Stable Diffusion、HiDream、各类 LoRA/ControlNet	私有化流水线、风格一致性、批量生成

图像 Agent 的关键不是单张图质量，而是提示词模板、参考图管理、风格一致性、审核和人工返修链路。

5.3 视频生成

类型	模型方向	适合场景
海外闭源	Veo、Runway、Pika	高质量广告、分镜、创意视频
国内闭源	Kling、即梦、Hailuo、Vidu	电商视频、短视频、中文语境素材
开源/可部署	HunyuanVideo、CogVideoX、Mochi	可控实验、私有化研究、低成本批处理

视频 Agent 要重点评估：角色一致性、镜头控制、物理稳定性、生成时长、版权与商用授权。

5.4 语音 Agent

环节	推荐方向	工程关注点
ASR	Whisper、SenseVoice、Paraformer、火山、讯飞	噪声、方言、实时流式、标点和说话人
TTS	OpenAI Audio、ElevenLabs、CosyVoice、豆包、MiniMax	情绪、克隆、流式、授权
端到端实时	GPT Realtime、Gemini Live、豆包 Realtime、MiniMax Voice	首包延迟、打断、回声消除、电话网关

6. RAG 配套模型

6.1 推荐组合

语料与场景	Embedding	Rerank	生成模型
中文企业知识库	BGE-M3 / Qwen Embedding	bge-reranker / Qwen Reranker	Qwen、DeepSeek、GLM、Claude Sonnet
英文技术文档	OpenAI / Voyage / Cohere	Cohere / Jina / bge	GPT-5、Claude、Gemini
多语言知识库	BGE-M3 / Qwen / Cohere	Jina / Qwen / bge	Gemini、Claude、Qwen
私有化部署	BGE / Qwen 开源系列	bge / Qwen 开源系列	Qwen、GLM、DeepSeek、Llama

6.2 RAG 优先级

先做文档清洗、切分、元数据和权限过滤。
再调 Embedding 与 Rerank。
最后换更强生成模型。

很多知识库效果差，并不是主模型不够强，而是召回内容错误、权限过滤不严或上下文拼接混乱。

7. 成本测算

7.1 API 成本公式

月成本 ≈ DAU × 单用户日均轮次 × 单轮平均 token × 单价 × 30

更实用的拆法：

月成本 =
  路由请求成本
+ 主模型输入成本
+ 主模型输出成本
+ reasoning / thinking 额外成本
+ embedding / rerank 成本
+ 图片 / 语音 / 视频成本
+ 重试、失败、缓存未命中成本

7.2 示例

假设：

1 万 DAU
人均每天 5 轮
单轮 3k input + 1k output
每月 30 天

模型层级	粗略单轮成本	月成本感知
海外旗舰，如 Opus 高价档	高	可能到数万美元/月
海外性价比，如 Sonnet / GPT mini / Gemini Flash	中	通常可通过路由降到可控
国内低价模型，如 DeepSeek / Doubao / Qwen 低价档	低	大规模 ToC 更容易成立

实际项目中，最有效的降本手段通常是：

小模型先路由，只有复杂请求进旗舰模型。
对系统提示词、知识库片段做缓存。
对批处理任务使用 Batch 或离线队列。
控制输出长度，不让模型无限解释。
对失败重试设置预算上限。

8. 五维选型决策树

Q1：数据是否必须不出本地？
  ├─ 是 → 开源/私有化路线：Qwen / GLM / DeepSeek / InternVL / BGE
  └─ 否 → 云端 API 路线

Q2：用户主要在国内还是海外？
  ├─ 国内 → 优先评估 Qwen / DeepSeek / Doubao / Kimi / MiniMax / GLM
  └─ 海外 → 优先评估 GPT / Claude / Gemini

Q3：任务复杂度？
  ├─ 单步 FAQ / 分类 / 摘要 → 轻量模型
  ├─ 工具调用 / 多轮办公 → 中高端模型
  └─ 长任务 / 代码 / 推理 → 旗舰或推理模型

Q4：是否需要多模态？
  ├─ 文档 / 截图 / UI → VLM
  ├─ 实时语音 → Realtime / Live
  ├─ 图像生成 → 图像模型
  └─ 视频生成 → 视频模型

Q5：成本是否敏感？
  ├─ 极致敏感 → 国内低价模型 + 路由 + 缓存
  ├─ 中等敏感 → 性价比模型为主，旗舰兜底
  └─ 不敏感 → 旗舰优先，先追求成功率

9. 典型 Agent 项目推荐

项目	主模型	配套模型	备注
通用 ToC 聊天 Agent	DeepSeek / Qwen / GPT-5 mini / Gemini Flash	小模型路由 + 内容安全	先控成本，再用旗舰兜底高价值请求
企业知识库 Agent	Qwen / Claude Sonnet / DeepSeek / GLM	BGE/Qwen Embedding + Rerank	权限、引用、可追溯比模型名更重要
代码开发 Agent	Claude Sonnet / GPT-5 Codex / Qwen Coder	强制测试、静态检查、代码检索	需要工具沙箱和回滚机制
办公自动化 Agent	Claude Sonnet / Qwen / MiniMax / Doubao	表格/文档工具 + RAG	函数调用稳定性优先
电话客服 Voice Agent	GPT Realtime / 豆包 Realtime / MiniMax	ASR/TTS 兜底 + 人工转接	延迟和打断体验决定转化率
多模态运维巡检	Gemini / Claude / Qwen-VL / GLM-4.5V	规则引擎 + 目标检测	截图解析要做置信度和人工复核
营销素材 Agent	Sonnet/GPT/Qwen 编排	图像/视频生成模型	重点是流程、审核和版权
端侧/车机 Agent	小模型本地 + 云端兜底	ASR/TTS、意图分类	断网可用和隐私优先

10. 最简速记

海外复杂 Agent：Claude Sonnet / GPT-5 / Gemini Pro。
海外低成本高并发：GPT-5 mini/nano / Gemini Flash / Claude Haiku。
国内综合落地：Qwen / DeepSeek / Doubao / Kimi / MiniMax / GLM。
私有化合规：Qwen、GLM、DeepSeek、BGE、InternVL。
代码 Agent：Claude Sonnet、GPT-5 Codex、Qwen Coder、DeepSeek Coder。
复杂推理：GPT-5 high、o3、Claude Opus、DeepSeek-R1、Qwen Thinking。
多模态文档和截图：Gemini、Claude、GPT-5、Qwen-VL、GLM-4.5V。
Voice Agent：GPT Realtime / Gemini Live / 豆包 Realtime / MiniMax。
RAG 标配：高质量切分 + Embedding + Rerank + 引用溯源。
成本控制：路由、缓存、Batch、限长、兜底和日志回放。

11. 上线前检查清单

是否明确主模型、路由模型、兜底模型？
是否记录每次调用的输入、输出、耗时、费用、模型版本？
是否有 JSON Schema 校验和失败重试？
是否有 prompt caching / Batch / 限长策略？
是否做过真实业务集评测，而不是只看公开榜单？
是否测过长上下文位置衰减？
是否测过工具调用成功率和错误恢复？
是否有内容安全、隐私脱敏和审计日志？
是否准备了模型下线、涨价、限流时的替代方案？

12. 主要信息源

以下来源用于校准本文的模型格局和价格口径，具体上线价格以控制台实时显示为准。

OpenAI API Pricing：openai.com/api/pricing…
OpenAI GPT-5 for developers：openai.com/index/intro…
Anthropic Claude API Pricing：platform.claude.com/docs/en/abo…
Google Gemini API Pricing：ai.google.dev/pricing
阿里云百炼模型价格：www.alibabacloud.com/help/zh/mod…
DeepSeek API Pricing：api-docs.deepseek.com/quick_start…
MiniMax M2 官方说明：www.minimax.io/news/minima…
GLM-4.5 技术报告：arxiv.org/abs/2508.06…
Stanford DigiChina / HAI 中国开源模型生态报告：digichina.stanford.edu/