智能体(Agent)开发:大模型选型方案

0 阅读13分钟

智能体(Agent)开发:大模型选型方案

面向 Agent 工程落地,从任务复杂度、模态、部署约束、成本、生态成熟度五个维度选择模型。

更新时间:2026-06-01。模型能力、上下文长度和 API 价格变化很快,本文只给工程选型口径;上线前必须以官方价格页和目标云区域实际报价复核。

image.png


0. 先给结论

0.1 默认推荐

场景首选备选关键原因
海外通用 Agent / 产品原型GPT-5 / Claude Sonnet 4.6Gemini 2.5/3 Flash、GPT-5 mini工具调用、结构化输出、生态和稳定性强
复杂代码 / 长任务 AgentClaude Sonnet 4.6 / Claude Opus 4.xGPT-5 / GPT-5 Codex编码、代码库理解、多步任务表现稳定
数学、科研、强推理GPT-5 high / o3 / Claude Opus 4.xDeepSeek-R1 / Qwen3-Max-Thinking推理能力优先,成本通常不是第一约束
国内 ToC / 成本敏感应用DeepSeek-V3/R1、Doubao、Qwen Plus/MaxMiniMax M2、Kimi K2、GLM-4.5/4.6成本低、中文体验好、国内网络和合规友好
企业知识库 / 私有化Qwen3、GLM-4.5、DeepSeek、InternVLLlama / Gemma / Phi开源可控,便于内网部署和微调
多模态文档 / 截图 / UI AgentGemini、Claude、GPT-5、Qwen-VL、GLM-4.5VInternVL文档 OCR、图表理解、屏幕操作能力重要
Voice AgentGPT Realtime / Gemini Live豆包 Realtime、MiniMax、CosyVoice + ASR端到端语音延迟、打断、情绪和电话链路决定体验
RAG 检索增强BGE-M3 / Qwen Embedding + bge-reranker / Qwen RerankerOpenAI embedding、Voyage、Cohere召回和重排质量比单纯换生成模型更影响效果

0.2 一句话策略

  • 先用强闭源模型把产品跑通:GPT-5、Claude、Gemini 适合验证复杂 Agent 的上限。
  • 国内量大后做路由降本:DeepSeek、Qwen、Doubao、MiniMax、Kimi、GLM 通常能把大部分普通请求成本压低一个数量级。
  • 私有化不是默认选项:只有数据合规、离线部署、稳定大流量或深度定制明确成立时,再承担 GPU、推理框架和运维成本。
  • Agent 不要只看榜单:工具调用、JSON 稳定性、长上下文衰减、延迟、并发、重试成本,往往比单次 benchmark 更重要。

1. 模型分类总览

按 Agent 能力层分类
├── 1. 主模型 / Planner
│   ├── 通用旗舰:GPT-5、Claude Opus/Sonnet、Gemini Pro、Qwen Max、DeepSeek、GLM、Kimi
│   ├── 推理增强:o3、GPT-5 high、Claude Thinking、DeepSeek-R1、Qwen Thinking
│   └── 代码专项:Claude Code / Sonnet、GPT-5 Codex、Qwen Coder、DeepSeek Coder
│
├── 2. 执行与路由模型
│   ├── 快速模型:GPT-5 mini/nano、Gemini Flash、Claude Haiku、Qwen Turbo/Plus、Doubao Lite/Pro
│   └── 本地小模型:Qwen3 0.6B-14B、Phi、Gemma、MiniCPM
│
├── 3. 多模态模型
│   ├── 图文 / 文档 / 截图:GPT-5、Claude、Gemini、Qwen-VL、GLM-4.5V、InternVL
│   └── 实时全模态:GPT Realtime、Gemini Live、Qwen Omni、豆包 Realtime
│
├── 4. 内容生成模型
│   ├── 图像:GPT-Image、DALL·E、Imagen、Midjourney、Qwen-Image/妙笔、即梦、通义万相、Flux、SD
│   └── 视频:Veo、Runway、Kling、即梦、Hailuo、Vidu、HunyuanVideo、CogVideoX
│
└── 5. RAG 与语音配套
    ├── Embedding / Rerank:OpenAI、Voyage、Cohere、BGE、Qwen、Jina
    ├── ASR:Whisper、SenseVoice、Paraformer、火山、讯飞
    └── TTS:OpenAI Audio、ElevenLabs、CosyVoice、豆包、MiniMax

2. 中美主流模型格局

image.png

2.1 海外模型

厂商当前选型定位代表模型适合场景注意点
OpenAI通用能力、工具生态和 API 完整度最强之一GPT-5、GPT-5 mini/nano、o3、GPT Realtime、GPT Image通用 Agent、结构化输出、函数调用、语音、多模态产品海外链路、合规和价格需评估;不同模型的 reasoning 开销差异大
Anthropic代码、长任务、复杂 Agent 表现突出Claude Sonnet 4.6、Claude Opus 4.x、Claude Haiku 4.5代码 Agent、复杂办公 Agent、长上下文任务Opus 成本高;部分 1M 上下文模型需按官方可用区域确认
Google长上下文、多模态和性价比强Gemini Pro、Gemini Flash、Gemini Live、Imagen、Veo长文档、视频理解、低成本大流量、多模态AI Studio、Vertex、不同区域价格和配额不同
xAI / Meta / Mistral 等可作为生态补充Grok、Llama、Mistral特定开源、社交数据、欧洲部署等需求国内可用性、企业支持和工具链成熟度需单独验证

2.2 中国模型

厂商当前选型定位代表模型适合场景注意点
阿里通义国内综合能力、开源生态和企业云能力强Qwen3 / Qwen3.5、Qwen Max/Plus、Qwen-VL、Qwen Embedding/Reranker企业 Agent、中文 RAG、私有化、多模态百炼有国内/国际/香港/欧盟等不同部署模式,价格不同
DeepSeek极致性价比和推理模型影响力大DeepSeek-V3/V4、DeepSeek-R1国内成本敏感、代码、推理、批处理价格和并发策略变化快;需压测稳定性和峰值可用性
字节豆包国内低价、高并发和产品化链路强Doubao Pro/Lite、Doubao Vision、豆包语音ToC、客服、内容生产、国内 Voice Agent模型命名和价格随火山引擎产品线变化较快
智谱开源/政企/Agent 能力持续增强GLM-4.5/4.6、GLM-4.5V政企、私有化、Agentic Reasoning、代码需按开源版和 API 版区分能力
月之暗面长上下文和 Agentic 能力突出Kimi K2/K 系列长文档、阅读、办公、低价 Agent老版本退役节奏要跟踪,避免绑定即将下线模型
MiniMax低成本 Agent、语音、视频生态完整MiniMax M2/M2.x、Hailuo、T2AAgent、角色对话、语音、视频生成海内外平台和模型版本需区分
百度文心 / 讯飞星火政企、行业和国产化生态ERNIE、Spark政务、教育、医疗、金融等行业项目更适合已有云和行业生态客户

3. 文本模型选型

image.png

3.1 旗舰 API 模型对照

价格统一按「每 100 万 token」阅读;人民币价格建议上线前从对应云控制台导出,因为地域、缓存、Batch、阶梯价会改变实际成本。

层级模型示例典型价格区间(输入 / 输出)工程判断
海外旗舰GPT-5、Claude Opus、Gemini Pro11-15 / 1010-75用来做高价值复杂任务、评测基线、兜底模型
海外性价比Claude Sonnet、GPT-5 mini、Gemini Flash0.250.25-3 / 22-15生产主力,适合工具调用和高并发
海外轻量GPT-5 nano、Claude Haiku、Flash Lite0.050.05-1 / 0.40.4-5路由、分类、摘要、简单问答
国内旗舰Qwen Max、DeepSeek、Kimi、GLM、MiniMax0.10.1-1.5 / 0.30.3-6中文和成本优势明显,适合国内大规模生产
国内轻量Qwen Plus/Turbo、Doubao、MiniMax 小模型通常低于海外同级用于路由、客服、内容生产和低价值请求

3.2 Agent 模块分工

Agent 模块推荐模型类型选型示例
主决策 / 规划旗舰或强推理模型GPT-5、Claude Opus/Sonnet、Gemini Pro、Qwen Max、DeepSeek-R1
工具调用 / 工作流执行中高端、JSON 稳定、函数调用好Claude Sonnet、GPT-5 mini、Qwen Plus/Max、GLM-4.5、MiniMax M2
意图识别 / 路由低价快速模型GPT-5 nano、Claude Haiku、Gemini Flash Lite、Qwen Turbo、Doubao
代码生成 / 代码审查代码强模型Claude Sonnet、GPT-5 Codex、Qwen Coder、DeepSeek Coder
反思 / Critic推理增强模型o3、GPT-5 high、DeepSeek-R1、Qwen Thinking、Claude Thinking
安全审核 / 合规拦截小模型 + 规则 + 专项分类器自研分类器、云厂商内容安全、轻量 LLM

3.3 不建议的做法

  • 不要让旗舰模型处理所有请求。生产系统应至少有路由模型、主模型、兜底模型三层。
  • 不要只按输入/输出单价算成本。Reasoning 模型可能输出更长、重试更多,实际每单成本更高。
  • 不要把超长上下文当作 RAG 替代品。长上下文适合“少量大文档”,RAG 适合“持续增长的知识库”。
  • 不要直接相信模型自称支持的 JSON。必须做 schema 校验、重试和失败降级。

4. 开源与私有化模型

4.1 参数规模与硬件口径

档位代表模型典型部署适合场景
0.5B-4BQwen 小模型、Phi、Gemma、MiniCPMCPU、端侧、消费级 GPU路由、分类、离线小助手
7B-14BQwen、GLM、Llama、Gemma1 张 24G GPU 可量化运行部门级私有化、低并发问答
30B-40BQwen3-32B、GLM-Air、Yi1 张 80G 或多张消费级 GPU企业内部 Agent、较强中文任务
70B 级Qwen、Llama、DeepSeek Distill多卡 A100/H100 或高端推理卡企业主力私有化
200B+ MoEDeepSeek、Qwen MoE、GLM-4.5多机多卡集群行业大脑、高价值私有化

4.2 私有化决策

只有同时满足下列至少两项,才建议认真评估私有化:

  • 数据不能出内网或需要国产化软硬件适配。
  • 月 API 成本已经稳定超过硬件折旧、运维和人力总成本。
  • 需要深度微调、专有工具链或定制安全策略。
  • 延迟、可用性、区域网络不可接受。
  • 有团队能长期维护推理服务、量化、监控、扩缩容和模型升级。

多数早期 Agent 项目建议先用 API 验证业务闭环,再用日志做模型路由和私有化 ROI 测算。


5. 多模态、图像、视频与语音

5.1 多模态理解

任务首选模型类型推荐方向
文档 OCR、表格、合同审阅强 VLM + RAGGemini、Claude、GPT-5、Qwen-VL、GLM-4.5V
截图理解、网页/桌面操作VLM + Computer UseClaude、GPT-5、Gemini、Qwen-VL
视频理解长上下文 VLM / 原生视频模型Gemini、GPT-5、Qwen-VL、InternVL
私有化视觉问答开源 VLMQwen-VL、GLM-4.5V、InternVL

5.2 图像生成

类型模型方向适合场景
商用闭源GPT-Image、DALL·E、Imagen、Midjourney、Recraft、即梦、通义万相海报、电商图、广告素材、Logo/UI 草图
国产生图Qwen-Image / 妙笔(阿里)阿里生态完善,多合一 ControlNet 兼容,适合高质量生图、图像编辑和中文电商/设计工作流
开源/可部署Flux、Stable Diffusion、HiDream、各类 LoRA/ControlNet私有化流水线、风格一致性、批量生成

图像 Agent 的关键不是单张图质量,而是提示词模板、参考图管理、风格一致性、审核和人工返修链路

5.3 视频生成

类型模型方向适合场景
海外闭源Veo、Runway、Pika高质量广告、分镜、创意视频
国内闭源Kling、即梦、Hailuo、Vidu电商视频、短视频、中文语境素材
开源/可部署HunyuanVideo、CogVideoX、Mochi可控实验、私有化研究、低成本批处理

视频 Agent 要重点评估:角色一致性、镜头控制、物理稳定性、生成时长、版权与商用授权。

5.4 语音 Agent

环节推荐方向工程关注点
ASRWhisper、SenseVoice、Paraformer、火山、讯飞噪声、方言、实时流式、标点和说话人
TTSOpenAI Audio、ElevenLabs、CosyVoice、豆包、MiniMax情绪、克隆、流式、授权
端到端实时GPT Realtime、Gemini Live、豆包 Realtime、MiniMax Voice首包延迟、打断、回声消除、电话网关

6. RAG 配套模型

image.png

6.1 推荐组合

语料与场景EmbeddingRerank生成模型
中文企业知识库BGE-M3 / Qwen Embeddingbge-reranker / Qwen RerankerQwen、DeepSeek、GLM、Claude Sonnet
英文技术文档OpenAI / Voyage / CohereCohere / Jina / bgeGPT-5、Claude、Gemini
多语言知识库BGE-M3 / Qwen / CohereJina / Qwen / bgeGemini、Claude、Qwen
私有化部署BGE / Qwen 开源系列bge / Qwen 开源系列Qwen、GLM、DeepSeek、Llama

6.2 RAG 优先级

  1. 先做文档清洗、切分、元数据和权限过滤。
  2. 再调 Embedding 与 Rerank。
  3. 最后换更强生成模型。

很多知识库效果差,并不是主模型不够强,而是召回内容错误、权限过滤不严或上下文拼接混乱。


7. 成本测算

7.1 API 成本公式

月成本 ≈ DAU × 单用户日均轮次 × 单轮平均 token × 单价 × 30

更实用的拆法:

月成本 =
  路由请求成本
+ 主模型输入成本
+ 主模型输出成本
+ reasoning / thinking 额外成本
+ embedding / rerank 成本
+ 图片 / 语音 / 视频成本
+ 重试、失败、缓存未命中成本

7.2 示例

假设:

  • 1 万 DAU
  • 人均每天 5 轮
  • 单轮 3k input + 1k output
  • 每月 30 天
模型层级粗略单轮成本月成本感知
海外旗舰,如 Opus 高价档可能到数万美元/月
海外性价比,如 Sonnet / GPT mini / Gemini Flash通常可通过路由降到可控
国内低价模型,如 DeepSeek / Doubao / Qwen 低价档大规模 ToC 更容易成立

实际项目中,最有效的降本手段通常是:

  • 小模型先路由,只有复杂请求进旗舰模型。
  • 对系统提示词、知识库片段做缓存。
  • 对批处理任务使用 Batch 或离线队列。
  • 控制输出长度,不让模型无限解释。
  • 对失败重试设置预算上限。

8. 五维选型决策树

Q1:数据是否必须不出本地?
  ├─ 是 → 开源/私有化路线:Qwen / GLM / DeepSeek / InternVL / BGE
  └─ 否 → 云端 API 路线

Q2:用户主要在国内还是海外?
  ├─ 国内 → 优先评估 Qwen / DeepSeek / Doubao / Kimi / MiniMax / GLM
  └─ 海外 → 优先评估 GPT / Claude / Gemini

Q3:任务复杂度?
  ├─ 单步 FAQ / 分类 / 摘要 → 轻量模型
  ├─ 工具调用 / 多轮办公 → 中高端模型
  └─ 长任务 / 代码 / 推理 → 旗舰或推理模型

Q4:是否需要多模态?
  ├─ 文档 / 截图 / UI → VLM
  ├─ 实时语音 → Realtime / Live
  ├─ 图像生成 → 图像模型
  └─ 视频生成 → 视频模型

Q5:成本是否敏感?
  ├─ 极致敏感 → 国内低价模型 + 路由 + 缓存
  ├─ 中等敏感 → 性价比模型为主,旗舰兜底
  └─ 不敏感 → 旗舰优先,先追求成功率

9. 典型 Agent 项目推荐

项目主模型配套模型备注
通用 ToC 聊天 AgentDeepSeek / Qwen / GPT-5 mini / Gemini Flash小模型路由 + 内容安全先控成本,再用旗舰兜底高价值请求
企业知识库 AgentQwen / Claude Sonnet / DeepSeek / GLMBGE/Qwen Embedding + Rerank权限、引用、可追溯比模型名更重要
代码开发 AgentClaude Sonnet / GPT-5 Codex / Qwen Coder强制测试、静态检查、代码检索需要工具沙箱和回滚机制
办公自动化 AgentClaude Sonnet / Qwen / MiniMax / Doubao表格/文档工具 + RAG函数调用稳定性优先
电话客服 Voice AgentGPT Realtime / 豆包 Realtime / MiniMaxASR/TTS 兜底 + 人工转接延迟和打断体验决定转化率
多模态运维巡检Gemini / Claude / Qwen-VL / GLM-4.5V规则引擎 + 目标检测截图解析要做置信度和人工复核
营销素材 AgentSonnet/GPT/Qwen 编排图像/视频生成模型重点是流程、审核和版权
端侧/车机 Agent小模型本地 + 云端兜底ASR/TTS、意图分类断网可用和隐私优先

10. 最简速记

  • 海外复杂 Agent:Claude Sonnet / GPT-5 / Gemini Pro。
  • 海外低成本高并发:GPT-5 mini/nano / Gemini Flash / Claude Haiku。
  • 国内综合落地:Qwen / DeepSeek / Doubao / Kimi / MiniMax / GLM。
  • 私有化合规:Qwen、GLM、DeepSeek、BGE、InternVL。
  • 代码 Agent:Claude Sonnet、GPT-5 Codex、Qwen Coder、DeepSeek Coder。
  • 复杂推理:GPT-5 high、o3、Claude Opus、DeepSeek-R1、Qwen Thinking。
  • 多模态文档和截图:Gemini、Claude、GPT-5、Qwen-VL、GLM-4.5V。
  • Voice Agent:GPT Realtime / Gemini Live / 豆包 Realtime / MiniMax。
  • RAG 标配:高质量切分 + Embedding + Rerank + 引用溯源。
  • 成本控制:路由、缓存、Batch、限长、兜底和日志回放。

11. 上线前检查清单

  • 是否明确主模型、路由模型、兜底模型?
  • 是否记录每次调用的输入、输出、耗时、费用、模型版本?
  • 是否有 JSON Schema 校验和失败重试?
  • 是否有 prompt caching / Batch / 限长策略?
  • 是否做过真实业务集评测,而不是只看公开榜单?
  • 是否测过长上下文位置衰减?
  • 是否测过工具调用成功率和错误恢复?
  • 是否有内容安全、隐私脱敏和审计日志?
  • 是否准备了模型下线、涨价、限流时的替代方案?

12. 主要信息源

以下来源用于校准本文的模型格局和价格口径,具体上线价格以控制台实时显示为准。