第 3 章 主流大模型产品与服务全览
"选择比努力更重要——尤其是在模型选型这件事上。"
前两章我们搞懂了大模型"是什么"和"怎么工作"。这一章,我们来解决一个更实际的问题:市面上这么多大模型,我该用哪个?
作为后端工程师,你选数据库时会考虑:MySQL 还是 PostgreSQL?Redis 还是 Memcached?选大模型也一样——不同模型有不同的能力特点、价格策略、使用限制。选对了,事半功倍;选错了,要么效果差,要么成本高,要么踩到合规雷区。
这一章,我们把主流大模型产品做一个全景扫描,最后给你一个选型决策树,帮你在具体业务场景做出正确选择。
3.1 国际主流大模型
3.1.1 OpenAI GPT 系列
GPT(Generative Pre-trained Transformer) 是大模型时代的开创者,也是目前生态最完善、应用最广泛的模型系列。
| 模型 | 定位 | 特点 | 适用场景 |
|---|---|---|---|
| GPT-4o | 旗舰多模态 | 文本+图像+音频,速度快,能力强 | 通用场景首选 |
| GPT-4o-mini | 轻量版 | 成本低 90%,速度更快,能力略降 | 成本敏感场景 |
| o1 / o3 | 推理专用 | 擅长复杂推理、数学、代码 | 需要深度思考的任务 |
| o1-mini | 轻量推理版 | 成本低,推理能力依然强劲 | 日常推理任务 |
核心优势:
- 生态最成熟,文档、工具链、社区支持最好
- 多模态能力领先(图像理解、语音对话)
- Function Calling 稳定可靠
主要限制:
- 国内访问需要特殊网络环境
- 数据出境合规风险(敏感数据不能直接用)
- 价格相对较高
价格参考(2025年初):
- GPT-4o:输入 10/百万 Token
- GPT-4o-mini:输入 0.6/百万 Token
3.1.2 Anthropic Claude 系列
Claude 由 Anthropic 公司开发,以安全性和长上下文著称,是 OpenAI 最强的竞争对手之一。
| 模型 | 定位 | 特点 |
|---|---|---|
| Claude 3.5 Sonnet | 主力模型 | 推理能力强,代码能力优秀,200K 上下文 |
| Claude 3.5 Haiku | 轻量版 | 速度快,成本低 |
| Claude 3 Opus | 旗舰版 | 最强能力,最高价格 |
核心优势:
- 长上下文王者:200K Token 上下文,处理长文档能力极强
- 代码能力突出:很多开发者认为 Claude 写代码比 GPT-4 更可靠
- 安全性设计:内置更强的内容过滤和拒绝机制
主要限制:
- 多模态能力弱于 GPT-4o(图像理解可以,但没有语音对话)
- 国内访问同样需要特殊网络环境
- Function Calling 稳定性略逊于 OpenAI
价格参考:
- Claude 3.5 Sonnet:输入 15/百万 Token
- 比 GPT-4o 略贵,但长上下文场景性价比更高
3.1.3 Google Gemini 系列
Gemini 是 Google 的大模型系列,与 Google 云服务深度集成。
| 模型 | 定位 | 特点 |
|---|---|---|
| Gemini 1.5 Pro | 主力模型 | 100万 Token 超长上下文,多模态 |
| Gemini 1.5 Flash | 轻量版 | 速度快,成本低 |
| Gemini Ultra | 旗舰版 | 最强能力 |
核心优势:
- 超长上下文:Gemini 1.5 Pro 支持 100万 Token,是业界最长
- 与 Google Cloud 生态深度集成
- 多模态能力强
主要限制:
- 中文能力略逊于 GPT 和 Claude
- 开发者生态不如 OpenAI 成熟
- 国内访问受限
📌 插图 3-1:国际主流大模型能力对比雷达图
代码能力 ▲ │ 多模态 ◄────┼────► 推理能力 │ ▼ 长上下文 GPT-4o: ████████████████████ 全能型,多模态最强 Claude 3.5: █████████████████░░░ 代码+长上下文最强 Gemini 1.5: ████████████████░░░░ 长上下文王者
3.2 国内主流大模型
对于国内业务,国内大模型往往是更务实的选择——访问稳定、合规风险低、中文优化好、价格有优势。
3.2.1 百度文心一言(ERNIE Bot)
文心一言是国内最早发布的大模型产品之一,基于百度自研的 ERNIE 架构。
核心优势:
- 中文理解能力强,对中文语境优化深入
- 与百度搜索生态结合,知识更新相对及时
- 企业版服务完善,有私有化部署选项
适用场景:
- 中文内容生成、文案写作
- 与百度搜索结合的知识问答
- 需要私有化部署的企业
价格:
- 文心一言 4.0:约 ¥0.12/千 Token(输入+输出平均)
- 文心一言 3.5:约 ¥0.012/千 Token
3.2.2 阿里通义千问(Qwen)
通义千问是阿里云的大模型产品,开源版本 Qwen 在国际开源社区影响力极大。
| 版本 | 说明 |
|---|---|
| 通义千问-Max | 最强闭源版本 |
| 通义千问-Plus | 主力版本,平衡能力成本 |
| 通义千问-Turbo | 轻量版,速度快 |
| Qwen2.5(开源) | 开源可商用,效果接近 GPT-4 |
核心优势:
- 开源生态极强:Qwen 系列开源模型在 Hugging Face 上 Star 数领先
- 与阿里云生态深度集成(OSS、RDS、函数计算等)
- 代码能力优秀,有专门的 CodeQwen 代码模型
适用场景:
- 需要开源/私有化部署的场景
- 阿里云生态内的应用
- 代码生成和开发辅助
价格:
- 通义千问-Max:约 ¥0.04/千 Token
- 通义千问-Plus:约 ¥0.012/千 Token
3.2.3 DeepSeek(深度求索)
DeepSeek 是 2024-2025 年最惊艳的国产大模型,以极高性价比震撼业界。
| 模型 | 特点 |
|---|---|
| DeepSeek-V3 | 通用模型,性能接近 GPT-4o,价格仅 1/10 |
| DeepSeek-R1 | 推理专用模型,对标 OpenAI o1,开源 |
核心优势:
- 性价比极高:V3 价格约 ¥2/百万 Token,是 GPT-4o 的 1/10
- 开源可商用:R1 完全开源,可以本地部署
- 推理能力突出:R1 在数学、代码推理上达到 o1 水平
2025年初的震撼: DeepSeek-R1 以极低的训练成本(约 600 万美元)达到了 GPT-4o 级别的性能,引发全球对"算力军备竞赛"的反思。其开源策略也让全球开发者受益。
适用场景:
- 成本极度敏感的大规模应用
- 需要推理能力的场景(数学、代码、逻辑分析)
- 希望本地部署/私有化的场景
价格:
- DeepSeek-V3:¥2/百万 Token(输入),¥8/百万 Token(输出)
- DeepSeek-R1:¥4/百万 Token(输入),¥16/百万 Token(输出)
3.2.4 月之暗面 Kimi
Kimi 以超长上下文著称,是长文档处理的首选。
核心优势:
- 超长上下文:支持 200万 Token,业界领先
- 长文档理解能力强,适合论文、报告、书籍分析
- 产品体验好,C 端用户口碑佳
适用场景:
- 长文档总结、分析、问答
- 论文阅读辅助
- 法律合同审查
价格:
- Kimi K1.5:约 ¥0.06/千 Token
3.2.5 智谱 ChatGLM
ChatGLM 由清华大学和智谱 AI 联合研发,是国内最早开源的高质量对话模型。
| 版本 | 说明 |
|---|---|
| GLM-4 | 最新旗舰版本 |
| GLM-4-9B(开源) | 9B 参数开源版本,可本地运行 |
核心优势:
- 开源友好,社区活跃
- 中文能力强
- 有较小的开源版本,适合边缘部署
📌 插图 3-2:国内大模型价格对比(每百万 Token)
模型 输入价格 输出价格 备注 ───────────────────────────────────────────────────────── 文心一言 4.0 ¥120 ¥120 中文优化好 通义千问-Max ¥40 ¥40 开源生态强 DeepSeek-V3 ¥2 ¥8 性价比之王 Kimi K1.5 ¥60 ¥60 超长上下文 GLM-4 ¥100 ¥100 开源友好 对比:GPT-4o ~¥18 ~¥72 国际标杆
3.3 开源模型:什么时候用开源?
3.3.1 主流开源模型
| 模型 | 开发者 | 参数规模 | 特点 |
|---|---|---|---|
| Llama 3 | Meta | 8B/70B/405B | 开源生态最成熟 |
| Qwen2.5 | 阿里 | 0.5B-72B | 中文强,全尺寸开源 |
| DeepSeek-R1 | DeepSeek | 7B-671B | 推理强,完全开源 |
| ChatGLM3 | 智谱 | 6B | 轻量,适合边缘 |
| Mistral | Mistral AI | 7B/8x7B/8x22B | 欧洲开源代表 |
3.3.2 开源 vs 闭源:如何选择?
| 维度 | 闭源 API | 开源本地部署 |
|---|---|---|
| 成本 | 按量付费,用多少付多少 | 前期硬件投入大,后期边际成本低 |
| 数据安全 | 数据要传送到服务商 | 数据完全本地,最安全 |
| 定制化 | 只能调 Prompt,不能改模型 | 可以微调、蒸馏、量化 |
| 延迟 | 网络延迟 | 本地推理,延迟低 |
| 维护成本 | 低(服务商维护) | 高(需要自己运维) |
| 能力上限 | 通常更强(如 GPT-4o) | 开源最强约等于 GPT-4 水平 |
选择建议:
-
用闭源 API:
- 快速验证想法、MVP 阶段
- 数据不敏感、合规要求不高
- 需要最强模型能力(如 GPT-4o、Claude 3.5)
- 不想投入运维资源
-
用开源本地部署:
- 数据敏感(金融、医疗、政务)
- 调用量极大,API 成本不可承受
- 需要深度定制(领域微调)
- 有专门的运维团队
3.4 云厂商 API 服务横向对比
除了直接调用模型厂商的 API,你还可以通过云厂商使用大模型服务。云厂商通常提供:
- 统一 API 接口:一个接口调用多个模型
- 额外功能:缓存、限流、监控、日志
- 生态集成:与云数据库、对象存储、函数计算等集成
| 云厂商 | 服务名称 | 支持模型 | 特色功能 |
|---|---|---|---|
| 阿里云 | 百炼/灵积 | 通义千问、Llama、ChatGLM 等 | 与阿里云生态深度集成 |
| 腾讯云 | 混元大模型 | 混元、Llama 等 | 微信生态集成 |
| 华为云 | 盘古大模型 | 盘古系列 | 政企市场强 |
| AWS | Amazon Bedrock | Claude、Llama、Titan 等 | 国际模型最全 |
| Azure | Azure OpenAI | GPT 系列 | 企业级安全合规 |
选择建议:
- 已经在用某云厂商,优先考虑其大模型服务(生态集成好)
- 需要国际模型,选 AWS Bedrock 或 Azure OpenAI
- 需要国内合规,选阿里云、腾讯云、华为云
3.5 如何选择适合业务场景的模型?
讲了这么多,最终还是要回答:你的业务该用哪个模型?
3.5.1 选型决策树
开始选型
│
▼
数据是否敏感?(金融/医疗/政务)
│
├── 是 ──► 开源本地部署
│ ├── 需要推理能力 ──► DeepSeek-R1
│ ├── 需要中文能力 ──► Qwen2.5
│ └── 需要轻量部署 ──► Llama 3 8B / Qwen2.5 7B
│
└── 否 ──► 使用 API
│
▼
预算是否充足?
│
├── 充足 ──► 追求最强能力
│ ├── 需要多模态 ──► GPT-4o
│ ├── 需要长上下文 ──► Claude 3.5 / Kimi
│ └── 需要代码能力 ──► Claude 3.5 / GPT-4o
│
└── 紧张 ──► 追求性价比
├── 需要推理能力 ──► DeepSeek-R1
├── 通用场景 ──► DeepSeek-V3 / 通义千问-Plus
└── 长文档 ──► Kimi(按量其实不贵)
3.5.2 典型场景推荐
| 业务场景 | 推荐模型 | 理由 |
|---|---|---|
| 智能客服 | DeepSeek-V3 / 通义千问-Plus | 成本低,中文好,可配合 RAG |
| 代码生成 | Claude 3.5 / GPT-4o | 代码能力最强 |
| 长文档分析 | Kimi / Claude 3.5 | 上下文窗口大 |
| 内容创作 | GPT-4o / 文心一言 4.0 | 生成质量高 |
| 数据分析 | DeepSeek-R1 / GPT-4o | 推理能力强 |
| 私有化部署 | Qwen2.5 / DeepSeek-R1 | 开源可商用 |
3.5.3 多模型策略
很多生产系统不会只用一个模型,而是根据任务类型动态路由:
# 伪代码:多模型路由
def route_request(task_type, content):
if task_type == "code_generation":
return call_claude35(content) # 代码用 Claude
elif task_type == "simple_qa":
return call_deepseek_v3(content) # 简单问答用便宜的
elif task_type == "complex_reasoning":
return call_deepseek_r1(content) # 复杂推理用 R1
elif len(content) > 100000:
return call_kimi(content) # 长文本用 Kimi
else:
return call_gpt4o(content) # 默认用最强的
这种策略可以在保证效果的同时,显著降低成本。
📌 插图 3-3:多模型路由架构图
用户请求 │ ▼ ┌─────────────────────────────────────┐ │ 任务类型识别 │ │ (代码?问答?推理?长文本?) │ └──────────────┬──────────────────────┘ │ ┌───────┼───────┐ ▼ ▼ ▼ ┌──────┐ ┌──────┐ ┌──────┐ │Claude│ │DeepSe│ │ GPT │ │ 3.5 │ │ eek │ │ 4o │ └──┬───┘ └──┬───┘ └──┬───┘ └─────────┼─────────┘ ▼ 统一响应格式 │ ▼ 返回用户
本章小结
这一章我们全面扫描了主流大模型产品:
-
国际模型:GPT-4o(全能)、Claude 3.5(代码+长上下文)、Gemini(超长上下文)
-
国内模型:
- 文心一言:中文优化好,搜索结合
- 通义千问:开源生态强,阿里云集成
- DeepSeek:性价比之王,推理能力突出
- Kimi:超长上下文,长文档首选
- ChatGLM:开源友好,轻量部署
-
开源 vs 闭源:数据敏感选开源,追求效果选闭源,大调用量选开源降成本
-
选型决策:根据数据敏感度、预算、任务类型、上下文长度综合决策
-
多模型策略:生产环境常用路由策略,不同任务用不同模型,平衡效果与成本
思考题
-
你正在开发一个医疗问诊助手,患者数据非常敏感。你会选择哪种部署方案?具体用哪个模型?
-
假设你的系统每天调用大模型 1000 万次,平均每次 500 Token。分别用 GPT-4o 和 DeepSeek-V3,成本差异是多少?这个成本差异是否值得切换?
-
设计一个简单的多模型路由策略:如何根据用户请求的特征,自动选择最合适的模型?
下一章预告:选好模型之后,下一步就是动手接入。第 4 章,我们将实战——从注册账号到发出第一个 API 请求,从流式输出到 Function Calling,让你真正跑起来。