第3章-主流大模型产品与服务全览第 3 章主流大模型产品与服务全览前两章我们搞懂了大模型"是什么"和"怎么工作"。这

第 3 章主流大模型产品与服务全览

"选择比努力更重要——尤其是在模型选型这件事上。"

前两章我们搞懂了大模型"是什么"和"怎么工作"。这一章，我们来解决一个更实际的问题：市面上这么多大模型，我该用哪个？

作为后端工程师，你选数据库时会考虑：MySQL 还是 PostgreSQL？Redis 还是 Memcached？选大模型也一样——不同模型有不同的能力特点、价格策略、使用限制。选对了，事半功倍；选错了，要么效果差，要么成本高，要么踩到合规雷区。

这一章，我们把主流大模型产品做一个全景扫描，最后给你一个选型决策树，帮你在具体业务场景做出正确选择。

3.1 国际主流大模型

3.1.1 OpenAI GPT 系列

GPT（Generative Pre-trained Transformer） 是大模型时代的开创者，也是目前生态最完善、应用最广泛的模型系列。

模型	定位	特点	适用场景
GPT-4o	旗舰多模态	文本+图像+音频，速度快，能力强	通用场景首选
GPT-4o-mini	轻量版	成本低 90%，速度更快，能力略降	成本敏感场景
o1 / o3	推理专用	擅长复杂推理、数学、代码	需要深度思考的任务
o1-mini	轻量推理版	成本低，推理能力依然强劲	日常推理任务

核心优势：

生态最成熟，文档、工具链、社区支持最好
多模态能力领先（图像理解、语音对话）
Function Calling 稳定可靠

主要限制：

国内访问需要特殊网络环境
数据出境合规风险（敏感数据不能直接用）
价格相对较高

价格参考（2025年初）：

GPT-4o：输入 $2.5/百万 Token，输出$ 10/百万 Token
GPT-4o-mini：输入 $0.15/百万 Token，输出$ 0.6/百万 Token

3.1.2 Anthropic Claude 系列

Claude 由 Anthropic 公司开发，以安全性和长上下文著称，是 OpenAI 最强的竞争对手之一。

模型	定位	特点
Claude 3.5 Sonnet	主力模型	推理能力强，代码能力优秀，200K 上下文
Claude 3.5 Haiku	轻量版	速度快，成本低
Claude 3 Opus	旗舰版	最强能力，最高价格

核心优势：

长上下文王者：200K Token 上下文，处理长文档能力极强
代码能力突出：很多开发者认为 Claude 写代码比 GPT-4 更可靠
安全性设计：内置更强的内容过滤和拒绝机制

主要限制：

多模态能力弱于 GPT-4o（图像理解可以，但没有语音对话）
国内访问同样需要特殊网络环境
Function Calling 稳定性略逊于 OpenAI

价格参考：

Claude 3.5 Sonnet：输入 $3/百万 Token，输出$ 15/百万 Token
比 GPT-4o 略贵，但长上下文场景性价比更高

3.1.3 Google Gemini 系列

Gemini 是 Google 的大模型系列，与 Google 云服务深度集成。

模型	定位	特点
Gemini 1.5 Pro	主力模型	100万 Token 超长上下文，多模态
Gemini 1.5 Flash	轻量版	速度快，成本低
Gemini Ultra	旗舰版	最强能力

核心优势：

超长上下文：Gemini 1.5 Pro 支持 100万 Token，是业界最长
与 Google Cloud 生态深度集成
多模态能力强

主要限制：

中文能力略逊于 GPT 和 Claude
开发者生态不如 OpenAI 成熟
国内访问受限

📌 插图 3-1：国际主流大模型能力对比雷达图

                   代码能力
                      ▲
                      │
          多模态 ◄────┼────► 推理能力
                      │
                      ▼
                   长上下文

GPT-4o:     ████████████████████ 全能型，多模态最强
Claude 3.5: █████████████████░░░ 代码+长上下文最强
Gemini 1.5: ████████████████░░░░ 长上下文王者

3.2 国内主流大模型

对于国内业务，国内大模型往往是更务实的选择——访问稳定、合规风险低、中文优化好、价格有优势。

3.2.1 百度文心一言（ERNIE Bot）

文心一言是国内最早发布的大模型产品之一，基于百度自研的 ERNIE 架构。

核心优势：

中文理解能力强，对中文语境优化深入
与百度搜索生态结合，知识更新相对及时
企业版服务完善，有私有化部署选项

适用场景：

中文内容生成、文案写作
与百度搜索结合的知识问答
需要私有化部署的企业

价格：

文心一言 4.0：约 ¥0.12/千 Token（输入+输出平均）
文心一言 3.5：约 ¥0.012/千 Token

3.2.2 阿里通义千问（Qwen）

通义千问是阿里云的大模型产品，开源版本 Qwen 在国际开源社区影响力极大。

版本	说明
通义千问-Max	最强闭源版本
通义千问-Plus	主力版本，平衡能力成本
通义千问-Turbo	轻量版，速度快
Qwen2.5（开源）	开源可商用，效果接近 GPT-4

核心优势：

开源生态极强：Qwen 系列开源模型在 Hugging Face 上 Star 数领先
与阿里云生态深度集成（OSS、RDS、函数计算等）
代码能力优秀，有专门的 CodeQwen 代码模型

适用场景：

需要开源/私有化部署的场景
阿里云生态内的应用
代码生成和开发辅助

价格：

通义千问-Max：约 ¥0.04/千 Token
通义千问-Plus：约 ¥0.012/千 Token

3.2.3 DeepSeek（深度求索）

DeepSeek 是 2024-2025 年最惊艳的国产大模型，以极高性价比震撼业界。

模型	特点
DeepSeek-V3	通用模型，性能接近 GPT-4o，价格仅 1/10
DeepSeek-R1	推理专用模型，对标 OpenAI o1，开源

核心优势：

性价比极高：V3 价格约 ¥2/百万 Token，是 GPT-4o 的 1/10
开源可商用：R1 完全开源，可以本地部署
推理能力突出：R1 在数学、代码推理上达到 o1 水平

2025年初的震撼： DeepSeek-R1 以极低的训练成本（约 600 万美元）达到了 GPT-4o 级别的性能，引发全球对"算力军备竞赛"的反思。其开源策略也让全球开发者受益。

适用场景：

成本极度敏感的大规模应用
需要推理能力的场景（数学、代码、逻辑分析）
希望本地部署/私有化的场景

价格：

DeepSeek-V3：¥2/百万 Token（输入），¥8/百万 Token（输出）
DeepSeek-R1：¥4/百万 Token（输入），¥16/百万 Token（输出）

3.2.4 月之暗面 Kimi

Kimi 以超长上下文著称，是长文档处理的首选。

核心优势：

超长上下文：支持 200万 Token，业界领先
长文档理解能力强，适合论文、报告、书籍分析
产品体验好，C 端用户口碑佳

适用场景：

长文档总结、分析、问答
论文阅读辅助
法律合同审查

价格：

Kimi K1.5：约 ¥0.06/千 Token

3.2.5 智谱 ChatGLM

ChatGLM 由清华大学和智谱 AI 联合研发，是国内最早开源的高质量对话模型。

版本	说明
GLM-4	最新旗舰版本
GLM-4-9B（开源）	9B 参数开源版本，可本地运行

核心优势：

开源友好，社区活跃
中文能力强
有较小的开源版本，适合边缘部署

📌 插图 3-2：国内大模型价格对比（每百万 Token）

模型              输入价格      输出价格      备注
─────────────────────────────────────────────────────────
文心一言 4.0      ¥120         ¥120         中文优化好
通义千问-Max      ¥40          ¥40          开源生态强
DeepSeek-V3       ¥2           ¥8           性价比之王
Kimi K1.5         ¥60          ¥60          超长上下文
GLM-4             ¥100         ¥100         开源友好

对比：GPT-4o      ~¥18         ~¥72         国际标杆

3.3 开源模型：什么时候用开源？

3.3.1 主流开源模型

模型	开发者	参数规模	特点
Llama 3	Meta	8B/70B/405B	开源生态最成熟
Qwen2.5	阿里	0.5B-72B	中文强，全尺寸开源
DeepSeek-R1	DeepSeek	7B-671B	推理强，完全开源
ChatGLM3	智谱	6B	轻量，适合边缘
Mistral	Mistral AI	7B/8x7B/8x22B	欧洲开源代表

3.3.2 开源 vs 闭源：如何选择？

维度	闭源 API	开源本地部署
成本	按量付费，用多少付多少	前期硬件投入大，后期边际成本低
数据安全	数据要传送到服务商	数据完全本地，最安全
定制化	只能调 Prompt，不能改模型	可以微调、蒸馏、量化
延迟	网络延迟	本地推理，延迟低
维护成本	低（服务商维护）	高（需要自己运维）
能力上限	通常更强（如 GPT-4o）	开源最强约等于 GPT-4 水平

选择建议：

用闭源 API：
- 快速验证想法、MVP 阶段
- 数据不敏感、合规要求不高
- 需要最强模型能力（如 GPT-4o、Claude 3.5）
- 不想投入运维资源
用开源本地部署：
- 数据敏感（金融、医疗、政务）
- 调用量极大，API 成本不可承受
- 需要深度定制（领域微调）
- 有专门的运维团队

3.4 云厂商 API 服务横向对比

除了直接调用模型厂商的 API，你还可以通过云厂商使用大模型服务。云厂商通常提供：

统一 API 接口：一个接口调用多个模型
额外功能：缓存、限流、监控、日志
生态集成：与云数据库、对象存储、函数计算等集成

云厂商	服务名称	支持模型	特色功能
阿里云	百炼/灵积	通义千问、Llama、ChatGLM 等	与阿里云生态深度集成
腾讯云	混元大模型	混元、Llama 等	微信生态集成
华为云	盘古大模型	盘古系列	政企市场强
AWS	Amazon Bedrock	Claude、Llama、Titan 等	国际模型最全
Azure	Azure OpenAI	GPT 系列	企业级安全合规

选择建议：

已经在用某云厂商，优先考虑其大模型服务（生态集成好）
需要国际模型，选 AWS Bedrock 或 Azure OpenAI
需要国内合规，选阿里云、腾讯云、华为云

3.5 如何选择适合业务场景的模型？

讲了这么多，最终还是要回答：你的业务该用哪个模型？

3.5.1 选型决策树

开始选型
    │
    ▼
数据是否敏感？（金融/医疗/政务）
    │
    ├── 是 ──► 开源本地部署
    │           ├── 需要推理能力 ──► DeepSeek-R1
    │           ├── 需要中文能力 ──► Qwen2.5
    │           └── 需要轻量部署 ──► Llama 3 8B / Qwen2.5 7B
    │
    └── 否 ──► 使用 API
                │
                ▼
            预算是否充足？
                │
                ├── 充足 ──► 追求最强能力
                │           ├── 需要多模态 ──► GPT-4o
                │           ├── 需要长上下文 ──► Claude 3.5 / Kimi
                │           └── 需要代码能力 ──► Claude 3.5 / GPT-4o
                │
                └── 紧张 ──► 追求性价比
                            ├── 需要推理能力 ──► DeepSeek-R1
                            ├── 通用场景 ──► DeepSeek-V3 / 通义千问-Plus
                            └── 长文档 ──► Kimi（按量其实不贵）

3.5.2 典型场景推荐

业务场景	推荐模型	理由
智能客服	DeepSeek-V3 / 通义千问-Plus	成本低，中文好，可配合 RAG
代码生成	Claude 3.5 / GPT-4o	代码能力最强
长文档分析	Kimi / Claude 3.5	上下文窗口大
内容创作	GPT-4o / 文心一言 4.0	生成质量高
数据分析	DeepSeek-R1 / GPT-4o	推理能力强
私有化部署	Qwen2.5 / DeepSeek-R1	开源可商用

3.5.3 多模型策略

很多生产系统不会只用一个模型，而是根据任务类型动态路由：

# 伪代码：多模型路由
def route_request(task_type, content):
    if task_type == "code_generation":
        return call_claude35(content)  # 代码用 Claude
    elif task_type == "simple_qa":
        return call_deepseek_v3(content)  # 简单问答用便宜的
    elif task_type == "complex_reasoning":
        return call_deepseek_r1(content)  # 复杂推理用 R1
    elif len(content) > 100000:
        return call_kimi(content)  # 长文本用 Kimi
    else:
        return call_gpt4o(content)  # 默认用最强的

这种策略可以在保证效果的同时，显著降低成本。

📌 插图 3-3：多模型路由架构图

用户请求
   │
   ▼
┌─────────────────────────────────────┐
│         任务类型识别                 │
│  （代码？问答？推理？长文本？）       │
└──────────────┬──────────────────────┘
               │
       ┌───────┼───────┐
       ▼       ▼       ▼
   ┌──────┐ ┌──────┐ ┌──────┐
   │Claude│ │DeepSe│ │ GPT  │
   │ 3.5  │ │ eek  │ │ 4o   │
   └──┬───┘ └──┬───┘ └──┬───┘
      └─────────┼─────────┘
                ▼
           统一响应格式
                │
                ▼
             返回用户

本章小结

这一章我们全面扫描了主流大模型产品：

国际模型：GPT-4o（全能）、Claude 3.5（代码+长上下文）、Gemini（超长上下文）
国内模型：
- 文心一言：中文优化好，搜索结合
- 通义千问：开源生态强，阿里云集成
- DeepSeek：性价比之王，推理能力突出
- Kimi：超长上下文，长文档首选
- ChatGLM：开源友好，轻量部署
开源 vs 闭源：数据敏感选开源，追求效果选闭源，大调用量选开源降成本
选型决策：根据数据敏感度、预算、任务类型、上下文长度综合决策
多模型策略：生产环境常用路由策略，不同任务用不同模型，平衡效果与成本

思考题

你正在开发一个医疗问诊助手，患者数据非常敏感。你会选择哪种部署方案？具体用哪个模型？
假设你的系统每天调用大模型 1000 万次，平均每次 500 Token。分别用 GPT-4o 和 DeepSeek-V3，成本差异是多少？这个成本差异是否值得切换？
设计一个简单的多模型路由策略：如何根据用户请求的特征，自动选择最合适的模型？

下一章预告：选好模型之后，下一步就是动手接入。第 4 章，我们将实战——从注册账号到发出第一个 API 请求，从流式输出到 Function Calling，让你真正跑起来。

第3章-主流大模型产品与服务全览