第3章-主流大模型产品与服务全览

4 阅读11分钟

第 3 章 主流大模型产品与服务全览

"选择比努力更重要——尤其是在模型选型这件事上。"

前两章我们搞懂了大模型"是什么"和"怎么工作"。这一章,我们来解决一个更实际的问题:市面上这么多大模型,我该用哪个?

作为后端工程师,你选数据库时会考虑:MySQL 还是 PostgreSQL?Redis 还是 Memcached?选大模型也一样——不同模型有不同的能力特点、价格策略、使用限制。选对了,事半功倍;选错了,要么效果差,要么成本高,要么踩到合规雷区。

这一章,我们把主流大模型产品做一个全景扫描,最后给你一个选型决策树,帮你在具体业务场景做出正确选择。


3.1 国际主流大模型

3.1.1 OpenAI GPT 系列

GPT(Generative Pre-trained Transformer) 是大模型时代的开创者,也是目前生态最完善、应用最广泛的模型系列。

模型定位特点适用场景
GPT-4o旗舰多模态文本+图像+音频,速度快,能力强通用场景首选
GPT-4o-mini轻量版成本低 90%,速度更快,能力略降成本敏感场景
o1 / o3推理专用擅长复杂推理、数学、代码需要深度思考的任务
o1-mini轻量推理版成本低,推理能力依然强劲日常推理任务

核心优势

  • 生态最成熟,文档、工具链、社区支持最好
  • 多模态能力领先(图像理解、语音对话)
  • Function Calling 稳定可靠

主要限制

  • 国内访问需要特殊网络环境
  • 数据出境合规风险(敏感数据不能直接用)
  • 价格相对较高

价格参考(2025年初):

  • GPT-4o:输入 2.5/百万Token,输出2.5/百万 Token,输出 10/百万 Token
  • GPT-4o-mini:输入 0.15/百万Token,输出0.15/百万 Token,输出 0.6/百万 Token

3.1.2 Anthropic Claude 系列

Claude 由 Anthropic 公司开发,以安全性和长上下文著称,是 OpenAI 最强的竞争对手之一。

模型定位特点
Claude 3.5 Sonnet主力模型推理能力强,代码能力优秀,200K 上下文
Claude 3.5 Haiku轻量版速度快,成本低
Claude 3 Opus旗舰版最强能力,最高价格

核心优势

  • 长上下文王者:200K Token 上下文,处理长文档能力极强
  • 代码能力突出:很多开发者认为 Claude 写代码比 GPT-4 更可靠
  • 安全性设计:内置更强的内容过滤和拒绝机制

主要限制

  • 多模态能力弱于 GPT-4o(图像理解可以,但没有语音对话)
  • 国内访问同样需要特殊网络环境
  • Function Calling 稳定性略逊于 OpenAI

价格参考

  • Claude 3.5 Sonnet:输入 3/百万Token,输出3/百万 Token,输出 15/百万 Token
  • 比 GPT-4o 略贵,但长上下文场景性价比更高

3.1.3 Google Gemini 系列

Gemini 是 Google 的大模型系列,与 Google 云服务深度集成。

模型定位特点
Gemini 1.5 Pro主力模型100万 Token 超长上下文,多模态
Gemini 1.5 Flash轻量版速度快,成本低
Gemini Ultra旗舰版最强能力

核心优势

  • 超长上下文:Gemini 1.5 Pro 支持 100万 Token,是业界最长
  • 与 Google Cloud 生态深度集成
  • 多模态能力强

主要限制

  • 中文能力略逊于 GPT 和 Claude
  • 开发者生态不如 OpenAI 成熟
  • 国内访问受限

📌 插图 3-1:国际主流大模型能力对比雷达图

                   代码能力
                      
                      
          多模态 ◄────┼────► 推理能力
                      
                      
                   长上下文

GPT-4o:     ████████████████████ 全能型,多模态最强
Claude 3.5: █████████████████░░░ 代码+长上下文最强
Gemini 1.5: ████████████████░░░░ 长上下文王者

3.2 国内主流大模型

对于国内业务,国内大模型往往是更务实的选择——访问稳定、合规风险低、中文优化好、价格有优势。

3.2.1 百度文心一言(ERNIE Bot)

文心一言是国内最早发布的大模型产品之一,基于百度自研的 ERNIE 架构。

核心优势

  • 中文理解能力强,对中文语境优化深入
  • 与百度搜索生态结合,知识更新相对及时
  • 企业版服务完善,有私有化部署选项

适用场景

  • 中文内容生成、文案写作
  • 与百度搜索结合的知识问答
  • 需要私有化部署的企业

价格

  • 文心一言 4.0:约 ¥0.12/千 Token(输入+输出平均)
  • 文心一言 3.5:约 ¥0.012/千 Token

3.2.2 阿里通义千问(Qwen)

通义千问是阿里云的大模型产品,开源版本 Qwen 在国际开源社区影响力极大。

版本说明
通义千问-Max最强闭源版本
通义千问-Plus主力版本,平衡能力成本
通义千问-Turbo轻量版,速度快
Qwen2.5(开源)开源可商用,效果接近 GPT-4

核心优势

  • 开源生态极强:Qwen 系列开源模型在 Hugging Face 上 Star 数领先
  • 与阿里云生态深度集成(OSS、RDS、函数计算等)
  • 代码能力优秀,有专门的 CodeQwen 代码模型

适用场景

  • 需要开源/私有化部署的场景
  • 阿里云生态内的应用
  • 代码生成和开发辅助

价格

  • 通义千问-Max:约 ¥0.04/千 Token
  • 通义千问-Plus:约 ¥0.012/千 Token

3.2.3 DeepSeek(深度求索)

DeepSeek 是 2024-2025 年最惊艳的国产大模型,以极高性价比震撼业界。

模型特点
DeepSeek-V3通用模型,性能接近 GPT-4o,价格仅 1/10
DeepSeek-R1推理专用模型,对标 OpenAI o1,开源

核心优势

  • 性价比极高:V3 价格约 ¥2/百万 Token,是 GPT-4o 的 1/10
  • 开源可商用:R1 完全开源,可以本地部署
  • 推理能力突出:R1 在数学、代码推理上达到 o1 水平

2025年初的震撼: DeepSeek-R1 以极低的训练成本(约 600 万美元)达到了 GPT-4o 级别的性能,引发全球对"算力军备竞赛"的反思。其开源策略也让全球开发者受益。

适用场景

  • 成本极度敏感的大规模应用
  • 需要推理能力的场景(数学、代码、逻辑分析)
  • 希望本地部署/私有化的场景

价格

  • DeepSeek-V3:¥2/百万 Token(输入),¥8/百万 Token(输出)
  • DeepSeek-R1:¥4/百万 Token(输入),¥16/百万 Token(输出)

3.2.4 月之暗面 Kimi

Kimi超长上下文著称,是长文档处理的首选。

核心优势

  • 超长上下文:支持 200万 Token,业界领先
  • 长文档理解能力强,适合论文、报告、书籍分析
  • 产品体验好,C 端用户口碑佳

适用场景

  • 长文档总结、分析、问答
  • 论文阅读辅助
  • 法律合同审查

价格

  • Kimi K1.5:约 ¥0.06/千 Token

3.2.5 智谱 ChatGLM

ChatGLM 由清华大学和智谱 AI 联合研发,是国内最早开源的高质量对话模型。

版本说明
GLM-4最新旗舰版本
GLM-4-9B(开源)9B 参数开源版本,可本地运行

核心优势

  • 开源友好,社区活跃
  • 中文能力强
  • 有较小的开源版本,适合边缘部署

📌 插图 3-2:国内大模型价格对比(每百万 Token)

模型              输入价格      输出价格      备注
─────────────────────────────────────────────────────────
文心一言 4.0      ¥120         ¥120         中文优化好
通义千问-Max      ¥40          ¥40          开源生态强
DeepSeek-V3       ¥2           ¥8           性价比之王
Kimi K1.5         ¥60          ¥60          超长上下文
GLM-4             ¥100         ¥100         开源友好

对比:GPT-4o      ~¥18         ~¥72         国际标杆

3.3 开源模型:什么时候用开源?

3.3.1 主流开源模型

模型开发者参数规模特点
Llama 3Meta8B/70B/405B开源生态最成熟
Qwen2.5阿里0.5B-72B中文强,全尺寸开源
DeepSeek-R1DeepSeek7B-671B推理强,完全开源
ChatGLM3智谱6B轻量,适合边缘
MistralMistral AI7B/8x7B/8x22B欧洲开源代表

3.3.2 开源 vs 闭源:如何选择?

维度闭源 API开源本地部署
成本按量付费,用多少付多少前期硬件投入大,后期边际成本低
数据安全数据要传送到服务商数据完全本地,最安全
定制化只能调 Prompt,不能改模型可以微调、蒸馏、量化
延迟网络延迟本地推理,延迟低
维护成本低(服务商维护)高(需要自己运维)
能力上限通常更强(如 GPT-4o)开源最强约等于 GPT-4 水平

选择建议

  • 用闭源 API

    • 快速验证想法、MVP 阶段
    • 数据不敏感、合规要求不高
    • 需要最强模型能力(如 GPT-4o、Claude 3.5)
    • 不想投入运维资源
  • 用开源本地部署

    • 数据敏感(金融、医疗、政务)
    • 调用量极大,API 成本不可承受
    • 需要深度定制(领域微调)
    • 有专门的运维团队

3.4 云厂商 API 服务横向对比

除了直接调用模型厂商的 API,你还可以通过云厂商使用大模型服务。云厂商通常提供:

  • 统一 API 接口:一个接口调用多个模型
  • 额外功能:缓存、限流、监控、日志
  • 生态集成:与云数据库、对象存储、函数计算等集成
云厂商服务名称支持模型特色功能
阿里云百炼/灵积通义千问、Llama、ChatGLM 等与阿里云生态深度集成
腾讯云混元大模型混元、Llama 等微信生态集成
华为云盘古大模型盘古系列政企市场强
AWSAmazon BedrockClaude、Llama、Titan 等国际模型最全
AzureAzure OpenAIGPT 系列企业级安全合规

选择建议

  • 已经在用某云厂商,优先考虑其大模型服务(生态集成好)
  • 需要国际模型,选 AWS Bedrock 或 Azure OpenAI
  • 需要国内合规,选阿里云、腾讯云、华为云

3.5 如何选择适合业务场景的模型?

讲了这么多,最终还是要回答:你的业务该用哪个模型?

3.5.1 选型决策树

开始选型
    │
    ▼
数据是否敏感?(金融/医疗/政务)
    │
    ├── 是 ──► 开源本地部署
    │           ├── 需要推理能力 ──► DeepSeek-R1
    │           ├── 需要中文能力 ──► Qwen2.5
    │           └── 需要轻量部署 ──► Llama 3 8B / Qwen2.5 7B
    │
    └── 否 ──► 使用 API
                │
                ▼
            预算是否充足?
                │
                ├── 充足 ──► 追求最强能力
                │           ├── 需要多模态 ──► GPT-4o
                │           ├── 需要长上下文 ──► Claude 3.5 / Kimi
                │           └── 需要代码能力 ──► Claude 3.5 / GPT-4o
                │
                └── 紧张 ──► 追求性价比
                            ├── 需要推理能力 ──► DeepSeek-R1
                            ├── 通用场景 ──► DeepSeek-V3 / 通义千问-Plus
                            └── 长文档 ──► Kimi(按量其实不贵)

3.5.2 典型场景推荐

业务场景推荐模型理由
智能客服DeepSeek-V3 / 通义千问-Plus成本低,中文好,可配合 RAG
代码生成Claude 3.5 / GPT-4o代码能力最强
长文档分析Kimi / Claude 3.5上下文窗口大
内容创作GPT-4o / 文心一言 4.0生成质量高
数据分析DeepSeek-R1 / GPT-4o推理能力强
私有化部署Qwen2.5 / DeepSeek-R1开源可商用

3.5.3 多模型策略

很多生产系统不会只用一个模型,而是根据任务类型动态路由

# 伪代码:多模型路由
def route_request(task_type, content):
    if task_type == "code_generation":
        return call_claude35(content)  # 代码用 Claude
    elif task_type == "simple_qa":
        return call_deepseek_v3(content)  # 简单问答用便宜的
    elif task_type == "complex_reasoning":
        return call_deepseek_r1(content)  # 复杂推理用 R1
    elif len(content) > 100000:
        return call_kimi(content)  # 长文本用 Kimi
    else:
        return call_gpt4o(content)  # 默认用最强的

这种策略可以在保证效果的同时,显著降低成本


📌 插图 3-3:多模型路由架构图

用户请求
   │
   ▼
┌─────────────────────────────────────┐
│         任务类型识别                 │
│  (代码?问答?推理?长文本?)       │
└──────────────┬──────────────────────┘
               │
       ┌───────┼───────┐
       ▼       ▼       ▼
   ┌──────┐ ┌──────┐ ┌──────┐
   │Claude│ │DeepSe│ │ GPT  │
   │ 3.5  │ │ eek  │ │ 4o   │
   └──┬───┘ └──┬───┘ └──┬───┘
      └─────────┼─────────┘
                ▼
           统一响应格式
                │
                ▼
             返回用户

本章小结

这一章我们全面扫描了主流大模型产品:

  1. 国际模型:GPT-4o(全能)、Claude 3.5(代码+长上下文)、Gemini(超长上下文)

  2. 国内模型

    • 文心一言:中文优化好,搜索结合
    • 通义千问:开源生态强,阿里云集成
    • DeepSeek:性价比之王,推理能力突出
    • Kimi:超长上下文,长文档首选
    • ChatGLM:开源友好,轻量部署
  3. 开源 vs 闭源:数据敏感选开源,追求效果选闭源,大调用量选开源降成本

  4. 选型决策:根据数据敏感度、预算、任务类型、上下文长度综合决策

  5. 多模型策略:生产环境常用路由策略,不同任务用不同模型,平衡效果与成本


思考题

  1. 你正在开发一个医疗问诊助手,患者数据非常敏感。你会选择哪种部署方案?具体用哪个模型?

  2. 假设你的系统每天调用大模型 1000 万次,平均每次 500 Token。分别用 GPT-4o 和 DeepSeek-V3,成本差异是多少?这个成本差异是否值得切换?

  3. 设计一个简单的多模型路由策略:如何根据用户请求的特征,自动选择最合适的模型?


下一章预告:选好模型之后,下一步就是动手接入。第 4 章,我们将实战——从注册账号到发出第一个 API 请求,从流式输出到 Function Calling,让你真正跑起来。