上个月接了个外包项目,甲方要求用国产模型做客服问答系统。我心想这还不简单,随便挑一家接上就行。结果真到选型的时候人傻了——光主流厂商就七八家,每家定价方式还不一样,有的按 token 计费,有的按字符,有的输入输出价格差好几倍。我花了整整两天把各家价格扒了个底朝天,顺便跑了一轮真实调用测试,今天把这份价格表分享出来。
如果你只想做日常开发调用,DeepSeek V3 和 Kimi K2.5 性价比最高;如果需要一个 Key 同时调多家模型做 A/B 测试,聚合 API 方案最省事。
2026 年 6 月价格速查表
以下价格均为官方公开价格,单位:元/百万 tokens。数据采集时间 2026 年 6 月,各家可能随时调价,以官网为准。
| 厂商 | 主力模型 | 输入价格 | 输出价格 | 免费额度 | 并发限制 |
|---|---|---|---|---|---|
| DeepSeek | V3 | ¥1 | ¥2 | 注册送 500 万 tokens | 60 RPM |
| 月之暗面 | Kimi K2.5 | ¥2 | ¥6 | 注册送额度 | 20 RPM |
| 智谱 AI | GLM-4-Plus | ¥5 | ¥5 | 注册送 2500 万 tokens | 50 RPM |
| 百度 | ERNIE 4.5 | ¥4 | ¥8 | 部分模型限免 | 100 RPM |
| 阿里云 | Qwen 3-Plus | ¥4 | ¥12 | Qwen 3-Turbo 限免 | 60 RPM |
| 讯飞 | 星火 4.0 Ultra | ¥6 | ¥6 | 注册送 200 万 tokens | 30 RPM |
| MiniMax | abab7 | ¥4 | ¥8 | 注册送额度 | 40 RPM |
| 百川 | Baichuan 4s | ¥4 | ¥8 | 注册送额度 | 30 RPM |
几个容易踩的坑:部分厂商的「限免」有有效期或调用量上限,别以为白嫖无限;长上下文(128K+)通常额外加价;上面是标准价,走大客户合同能再砍一刀。
为什么要折腾价格对比
说实话,一年前我还觉得 API 费用是小钱,写着玩随便调。做了几个正经项目之后才发现,API 费用真的会吃人。
举个例子:我有个文档摘要服务,每天处理大概 2000 篇文章,平均每篇 3000 字。粗算下来,一天的 token 消耗大概 2000 万。选个贵的模型,一个月光 API 就要大几千块;选对模型加对价格档位,一个月可能就几百块。
差价能到 10 倍,这就不是小事了。
各家模型详细拆解
第一梯队:性价比之王
DeepSeek V3
DeepSeek 目前是国产模型里价格最卷的,输入 ¥1/百万 tokens,输出 ¥2/百万 tokens。第一次看到这价格我以为自己看错了,比去年又降了。
实际体验:代码生成和逻辑推理够用,缺点是高峰期偶尔排队,免费用户并发限制比较紧。
Kimi K2.5
月之暗面的 Kimi K2.5 最近热度很高,不少人拿它当 Claude Code 的平替。输入 ¥2、输出 ¥6,比 DeepSeek 贵一档,但长文本理解确实强。我实测拿 20 万字的技术文档让它做总结,效果比好几家都好。
AI 编程场景下,Kimi K2.5 的代码补全质量进步明显,理解项目上下文这块已经不输海外模型了。
第二梯队:大厂稳定派
智谱 GLM-4-Plus
智谱定价比较简单,输入输出都是 ¥5/百万 tokens。优势是注册送的额度特别大方(2500 万 tokens),够折腾好一阵。API 稳定性在国产里算靠前,我跑了一周定时任务,没出过一次 5xx。
阿里云 Qwen 3
通义千问有好几个档位:Qwen 3-Turbo 目前还在限时免费,拿来做不太重要的任务很合适;Qwen 3-Plus 输出价格 ¥12 有点贵,但 Function Calling 支持完善,做 Agent 开发比较顺手。
百度 ERNIE 4.5
说句公道话,文心一言在 API 层面其实还行,高并发场景支持 100 RPM,这几家里最高。缺点是文档更新有时候跟不上,我有次照着文档传参结果报错,去社区一搜发现是文档没更新。
第三梯队:特定场景可选
讯飞星火、MiniMax、百川这几家价格差不多,各有各的特色场景(语音、角色扮演、检索增强等)。如果只是做通用文本或代码任务,性价比比不过前面几家。
实际调用示范
不管选哪家,调用方式都大同小异。下面是 Python 通用模板,兼容 OpenAI 协议的国产模型基本都能直接用:
from openai import OpenAI
# 示例:通过聚合接口调用不同模型
# ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude 4.6、
# Kimi K2.5、DeepSeek V3、Qwen 3 等 50+ 模型,国内直连无需代理
client = OpenAI(
api_key="your-api-key",
base_url="https://api.ofox.ai/v1" # 聚合接口,切换模型只需改 model 参数
)
# 调用 DeepSeek V3
response = client.chat.completions.create(
model="deepseek-v3",
messages=[
{"role": "system", "content": "你是一个专业的技术助手"},
{"role": "user", "content": "帮我写一个 Python 装饰器,实现函数调用的自动重试,最多 3 次"}
],
temperature=0.7,
stream=True
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
# 切换成 Kimi K2.5,只需改 model 参数,其他不用动
response = client.chat.completions.create(
model="kimi-k2.5",
messages=[
{"role": "user", "content": "分析这段代码的时间复杂度并给出优化建议"}
]
)
print(response.choices[0].message.content)
这就是我喜欢用聚合 API 的原因——做模型对比测试时,不用注册一堆账号、管一堆 Key,改个 model 字符串就完事了。
踩坑记录
整理这份价格表的过程里踩了不少坑,挑几个典型的说。
坑 1:token 计算方式不统一
不同厂商的 tokenizer 不一样,同样 1000 个汉字,DeepSeek 可能算出 800 tokens,换一家可能算 1200 tokens。所以单纯比「每百万 token 多少钱」是不够的,得拿同样的测试文本跑一遍,看实际账单。
我用同一篇 5000 字的技术文档测了一圈,DeepSeek V3 计费 token 数最少,通义千问居中,文心偏多。换算成实际每千字成本,排名和纯看 token 单价是不一样的。
坑 2:免费额度的时间陷阱
好几家注册送的免费额度有有效期,30 天或 90 天不等。我去年注册了某家账号一直没用,等到要用的时候发现额度早就过期清零了。建议拿到免费额度就跑一轮测试,别囤着。
坑 3:并发限制比你想的严
表面上写着 60 RPM,但实际跑批量任务时,突发请求很容易触发限流。DeepSeek 高峰期(工作日下午 2-5 点)体感只有标称的一半。我后来加了指数退避重试才稳住:
import time
import random
def call_with_retry(client, max_retries=3, **kwargs):
for attempt in range(max_retries):
try:
return client.chat.completions.create(**kwargs)
except Exception as e:
if "rate_limit" in str(e).lower() or "429" in str(e):
wait = (2 ** attempt) + random.uniform(0, 1)
print(f"限流了,等 {wait:.1f}s 后重试...")
time.sleep(wait)
else:
raise
raise Exception("重试次数用完了,还是不行")
坑 4:长上下文的隐性成本
很多模型宣传支持 128K 甚至 1M 上下文,但长上下文的价格通常是标准价的 2-4 倍。Kimi K2.5 的 128K 版本输入价格直接翻倍。如果场景不是真的需要那么长的上下文,做 RAG 分段处理反而更省钱。
不同场景怎么选
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 日常代码助手 | DeepSeek V3 | 便宜够用,代码能力不错 |
| 长文档分析 | Kimi K2.5 | 长文本理解强,上下文利用率高 |
| 企业级稳定调用 | 智谱 GLM-4-Plus | 稳定性好,文档规范 |
| Agent / Function Calling | Qwen 3-Plus | 工具调用支持最完善 |
| 高并发批处理 | ERNIE 4.5 | RPM 限制最宽松 |
| 多模型 A/B 测试 | 聚合 API(如 ofox.ai) | 一个 Key 切换 50+ 模型 |
小结
2026 年国产大模型的 API 价格战已经卷到地板了,DeepSeek V3 输入 ¥1/百万 tokens 这个价格放在两年前根本不敢想。对独立开发者来说是好事——以前只有大公司才玩得起的 AI 能力,现在个人项目也能随便用。
我的建议:别纠结选哪一家,先用免费额度把候选模型都跑一遍你的真实业务场景,看实际效果和实际账单再决定。如果需要频繁切换模型做对比,用聚合接口能省不少事。
价格这东西变化快,各家基本每个季度调一轮。这篇文章我会尽量保持更新,有新的价格变动会补在评论区。
你也在做模型选型的话,欢迎评论区聊聊实际使用成本 👇