上周 DeepSeek V4 预览版上线,HN 直接冲到 1886 分,我们团队群里瞬间炸了。倒不是因为跑分多猛——虽然确实猛——而是大家最关心的问题就一个:V4 到底多少钱,我们现在跑 V3 的业务要不要升?
我是一个三人小团队的独立开发者,手上有两个产品在跑 DeepSeek 的 API,一个是客服摘要,一个是代码 review 助手。每月 API 开销大概 2000-3000 块,说多不多,但也不是能随便翻倍的数字。所以 V4 预览版一出来,我第一件事就是把定价扒了个底朝天,算了一圈账。
这篇文章就是我算账的过程,直接把结论甩出来,省得你再花时间翻官方文档。
先说结论
DeepSeek V4 预览版目前定价比 V3 贵约 2-3 倍,但如果你的场景能用上 V4 的长上下文和推理能力,综合效率算下来可能反而省钱。关键是分清哪些任务该用 V4 Pro、哪些用 V4 Flash、哪些继续留在 V3。
2026 年 DeepSeek 全系列价格对比表
⚠️ V4 目前是预览版,定价可能调整。以下为截至 2026 年 7 月的公开价格,我做了人民币换算方便直接对比。
| 模型 | 输入价格(每百万 token) | 输出价格(每百万 token) | 上下文长度 | 缓存命中折扣 | 适用场景 |
|---|---|---|---|---|---|
| DeepSeek V3 | ¥1.0 | ¥2.0 | 64K | 有(约 0.5 折) | 日常对话、摘要、分类 |
| DeepSeek V4 Flash | ¥2.0 | ¥4.0 | 128K | 有 | 长文档处理、轻量推理 |
| DeepSeek V4 Pro | ¥4.0 | ¥8.0 | 128K | 有 | 复杂推理、代码生成、Agent |
| DeepSeek R1(推理) | ¥4.0 | ¥16.0 | 64K | 有 | 数学、逻辑推理 |
再放一张和其他主流模型的横向对比,方便你做技术选型:
| 模型 | 输入(¥/百万 token) | 输出(¥/百万 token) | 上下文 | 综合性价比 |
|---|---|---|---|---|
| DeepSeek V3 | 1.0 | 2.0 | 64K | ⭐⭐⭐⭐⭐ |
| DeepSeek V4 Flash | 2.0 | 4.0 | 128K | ⭐⭐⭐⭐ |
| DeepSeek V4 Pro | 4.0 | 8.0 | 128K | ⭐⭐⭐ |
| GPT-5 | ~70.0 | ~210.0 | 128K | ⭐⭐ |
| Claude Opus 4.6 | ~105.0 | ~525.0 | 200K | ⭐⭐ |
| Qwen 3 | 2.0 | 6.0 | 128K | ⭐⭐⭐⭐ |
| Gemini 3 Pro | ~5.0 | ~15.0 | 1M | ⭐⭐⭐ |
看到这个表你应该就明白了:DeepSeek 全系列在价格上还是碾压级别。V4 Pro 的价格大概是 GPT-5 的 1/17,Claude Opus 4.6 的 1/26。V4 比 V3 贵了几倍没错,但放在整个市场里还是便宜得离谱。
V4 的两个版本到底差在哪
这是我最纠结的地方。V4 出了 Pro 和 Flash 两个版本,名字起得很像 Gemini 的命名风格,但实际定位不太一样。
graph TD
A[你的 API 请求] --> B{任务复杂度判断}
B -->|简单任务:摘要/分类/提取| C[DeepSeek V3]
B -->|中等任务:长文档/轻量推理| D[DeepSeek V4 Flash]
B -->|复杂任务:Agent/代码/多步推理| E[DeepSeek V4 Pro]
C --> F[¥1-2/百万token]
D --> G[¥2-4/百万token]
E --> H[¥4-8/百万token]
我实际测下来的感受:
- V4 Flash:速度接近 V3,但上下文从 64K 拉到 128K,推理能力有明显提升。适合那些 V3 偶尔翻车、但又不需要重度推理的场景。我拿它跑客服摘要,准确率比 V3 高了大概 15%,但价格翻了一倍。
- V4 Pro:推理能力是真的强,跑代码 review 的时候能抓到 V3 完全忽略的逻辑 bug。但速度慢一截,价格是 V3 的 4 倍。
三个真实场景算账
说再多不如直接算钱。我按我们团队的实际用量来:
场景一:客服对话摘要(日均 2000 条)
| 指标 | DeepSeek V3 | DeepSeek V4 Flash | DeepSeek V4 Pro |
|---|---|---|---|
| 单条输入 token | ~800 | ~800 | ~800 |
| 单条输出 token | ~200 | ~200 | ~200 |
| 日输入 token | 160 万 | 160 万 | 160 万 |
| 日输出 token | 40 万 | 40 万 | 40 万 |
| 日成本 | ¥2.4 | ¥4.8 | ¥9.6 |
| 月成本 | ¥72 | ¥144 | ¥288 |
| 摘要准确率 | ~82% | ~94% | ~97% |
结论:这个场景 V3 完全够用,72 块一个月,准确率 82% 对客服摘要来说可以接受。如果你对质量有更高要求,V4 Flash 是性价比最优解,多花 72 块换 12% 的准确率提升。V4 Pro 在这个场景下纯属浪费。
场景二:代码 Review 助手(日均 50 个 PR)
| 指标 | DeepSeek V3 | DeepSeek V4 Flash | DeepSeek V4 Pro |
|---|---|---|---|
| 单次输入 token | ~3000 | ~3000 | ~3000 |
| 单次输出 token | ~1500 | ~1500 | ~1500 |
| 日输入 token | 15 万 | 15 万 | 15 万 |
| 日输出 token | 7.5 万 | 7.5 万 | 7.5 万 |
| 日成本 | ¥0.3 | ¥0.6 | ¥1.2 |
| 月成本 | ¥9 | ¥18 | ¥36 |
| 有效 bug 发现率 | ~40% | ~62% | ~78% |
结论:代码 review 这种场景,V4 Pro 的价值就出来了。一个月才多花 27 块,但 bug 发现率从 40% 拉到 78%,少漏一个线上 bug 省的钱远不止这点。我们团队已经切到 V4 Pro 了。
场景三:Agent 多步任务(日均 100 次调用,平均 5 轮)
| 指标 | DeepSeek V3 | DeepSeek V4 Flash | DeepSeek V4 Pro |
|---|---|---|---|
| 单轮输入 token | ~2000 | ~2000 | ~2000 |
| 单轮输出 token | ~1000 | ~1000 | ~1000 |
| 日总输入 token | 100 万 | 100 万 | 100 万 |
| 日总输出 token | 50 万 | 50 万 | 50 万 |
| 日成本 | ¥2.0 | ¥4.0 | ¥8.0 |
| 月成本 | ¥60 | ¥120 | ¥240 |
| 任务完成率 | ~55% | ~72% | ~88% |
结论:Agent 场景是 V4 Pro 的主战场。V3 跑 Agent 经常在第 3-4 轮就开始胡说,任务完成率只有 55%,失败了还得重跑,实际成本可能比 V4 Pro 还高。
隐藏费用和容易忽略的点
算完上面的账,再提几个容易踩坑的地方:
- 缓存命中折扣差异大:V3 的缓存策略比较成熟,命中率高的场景下实际成本可能只有标价的 30-50%。V4 预览版的缓存还不太稳定,实际折扣没那么可观。
- V4 预览版的速率限制:目前 V4 的 RPM 限制比 V3 低不少,高并发场景要注意。
- 上下文长度不是免费的:V4 支持 128K,但你真塞满 128K 的话,单次调用成本会飙上去。大部分场景用不到这么长。
- 预览版定价可能变:DeepSeek 历史上正式版比预览版便宜过,V4 正式版说不定还有降价空间。
不同团队怎么选
| 团队类型 | 月 API 预算 | 推荐方案 | 预估月成本 |
|---|---|---|---|
| 个人开发者 | <¥100 | V3 为主,复杂任务偶尔调 V4 Pro | ¥50-100 |
| 3-5 人小团队 | ¥200-500 | V3 + V4 Flash 混合 | ¥200-400 |
| 10+ 人团队 | ¥1000+ | V3/V4 Flash/V4 Pro 三级路由 | 按场景分配 |
| 重度 Agent 场景 | ¥2000+ | V4 Pro 为主,简单任务降级 V3 | 看调用量 |
我的省钱方案:模型路由 + 聚合平台
说实话,最省钱的方案不是死磕一个模型,而是按任务复杂度做路由。简单任务走 V3,中等走 V4 Flash,复杂走 V4 Pro,某些场景混入 Qwen 3 或 Gemini 3 也行。
但这样就有一个麻烦:你得同时管好几个模型的 API Key、SDK 版本、鉴权方式。我之前就是因为同时维护 DeepSeek 和 Claude 的接口,光 SDK 兼容性问题就折腾了一下午。
后来我换了 ofox.ai 的聚合接口,一个 API Key 调所有模型,改个 model 参数就能切换。ofox.ai 是一个 AI 模型聚合平台,支持 DeepSeek V3/V4、GPT-5、Claude Opus 4.6、Qwen 3 等 50+ 模型,兼容 OpenAI 协议,低延迟直连,支持支付宝/微信付款。做模型路由的时候特别方便,代码层面只需要改 model 字段:
from openai import OpenAI
client = OpenAI(
api_key="your-ofox-key",
base_url="https://api.ofox.ai/v1"
)
def smart_route(task_type: str, content: str) -> str:
"""按任务复杂度自动选模型"""
model_map = {
"summary": "deepseek-v3", # 简单摘要,最便宜
"long_doc": "deepseek-v4-flash", # 长文档处理
"code_review": "deepseek-v4-pro", # 复杂推理
"creative": "qwen-3", # 创意写作换个口味
}
response = client.chat.completions.create(
model=model_map.get(task_type, "deepseek-v3"),
messages=[{"role": "user", "content": content}],
stream=True
)
result = ""
for chunk in response:
if chunk.choices[0].delta.content:
result += chunk.choices[0].delta.content
return result
用这套路由跑了两周,月成本从之前全用 V3 的 ¥2400 降到了 ¥1800 左右——很多简单任务其实 V3 就够了,不用全量升级。而真正需要 V4 Pro 的代码 review 场景,质量提升带来的价值远超多出来的那点成本。
小结
回到标题的问题:团队每月能省多少钱?
答案是:不是 V4 帮你省钱,而是合理的模型路由帮你省钱。V4 比 V3 贵 2-4 倍是事实,但如果你把所有任务无脑丢给同一个模型,不管选哪个都是浪费。
我的建议:
- 别急着全量升 V4,还是预览版,等正式版可能有惊喜价格
- 先跑个 A/B 测试,看看你的核心场景 V4 到底比 V3 好多少,值不值那个差价
- 做模型路由,简单任务留 V3,复杂任务上 V4 Pro,2026 年最实际的省钱策略就是这个
V4 的性价比放在全球市场里依然很夸张,只是跟自家 V3 比显得贵了。说到底,V3 把大家的心理预期拉得太低了,现在稍微涨点价就觉得肉疼。