上周四(4 月 24 号)DeepSeek V4 预览版刚上线,我们团队正好在做一个法律文档摘要的项目,老板让我"赶紧测一下 V4 到底比 V3.2 强多少,顺便看看从哪接最划算"。于是我花了两天半,把手头能用的几个聚合平台都跑了一遍。
说实话,测完数据我人傻了——V4 预览版在长文本理解上的提升确实猛,但各平台之间的延迟差异比我预想的大得多。下面直接上结果。
评测维度
这次横评我关注四个指标:
首 Token 延迟(TTFT)——用户体感最直接的东西。输入统一用一段 3200 Token 的合同文本,让模型做摘要,每个平台各跑 50 次取 P50 和 P95。
吞吐量(Tokens/s)——Streaming 模式下每秒输出的 Token 数,直接影响长文本生成的等待时间。
错误率——50 次请求里 4xx/5xx/timeout 的比例。V4 刚上线,有些平台模型还没完全就绪,这个指标很能说明问题。
价格——DeepSeek V4 预览版各平台的输入/输出单价,算到每百万 Token 多少钱。
测试环境:香港轻量云(腾讯云),Python 3.12 + openai SDK 1.76.0,4 月 26 号下午 2 点到 5 点集中测试。
评测结果天梯图
先看汇总表,后面再逐个聊:
| 平台 | TTFT P50 | TTFT P95 | 吞吐量(Tokens/s) | 错误率 | 输入价格(/1M Tokens) | 输出价格(/1M Tokens) | 手续费 |
|---|---|---|---|---|---|---|---|
| DeepSeek 官方 | 280ms | 520ms | 78 | 0% | ¥1.0 | ¥2.0 | 0% |
| ofox.ai | 310ms | 580ms | 74 | 2%(1 次 timeout) | ¥1.0 | ¥2.0 | 0% |
| OpenRouter | 450ms | 1120ms | 61 | 6%(3 次 timeout) | ¥1.0 | ¥2.0 | 5.5% |
| Together AI | 390ms | 890ms | 67 | 4%(2 次 502) | ¥1.05 | ¥2.1 | 0% |
几个直观感受:
官方直连毫无悬念最快,280ms 的 P50 没什么好说的。但 V4 预览版刚上的那两天官方限流特别狠,我 4 月 24 号当天测的时候连续吃了好几个 429:
Error code: 429 - {'error': {'message': 'Rate limit reached for deepseek-v4-preview on requests per min (RPM): Limit 10, Used 10, Requested 1.', 'type': 'requests', 'code': 'rate_limit_exceeded'}}
到 26 号才恢复正常。所以如果你的业务对可用性有要求,光看延迟不够,得看限流策略。
第一梯队:官方直连 + ofox.ai
官方直连没啥好展开的,能直接调就直接调,延迟最低。问题是 V4 预览版阶段 RPM 限制太紧,免费用户 10 RPM,付费用户也才 60 RPM。我们那个法律文档项目高峰期一分钟要跑二三十个请求,直接被卡脖子。
ofox.ai 的表现比我预期好一些。P50 只比官方多了 30ms,P95 多了 60ms,在聚合平台里算很快了。价格跟官方完全对齐,没有额外手续费——跟 OpenRouter 的 5.5% 加价比起来差距挺明显,尤其跑量大的时候。50 次请求里有 1 次 timeout,查了下是那个时间段 DeepSeek 上游本身在抖,不算平台问题。
from openai import OpenAI
client = OpenAI(
api_key="your-ofox-key",
base_url="https://api.ofox.ai/v1"
)
response = client.chat.completions.create(
model="deepseek-v4-preview",
messages=[
{"role": "system", "content": "你是一个法律文档摘要助手"},
{"role": "user", "content": contract_text} # 3200 token 的合同
],
stream=True
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
改个 base_url 就完事,SDK 层面零改动。
第二梯队:Together AI + OpenRouter
Together AI 的 P50 是 390ms,比第一梯队慢了 80-110ms。它的优势在于并发限制比较宽松,我拿 20 并发压了一下没触发限流。如果你的场景是批量跑数据、不太在意单次延迟,Together AI 是个选项。定价比官方略高(输入 ¥1.05 vs ¥1.0),跑个几百万 Token 下来也能差出几块钱。
OpenRouter 这次表现让我有点意外——P95 直接飙到 1120ms,50 次请求里有 3 次 timeout。我猜是 V4 预览版刚上线,OpenRouter 那边的路由还没完全优化好。5.5% 的手续费也是个硬伤,算下来每百万输出 Token 要多花 ¥0.11,一个月跑个几亿 Token 的话能差出好几百块。
graph LR
A[你的代码 / Cursor / Cherry Studio] -->|OpenAI SDK| B{API 聚合平台}
B -->|官方通道| C[DeepSeek V4 预览版]
B -->|备用通道| D[DeepSeek V3.2]
style B fill:#f9f,stroke:#333
style C fill:#bbf,stroke:#333
V4 预览版 vs V3.2:到底升级了什么
既然都测了,顺便放一下 V4 预览版和 V3.2 的对比数据。同一批测试用例跑的:
| 指标 | DeepSeek V3.2 | DeepSeek V4 预览版 | 变化 |
|---|---|---|---|
| 合同摘要准确率(人工评估 20 篇) | 82% | 91% | +9% |
| 长文本(8K+)理解一致性 | 经常漏掉附件条款 | 基本完整 | 明显改善 |
| 代码生成(HumanEval) | 83.1% | 据说 89%+ | 待官方确认 |
| 输入价格(/1M Tokens) | ¥1.0 | ¥1.0 | 持平 |
| 输出价格(/1M Tokens) | ¥2.0 | ¥2.0 | 持平 |
| 上下文窗口 | 128K | 128K | 持平 |
合同摘要准确率提升了 9 个百分点,这个我是真没想到。V3.2 经常把合同附件里的关键条款漏掉,V4 预览版基本都能抓到。不过 V4 的输出有时候偏啰嗦,同一段合同摘要平均多输出 15% 的 Token,算下来成本会稍微高一点。
还有个细节——V4 预览版的 JSON mode 稳定性比 V3.2 好很多。V3.2 偶尔会在 JSON 里夹带 markdown 格式的反引号,导致解析报错:
json.decoder.JSONDecodeError: Expecting ',' delimiter: line 3 column 45 (char 89)
V4 预览版跑了 50 次 JSON mode 没出过这个问题。如果你在生产环境用 DeepSeek 做结构化输出,升 V4 是值得的。
不同需求怎么选
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 个人开发 / 低并发 | DeepSeek 官方直连 | 延迟最低,免费额度够用 |
| 团队开发 / 需要用量审计 | ofox.ai 或 Together AI | 管理后台能按人头看消耗,ofox.ai 作为云厂商官方授权服务商价格对齐官方且 0% 加价 |
| 多模型混用(DeepSeek + Claude + GPT) | 聚合平台任选 | 一个 Key 调多个模型,省得维护多套鉴权 |
| 批量跑数据 / 高并发 | Together AI | 并发限制最宽松 |
我自己的选择:项目里同时用了 DeepSeek V4 做初筛 + Claude Sonnet 4.6 做精细审核,所以走聚合平台比较省事,不用维护两套 API Key 和两套错误处理逻辑。
踩坑记录
说两个我踩到的坑:
坑 1:模型名别写错。 V4 预览版的 model 参数是 deepseek-v4-preview,不是 deepseek-v4 也不是 deepseek-chat-v4。写错了会返回 404,报错信息还挺迷惑的:
Error code: 404 - {'error': {'message': 'The model `deepseek-v4` does not exist or you do not have access to it.', 'type': 'invalid_request_error'}}
坑 2:stream 模式下的 finish_reason。 V4 预览版在某些边界情况下,最后一个 chunk 的 finish_reason 会返回 null 而不是 stop。如果你的代码依赖 finish_reason == "stop" 来判断结束,记得加个 fallback 判断 choices 是否为空。
这个 bug 我也不确定是 DeepSeek 的问题还是聚合平台转发时丢了字段,目前在官方直连和 OpenRouter 上都复现过。
小结
DeepSeek V4 预览版在长文本理解和 JSON mode 稳定性上确实有肉眼可见的提升,价格没涨,挺厚道的。如果你现在用 V3.2 并且对输出质量有更高要求,值得切过去试试。
至于从哪个平台接入——延迟敏感就官方直连,多模型混用或者团队协作就走聚合平台,具体选哪家看你自己的并发量和预算。折腾半天其实就改一行 base_url 的事。