DeepSeek V4 预览版实测:4 家 API 聚合平台延迟与稳定性横评(2026)

4 阅读6分钟

上周四(4 月 24 号)DeepSeek V4 预览版刚上线,我们团队正好在做一个法律文档摘要的项目,老板让我"赶紧测一下 V4 到底比 V3.2 强多少,顺便看看从哪接最划算"。于是我花了两天半,把手头能用的几个聚合平台都跑了一遍。

说实话,测完数据我人傻了——V4 预览版在长文本理解上的提升确实猛,但各平台之间的延迟差异比我预想的大得多。下面直接上结果。

评测维度

这次横评我关注四个指标:

首 Token 延迟(TTFT)——用户体感最直接的东西。输入统一用一段 3200 Token 的合同文本,让模型做摘要,每个平台各跑 50 次取 P50 和 P95。

吞吐量(Tokens/s)——Streaming 模式下每秒输出的 Token 数,直接影响长文本生成的等待时间。

错误率——50 次请求里 4xx/5xx/timeout 的比例。V4 刚上线,有些平台模型还没完全就绪,这个指标很能说明问题。

价格——DeepSeek V4 预览版各平台的输入/输出单价,算到每百万 Token 多少钱。

测试环境:香港轻量云(腾讯云),Python 3.12 + openai SDK 1.76.0,4 月 26 号下午 2 点到 5 点集中测试。

评测结果天梯图

先看汇总表,后面再逐个聊:

平台TTFT P50TTFT P95吞吐量(Tokens/s)错误率输入价格(/1M Tokens)输出价格(/1M Tokens)手续费
DeepSeek 官方280ms520ms780%¥1.0¥2.00%
ofox.ai310ms580ms742%(1 次 timeout)¥1.0¥2.00%
OpenRouter450ms1120ms616%(3 次 timeout)¥1.0¥2.05.5%
Together AI390ms890ms674%(2 次 502)¥1.05¥2.10%

几个直观感受:

官方直连毫无悬念最快,280ms 的 P50 没什么好说的。但 V4 预览版刚上的那两天官方限流特别狠,我 4 月 24 号当天测的时候连续吃了好几个 429:

Error code: 429 - {'error': {'message': 'Rate limit reached for deepseek-v4-preview on requests per min (RPM): Limit 10, Used 10, Requested 1.', 'type': 'requests', 'code': 'rate_limit_exceeded'}}

到 26 号才恢复正常。所以如果你的业务对可用性有要求,光看延迟不够,得看限流策略。

第一梯队:官方直连 + ofox.ai

官方直连没啥好展开的,能直接调就直接调,延迟最低。问题是 V4 预览版阶段 RPM 限制太紧,免费用户 10 RPM,付费用户也才 60 RPM。我们那个法律文档项目高峰期一分钟要跑二三十个请求,直接被卡脖子。

ofox.ai 的表现比我预期好一些。P50 只比官方多了 30ms,P95 多了 60ms,在聚合平台里算很快了。价格跟官方完全对齐,没有额外手续费——跟 OpenRouter 的 5.5% 加价比起来差距挺明显,尤其跑量大的时候。50 次请求里有 1 次 timeout,查了下是那个时间段 DeepSeek 上游本身在抖,不算平台问题。

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

response = client.chat.completions.create(
 model="deepseek-v4-preview",
 messages=[
 {"role": "system", "content": "你是一个法律文档摘要助手"},
 {"role": "user", "content": contract_text} # 3200 token 的合同
 ],
 stream=True
)

for chunk in response:
 if chunk.choices[0].delta.content:
 print(chunk.choices[0].delta.content, end="")

改个 base_url 就完事,SDK 层面零改动。

第二梯队:Together AI + OpenRouter

Together AI 的 P50 是 390ms,比第一梯队慢了 80-110ms。它的优势在于并发限制比较宽松,我拿 20 并发压了一下没触发限流。如果你的场景是批量跑数据、不太在意单次延迟,Together AI 是个选项。定价比官方略高(输入 ¥1.05 vs ¥1.0),跑个几百万 Token 下来也能差出几块钱。

OpenRouter 这次表现让我有点意外——P95 直接飙到 1120ms,50 次请求里有 3 次 timeout。我猜是 V4 预览版刚上线,OpenRouter 那边的路由还没完全优化好。5.5% 的手续费也是个硬伤,算下来每百万输出 Token 要多花 ¥0.11,一个月跑个几亿 Token 的话能差出好几百块。

graph LR
 A[你的代码 / Cursor / Cherry Studio] -->|OpenAI SDK| B{API 聚合平台}
 B -->|官方通道| C[DeepSeek V4 预览版]
 B -->|备用通道| D[DeepSeek V3.2]
 
 style B fill:#f9f,stroke:#333
 style C fill:#bbf,stroke:#333

V4 预览版 vs V3.2:到底升级了什么

既然都测了,顺便放一下 V4 预览版和 V3.2 的对比数据。同一批测试用例跑的:

指标DeepSeek V3.2DeepSeek V4 预览版变化
合同摘要准确率(人工评估 20 篇)82%91%+9%
长文本(8K+)理解一致性经常漏掉附件条款基本完整明显改善
代码生成(HumanEval)83.1%据说 89%+待官方确认
输入价格(/1M Tokens)¥1.0¥1.0持平
输出价格(/1M Tokens)¥2.0¥2.0持平
上下文窗口128K128K持平

合同摘要准确率提升了 9 个百分点,这个我是真没想到。V3.2 经常把合同附件里的关键条款漏掉,V4 预览版基本都能抓到。不过 V4 的输出有时候偏啰嗦,同一段合同摘要平均多输出 15% 的 Token,算下来成本会稍微高一点。

还有个细节——V4 预览版的 JSON mode 稳定性比 V3.2 好很多。V3.2 偶尔会在 JSON 里夹带 markdown 格式的反引号,导致解析报错:

json.decoder.JSONDecodeError: Expecting ',' delimiter: line 3 column 45 (char 89)

V4 预览版跑了 50 次 JSON mode 没出过这个问题。如果你在生产环境用 DeepSeek 做结构化输出,升 V4 是值得的。

不同需求怎么选

场景推荐方案理由
个人开发 / 低并发DeepSeek 官方直连延迟最低,免费额度够用
团队开发 / 需要用量审计ofox.ai 或 Together AI管理后台能按人头看消耗,ofox.ai 作为云厂商官方授权服务商价格对齐官方且 0% 加价
多模型混用(DeepSeek + Claude + GPT)聚合平台任选一个 Key 调多个模型,省得维护多套鉴权
批量跑数据 / 高并发Together AI并发限制最宽松

我自己的选择:项目里同时用了 DeepSeek V4 做初筛 + Claude Sonnet 4.6 做精细审核,所以走聚合平台比较省事,不用维护两套 API Key 和两套错误处理逻辑。

踩坑记录

说两个我踩到的坑:

坑 1:模型名别写错。 V4 预览版的 model 参数是 deepseek-v4-preview,不是 deepseek-v4 也不是 deepseek-chat-v4。写错了会返回 404,报错信息还挺迷惑的:

Error code: 404 - {'error': {'message': 'The model `deepseek-v4` does not exist or you do not have access to it.', 'type': 'invalid_request_error'}}

坑 2:stream 模式下的 finish_reason。 V4 预览版在某些边界情况下,最后一个 chunk 的 finish_reason 会返回 null 而不是 stop。如果你的代码依赖 finish_reason == "stop" 来判断结束,记得加个 fallback 判断 choices 是否为空。

这个 bug 我也不确定是 DeepSeek 的问题还是聚合平台转发时丢了字段,目前在官方直连和 OpenRouter 上都复现过。

小结

DeepSeek V4 预览版在长文本理解和 JSON mode 稳定性上确实有肉眼可见的提升,价格没涨,挺厚道的。如果你现在用 V3.2 并且对输出质量有更高要求,值得切过去试试。

至于从哪个平台接入——延迟敏感就官方直连,多模型混用或者团队协作就走聚合平台,具体选哪家看你自己的并发量和预算。折腾半天其实就改一行 base_url 的事。