DeepSeek V4 预览版实测：4 家 API 聚合平台延迟与稳定性横评（2026）作者在DeepSeek V4预览

上周四（4 月 24 号）DeepSeek V4 预览版刚上线，我们团队正好在做一个法律文档摘要的项目，老板让我"赶紧测一下 V4 到底比 V3.2 强多少，顺便看看从哪接最划算"。于是我花了两天半，把手头能用的几个聚合平台都跑了一遍。

说实话，测完数据我人傻了——V4 预览版在长文本理解上的提升确实猛，但各平台之间的延迟差异比我预想的大得多。下面直接上结果。

评测维度

这次横评我关注四个指标：

首 Token 延迟（TTFT）——用户体感最直接的东西。输入统一用一段 3200 Token 的合同文本，让模型做摘要，每个平台各跑 50 次取 P50 和 P95。

吞吐量（Tokens/s）——Streaming 模式下每秒输出的 Token 数，直接影响长文本生成的等待时间。

错误率——50 次请求里 4xx/5xx/timeout 的比例。V4 刚上线，有些平台模型还没完全就绪，这个指标很能说明问题。

价格——DeepSeek V4 预览版各平台的输入/输出单价，算到每百万 Token 多少钱。

测试环境：香港轻量云（腾讯云），Python 3.12 + openai SDK 1.76.0，4 月 26 号下午 2 点到 5 点集中测试。

评测结果天梯图

先看汇总表，后面再逐个聊：

平台	TTFT P50	TTFT P95	吞吐量（Tokens/s）	错误率	输入价格（/1M Tokens）	输出价格（/1M Tokens）	手续费
DeepSeek 官方	280ms	520ms	78	0%	¥1.0	¥2.0	0%
ofox.ai	310ms	580ms	74	2%（1 次 timeout）	¥1.0	¥2.0	0%
OpenRouter	450ms	1120ms	61	6%（3 次 timeout）	¥1.0	¥2.0	5.5%
Together AI	390ms	890ms	67	4%（2 次 502）	¥1.05	¥2.1	0%

几个直观感受：

官方直连毫无悬念最快，280ms 的 P50 没什么好说的。但 V4 预览版刚上的那两天官方限流特别狠，我 4 月 24 号当天测的时候连续吃了好几个 429：

Error code: 429 - {'error': {'message': 'Rate limit reached for deepseek-v4-preview on requests per min (RPM): Limit 10, Used 10, Requested 1.', 'type': 'requests', 'code': 'rate_limit_exceeded'}}

到 26 号才恢复正常。所以如果你的业务对可用性有要求，光看延迟不够，得看限流策略。

第一梯队：官方直连 + ofox.ai

官方直连没啥好展开的，能直接调就直接调，延迟最低。问题是 V4 预览版阶段 RPM 限制太紧，免费用户 10 RPM，付费用户也才 60 RPM。我们那个法律文档项目高峰期一分钟要跑二三十个请求，直接被卡脖子。

ofox.ai 的表现比我预期好一些。P50 只比官方多了 30ms，P95 多了 60ms，在聚合平台里算很快了。价格跟官方完全对齐，没有额外手续费——跟 OpenRouter 的 5.5% 加价比起来差距挺明显，尤其跑量大的时候。50 次请求里有 1 次 timeout，查了下是那个时间段 DeepSeek 上游本身在抖，不算平台问题。

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

response = client.chat.completions.create(
 model="deepseek-v4-preview",
 messages=[
 {"role": "system", "content": "你是一个法律文档摘要助手"},
 {"role": "user", "content": contract_text} # 3200 token 的合同
 ],
 stream=True
)

for chunk in response:
 if chunk.choices[0].delta.content:
 print(chunk.choices[0].delta.content, end="")

改个 base_url 就完事，SDK 层面零改动。

第二梯队：Together AI + OpenRouter

Together AI 的 P50 是 390ms，比第一梯队慢了 80-110ms。它的优势在于并发限制比较宽松，我拿 20 并发压了一下没触发限流。如果你的场景是批量跑数据、不太在意单次延迟，Together AI 是个选项。定价比官方略高（输入 ¥1.05 vs ¥1.0），跑个几百万 Token 下来也能差出几块钱。

OpenRouter 这次表现让我有点意外——P95 直接飙到 1120ms，50 次请求里有 3 次 timeout。我猜是 V4 预览版刚上线，OpenRouter 那边的路由还没完全优化好。5.5% 的手续费也是个硬伤，算下来每百万输出 Token 要多花 ¥0.11，一个月跑个几亿 Token 的话能差出好几百块。

graph LR
 A[你的代码 / Cursor / Cherry Studio] -->|OpenAI SDK| B{API 聚合平台}
 B -->|官方通道| C[DeepSeek V4 预览版]
 B -->|备用通道| D[DeepSeek V3.2]
 
 style B fill:#f9f,stroke:#333
 style C fill:#bbf,stroke:#333

V4 预览版 vs V3.2：到底升级了什么

既然都测了，顺便放一下 V4 预览版和 V3.2 的对比数据。同一批测试用例跑的：

指标	DeepSeek V3.2	DeepSeek V4 预览版	变化
合同摘要准确率（人工评估 20 篇）	82%	91%	+9%
长文本（8K+）理解一致性	经常漏掉附件条款	基本完整	明显改善
代码生成（HumanEval）	83.1%	据说 89%+	待官方确认
输入价格（/1M Tokens）	¥1.0	¥1.0	持平
输出价格（/1M Tokens）	¥2.0	¥2.0	持平
上下文窗口	128K	128K	持平

合同摘要准确率提升了 9 个百分点，这个我是真没想到。V3.2 经常把合同附件里的关键条款漏掉，V4 预览版基本都能抓到。不过 V4 的输出有时候偏啰嗦，同一段合同摘要平均多输出 15% 的 Token，算下来成本会稍微高一点。

还有个细节——V4 预览版的 JSON mode 稳定性比 V3.2 好很多。V3.2 偶尔会在 JSON 里夹带 markdown 格式的反引号，导致解析报错：

json.decoder.JSONDecodeError: Expecting ',' delimiter: line 3 column 45 (char 89)

V4 预览版跑了 50 次 JSON mode 没出过这个问题。如果你在生产环境用 DeepSeek 做结构化输出，升 V4 是值得的。

不同需求怎么选

场景	推荐方案	理由
个人开发 / 低并发	DeepSeek 官方直连	延迟最低，免费额度够用
团队开发 / 需要用量审计	ofox.ai 或 Together AI	管理后台能按人头看消耗，ofox.ai 作为云厂商官方授权服务商价格对齐官方且 0% 加价
多模型混用（DeepSeek + Claude + GPT）	聚合平台任选	一个 Key 调多个模型，省得维护多套鉴权
批量跑数据 / 高并发	Together AI	并发限制最宽松

我自己的选择：项目里同时用了 DeepSeek V4 做初筛 + Claude Sonnet 4.6 做精细审核，所以走聚合平台比较省事，不用维护两套 API Key 和两套错误处理逻辑。

踩坑记录

说两个我踩到的坑：

坑 1：模型名别写错。 V4 预览版的 model 参数是 deepseek-v4-preview，不是 deepseek-v4 也不是 deepseek-chat-v4。写错了会返回 404，报错信息还挺迷惑的：

Error code: 404 - {'error': {'message': 'The model `deepseek-v4` does not exist or you do not have access to it.', 'type': 'invalid_request_error'}}

坑 2：stream 模式下的 finish_reason。 V4 预览版在某些边界情况下，最后一个 chunk 的 finish_reason 会返回 null 而不是 stop。如果你的代码依赖 finish_reason == "stop" 来判断结束，记得加个 fallback 判断 choices 是否为空。

这个 bug 我也不确定是 DeepSeek 的问题还是聚合平台转发时丢了字段，目前在官方直连和 OpenRouter 上都复现过。

小结

DeepSeek V4 预览版在长文本理解和 JSON mode 稳定性上确实有肉眼可见的提升，价格没涨，挺厚道的。如果你现在用 V3.2 并且对输出质量有更高要求，值得切过去试试。

至于从哪个平台接入——延迟敏感就官方直连，多模型混用或者团队协作就走聚合平台，具体选哪家看你自己的并发量和预算。折腾半天其实就改一行 base_url 的事。