终于来了！DeepSeekV4预览版本正式发布：Agent、世界知识和推理性能在开源领域领先说实话，等V4等得我都快佛系

P.S. 无意间发现了一个巨牛的人工智能教程，忍不住分享一下给大家。很通俗易懂，重点是还非常风趣幽默，像看小说一样。网址是captainbed.cn/jj。希望更多人能加入到我们AI领域。

前言

卧槽！真的来了！

今天早上我正喝着第三杯咖啡刷X，突然一条消息直接把我呛到了——DeepSeek V4预览版，正式上线！而且是今天，4月24号，就现在！不是传闻，不是泄露，不是"据内部人士透露"，是官方实打实的发布+开源。我盯着屏幕愣了三秒，然后直接把咖啡杯往桌上一顿，溅了一桌子。值了，这消息太值了。

说实话，等V4等得我都快佛系了。从年初就开始传，二月说春节发，三月说两会后发，四月上旬又说"未来几周"，结果一拖再拖，拖到我都以为DeepSeek是不是在憋什么大招还是遇到什么坑了。毕竟R1发布已经过去15个月，V3.2最终版也过去5个月了，这放在AI圈里，别人家都迭代了两三轮了。结果今天，啪，直接甩脸上。而且这次不是挤牙膏，是直接上硬菜。

百万上下文，这次不是噱头，是标配

先说说最炸的一点：1M上下文。一百万token，换算成中文大概是百万字级别。什么概念？你把《三体》第一部扔进去，再加半部《围城》，它一次就能读完、理解、回答。不需要你切分、不需要RAG、不需要搞什么向量检索，直接整本丢进去问"章北海在第几章露出了真实意图"，它真能给你找出来。

我知道你要说，谷歌Gemini 1.5 Pro不是早就200万token了吗？对，纸面上确实碾压。但问题是，Gemini那个200万版本只对企业开放，个人用户还是被锁在128k。而且圈内实测反馈，超过50万token之后就开始出现细节幻觉，读是读了，但读了个寂寞。DeepSeek这次放话很硬："1M将是所有官方服务的标配"。不是Pro专属，不是企业专属，是标配。这就很狠了，直接把长上下文从"秀肌肉"变成了"基础配置"。

Pro和Flash，分工很明确

这次V4给了两个版本，V4-Pro和V4-Flash。API名字就是deepseek-v4-pro和deepseek-v4-flash，简单粗暴。

V4-Pro：性能怪兽

1.6万亿参数，完整版，对标顶级闭源模型。官方说在Agentic Coding、数学和STEM推理这些硬核评测里，已经达到开源模型的领先水平，交付质量接近部分顶级闭源模型的非思考模式。SWE-Bench 83.7%，HumanEval 90%，AIME 2026直接干到99.4%——当然这些数据目前还是非官方渠道的早期披露，独立验证还没出来，但光事这个数就已经够吓人了。

V4-Flash：性价比杀手

2850亿参数，虽然世界知识储备比Pro稍逊，但推理能力接近。关键是快+便宜。Agent测评里，简单任务和Pro旗鼓相当，高难度任物有差距，但日常开发完全够用。对于我这种天天调API、跑脚本的开发者来说，Flash可能就是真香选项。

两个版本都支持思考模式和非思考模式，而且思考模式可以调reasoning_effort参数，high或者max。搞复杂Agent任务的时候，直接拉满就完事了。

DSA2+MoE，技术栈很能打

参数方面，完整版1.6万亿，Lite版2850亿。这个体量，放在全球也是第一梯队的存在。但DeepSeek的绝活不是堆参数，是怎么让这么多参数跑起来不烧钱。

核心就是DSA2注意力机制。这是把之前V3/R1里的DSA（DeepSeek Sparse Attention）和今年初论文里提出的NSA（Native Sparse Attention）两种稀疏注意力方案给融合了。说人话就是，以前注意力机制是全连接的，每个token都要跟所有token打招呼，计算量爆炸。稀疏注意力就是只跟关键token打招呼，省算力。DSA2是两种省算力方案的叠加态，效锅据说很猛。

再加上MoE混合专家系统，每层384个专家，每次只激活6个。1.6万亿参数里，实际跑起来的只有一小撮，剩下的都在睡觉。这就是DeepSeek一直能把成本打到地板价的秘密武器。残差连接用了Hyper-Connections，优化器是Muon，强华学习阶段用GRPO加KL散度修正。这一套组合拳下来，预训练上下文从32K直接拉到1M，扩充了近8倍，但计算和显存开销反而比传统方法低很多。

Agent生态，这次是真想让你用起来

DeepSeek V4这次特别强调了Agent能力，而且不是嘴上说说，是实打实做了适配。官方说已经针对Claude Code、OpenClaw、OpenCode、CodeBuddy这些主流Agent框架做了优化。代码任务、文档生成，表现都有提升。

我特意去试了一下，用V4-Pro在一个Agent框加里让它生成PPT内页，效果确实比V3.2顺滑不少。上下文长了之后，Agent能记住的代码库范围也大了，以前只能处理一个模块，现在能啃一整个项目。这对于做大型代码重构、跨文件分析的场景，简直是质变。

而且API兼容OpenAI和Anthropic接口，迁移成本极低。思考模式支持reasoning_effort调节，搞复杂任务直接拉max，简单任务用非思考模式省token。这个设计很懂开发者。

旧接口要没了，赶紧迁移

注意啊，这里有个重要通知：原来的deepseek-chat和deepseek-reasoner这两个模型名，三个月后，也就是2026年7月24日，正式停止服务。现在这两个名字只是暂时指向V4-Flash的非思考模式和思考模式，属于过渡起兼容。有在用旧接口的同学，赶紧改代码，别等到七月份服务挂了才想起来。

迁移提示

• 旧模型名 deepseek-chat → 改为 deepseek-v4-flash（非思考模式）

• 旧模型名 deepseek-reasoner → 改为 deepseek-v4-flash（思考模式）或 deepseek-v4-pro

• 兼容OpenAI/Anthropic接口格式，base_url不变

成绩很猛，但先别急着狂欢

说说大家最关心的跑分。目前流传的数据：AIME 2026数学竞赛99.4%，MMLU通用知识92.8%，SWE-Bench编程83.7%，HumanEval 90%。如果这些数据属实，那V4在数学和编程上已经妥妥的第一梯队，甚至在某些单项上碾压一众闭园模型。

但我必须泼一点点冷水。这些数字目前多来自非官方渠道的早期披露，独立第三方验证还没出来。DeepSeek自己过往的模型在官方基准和第三方实测之间偶尔会有差距，所以咱们让子弹再飞一会儿。等LMSYS、Artificial Analysis这些平台的独立评测出来，才是见真章的时候。

不过就算这些数字打个八折，考虑到V4的价格和开源属性，性价比依然是炸裂级别的。毕竟V3时代就已经是GPT-4成本的十分之一甚至二十分之一，V4大概率会延续这个传统。对于中小企业和个人开发者来说，这可能就是"用得起的好模型"和"用不起的顶级模型"之间的分水岭。

开源圈又要地震了

每次DeepSeek发模型，开源社区都要抖三抖。这次V4预览版直接同步开源，权重可下载，本地可部署，还是Apache 2.0。这意味着什么？意味着你明天就可以在自家服务器上跑一个1.6万亿参数的顶级模型，不需要跟OpenAI签协议，不需要给Anthropic交高额API费，甚至不需要联网。

国内的云厂商估计已经在加班适配了。华为昇腾、寒武纪这些国产芯片，之前DeepSeek就已经在深度合作，V4的推理栈大概率做了针对性优化。如果昇腾950PR上能跑出接近A100的效率，那国产AI生态的闭环就真正形成了。从芯片到框架到模型，全链路自主，这在当下的国际环境下，战略意义懂的都懂。

所以，你打算先用Pro还是Flash？

好了，消息就是这么个消息。DeepSeek V4预览版，今天正式上线，开源，API可用，1M上下文标配，两个版本可选，旧接口三个月后退役。

我已经把API key里的模型名改成deepseek-v4-pro了，准备跑一波长文本测试。你们呢？是打算先用Pro爽一下，还是Flash省点钱？或者已经在本地部署了？

评论区聊聊，让我看看你们的测试结果。如果有发现什么坑或者惊喜，记得回来汇报。毕竟这种大版本更新，第一天总是最刺激的。散会！

P.S. 想要系统学习AI的朋友可以去看看那个人工智能教程captainbed.cn/jj