大家好,我是冷逸。
千呼万唤始出来,DeepSeek V4终于发布了。
这次一共有2个版本,V4 Pro和V4 Flash,都是1M上下文,也都开源。
- V4 Pro,1.6T(1.6万亿)总参数,49B激活。
- V4 Flash,284B(2840亿)总参数,13B激活。
在网页端/APP,V4 Pro对应「专家模式」,V4 Flash「快速模式」。
一图看懂DeepSeek V4,图由GPT生成
据DeepSeek自己介绍,V4的Agent能力仅比肩Claude Sonnet 4.5,离Opus 4.6、4.7还有差距;世界知识离Gemini-Pro-3.1还有差距;推理性能,与GPT-5.4旗鼓相当。
官方report也直言,“发展轨迹约滞后前沿闭源模型3到6个月”。
API价格方面,DeepSeek V4比V3.2有所上涨,V4 Pro涨了约6倍,V4 Flash降了约50%。另外,并没有Coding Plan。
以上,来自官方信息。下面,我们基于实测来评估一下这个模型。
一手实测
1)编程:3D任务
先测一个3D任务,主要看模型的前端能力,考验模型对空间想象和逻辑推理的能力。
提示词:制作一个3D的雪山场景html,雪山中间有一个日式的寺庙,整体风格参考塞尔达旷野之息。
Qwen3.6-Plus:
GLM-5.1:
DeepSeek V4 Pro:
MiniMax M2.7:
Gemini-3.1-Pro:
为什么不对比kimi K2.6?Kimi说他有点累了,让我晚点再问一下。
整体来看,“开源五杰”表现不一。
GLM-5.1、Qwen3.6-Plus和Gemini-3.1-Pro在同一个水平,其他四家略逊一筹。
细节方面,GLM-5.1和Qwen3.6-Plus是最强的。比如雪山粒子特效、日式建筑还原、塞尔达风格参考,他俩的整体表现比其他模型都要更优一些。
DeepSeek V4 Pro,在这个case中表现一般。
我又试了一个3D魔方的老case,V4能做到还原。
提示词:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself.
中文:创建一个HTML文件,其中使用Three.js(通过CDN方式引入)来实现一个功能完备的3D魔方模拟程序。该魔方必须能够自动完成自己的“解谜”过程。
这个case,我也测过很多模型了。基本上,最新的模型都能one shot,一次跑通。
2)编程:Skills任务
今天,藏师傅开源了一个极其牛逼的PPT skill「guizang-ppt-skill」。
skill地址:github.com/op7418/guizang-ppt-skil
生成的是一份HTML式PPT,也就几十kb,可以发给任何人,在浏览器打开,字体、动画都不会变。
对于这个skill,藏师傅说“这是他十年审美的压缩包。”
我第一时间,就把这个skills装到我的Claude Code里。直接对着你的Claude Code说这句话就行。
帮我安装这个skill:github.com/op7418/guiz…
然后,接入DeepSeek V4 Pro跑了个case,让它把我昨天的文章设计成10页PPT。
给大家看下最终的效果。(本文内容,首发同名公众号)
视频1
整体排版、风格、字体搭配,我都非常满意。差不多我再微调下文字(可用Trae或文本编辑器来改),这套PPT可以直接拿去演讲了。
3)编程:网站开发
需求是,让DeepSeek V4 Pro基于我给到的模特照片,做一个摄影师作品集的网站。
提示词:我是拍模特广告的摄影师,我的工作室叫「小逸摄影」,文件夹 D:\Vibe Coding\DS V4\模特图片 放了一些模特图片,给我生成一个高级审美、大师水准的摄影师作品网站,用上文件夹里的图片并配上精美的讲解。
Qwen3.6-Plus,之前已经测过,效果很惊艳。
视频2
来看下DeepSeek V4 Pro的表现。
视频3
也是深色背景+Hero全屏+网格画廊,整个水准跟Qwen3.6-Plus差距不大。
如果要论细节的话,Qwen3.6-Plus在一些logo、文字配色和交互动画上要更强一些。
Qwen3.6-Plus生成的首屏
DeepSeek V4 Pro生成的首屏
4)Agent长程任务
任务,还是我们的老case,让Claude Code做一个联网搜索+word生成+skill调用+网站开发的复杂长程任务。
提示词:联网搜索、调研张雪机车的发展轨迹,尽量从权威信源获取信息。首先,给我创建一份5000字的word调研报告。然后,调用Knowledge Site Creator Skills给这份报告创建一个知识学习网站,页面高级审美。
这个任务,DeepSeek V4 Pro跑了很久,耗时33分钟。
交付给我了2个东西,一个是word报告,一个是知识学习网站(带后端)。
先看word报告。
内容还是挺全面的。最近,我高频在用DeepSeek做信息检索,回答质量一直都比较靠谱。相比去年的DeepSeek,现在的幻觉已经大幅下降。
然后,再看它生成的知识学习网站。
直接带了后端+数据库的功能,我添加数据后,这个网站就可以真实使用了。
以上4个case,一共消耗了450万tokens,成本10元。蹲一个,DeepSeek啥时候出CodingPlan啊。
5)世界知识任务
世界知识,要系统测起来,比较麻烦。
我问了一些陌生领域(关闭联网,下同)的问题,它都能答得上来。
一些次新的知识,它也训了进去。
但最新的,它不知道。
我问了下它的知识库,说是训练数据截止到2025年5月。
6)写作任务
以我经常干的事“让AI续写”来进行测试。
提示词:
参考下文的风格续写,300字:
现在,谁发我一张图,我的第一反应都是:“这是不是GPT生成的?”
人类社会,大家能够坐下来一起讨论事情,最基本的前提是,我们活在同一个现实里,对最基础的事实认知是一致的。
而今天,目光所及的一切都在崩塌。
DeepSeek V4 Pro的表现还行,但还是爱拽一些技术词,比如锚点、脚本、图灵测试等。
GPT-5的表现,明显就更像人一些,说人话。
GPT,也一直是我的常用写作模型。但自己要注意微调一下,比如让它不要老说“不是…而是”,不要一直加破折号、冒号。
Gemini-3.1-Pro的表现继续拉胯。拽那么多成语一点用都有,跟原文的风格非常割裂。
上周,我跟大家分享了写作经验,很多人都在评论区说Gemini 3.1/3.0远不如Gemini 2.5,确实如此。
Claude-Opus-4.6,这写作能力依旧顶级。
写在最后
整体测下来,我觉得DeepSeek V4的表现是“一般货色”。
这其实也和他们自己的判断一致,距离全球顶尖模型(不论开源还是闭源),大概还有3-6个月的差距。
他们在官方文章中写得也很克制:「不诱于誉,不恐于诽,率道而行,端然正己。」
不是任何东西,一出来就是张雪机车,就是世界第一的叙事。
但有意思的是,今天的AI行业,已经很少有人愿意接受“一般货色”这四个字了。
你发一个模型,如果不能吊打、不能碾压、不能重构一切,那就很容易被归类为“没意思”。
可冷静想想,这种思维不正常。
技术的发展,本来就应该是连续函数,而不是每一代都指数爆炸。
大多数时候,真正决定行业走向的,反而是这些“差一点点”的版本:更稳一点,更可控一点,生态更完善一点。
DeepSeek V4给我的感觉也是这样。
它不惊艳,但它在补课。
- 重写注意力机制,对Token维度进行压缩,叠加自研的DSA稀疏注意力,把上下文从128k直接推到1M,而且是标配。
- 重改模型架构,同时适配英伟达GPU和华为昇腾NPU。
- 重换后训练路径,从V3.2的SFT+混合RL,切到On-Policy Distillation(OPD),先练专家,再做融合。
- 同时补齐Agent能力,对Claude Code、OpenClaw、CodeBuddy这些实际在用的Agent产品,做针对性优化。
这些事情,没有一件是能上热搜的。
但,总得有人要去做。
而这一次,是DeepSeek。