实测DeepSeek V4:不炸裂了,但在做更重要的事

0 阅读7分钟

大家好,我是冷逸。

千呼万唤始出来,DeepSeek V4终于发布了。

这次一共有2个版本,V4 Pro和V4 Flash,都是1M上下文,也都开源。

  • V4 Pro,1.6T(1.6万亿)总参数,49B激活。
  • V4 Flash,284B(2840亿)总参数,13B激活。

在网页端/APP,V4 Pro对应「专家模式」,V4 Flash「快速模式」。

图片

一图看懂DeepSeek V4,图由GPT生成

据DeepSeek自己介绍,V4的Agent能力仅比肩Claude Sonnet 4.5,离Opus 4.6、4.7还有差距;世界知识离Gemini-Pro-3.1还有差距;推理性能,与GPT-5.4旗鼓相当。

官方report也直言,“发展轨迹约滞后前沿闭源模型3到6个月”。

API价格方面,DeepSeek V4比V3.2有所上涨,V4 Pro涨了约6倍,V4 Flash降了约50%。另外,并没有Coding Plan。

以上,来自官方信息。下面,我们基于实测来评估一下这个模型。

图片

一手实测

1)编程:3D任务

先测一个3D任务,主要看模型的前端能力,考验模型对空间想象和逻辑推理的能力。

提示词:制作一个3D的雪山场景html,雪山中间有一个日式的寺庙,整体风格参考塞尔达旷野之息。

Qwen3.6-Plus:

图片

GLM-5.1:

图片

DeepSeek V4 Pro:

图片

MiniMax M2.7:

图片

Gemini-3.1-Pro:

图片

为什么不对比kimi K2.6?Kimi说他有点累了,让我晚点再问一下。

整体来看,“开源五杰”表现不一。

GLM-5.1、Qwen3.6-Plus和Gemini-3.1-Pro在同一个水平,其他四家略逊一筹。

细节方面,GLM-5.1和Qwen3.6-Plus是最强的。比如雪山粒子特效、日式建筑还原、塞尔达风格参考,他俩的整体表现比其他模型都要更优一些。

DeepSeek V4 Pro,在这个case中表现一般。

我又试了一个3D魔方的老case,V4能做到还原。

提示词:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 

中文:创建一个HTML文件,其中使用Three.js(通过CDN方式引入)来实现一个功能完备的3D魔方模拟程序。该魔方必须能够自动完成自己的“解谜”过程。

图片

这个case,我也测过很多模型了。基本上,最新的模型都能one shot,一次跑通。

2)编程:Skills任务

今天,藏师傅开源了一个极其牛逼的PPT skill「guizang-ppt-skill」。

图片

skill地址:github.com/op7418/guizang-ppt-skil

生成的是一份HTML式PPT,也就几十kb,可以发给任何人,在浏览器打开,字体、动画都不会变。

对于这个skill,藏师傅说“这是他十年审美的压缩包。”

我第一时间,就把这个skills装到我的Claude Code里。直接对着你的Claude Code说这句话就行。

帮我安装这个skill:github.com/op7418/guiz…

然后,接入DeepSeek V4 Pro跑了个case,让它把我昨天的文章设计成10页PPT。

图片

给大家看下最终的效果。(本文内容,首发同名公众号)

视频1

整体排版、风格、字体搭配,我都非常满意。差不多我再微调下文字(可用Trae或文本编辑器来改),这套PPT可以直接拿去演讲了。

3)编程:网站开发

需求是,让DeepSeek V4 Pro基于我给到的模特照片,做一个摄影师作品集的网站。

提示词:我是拍模特广告的摄影师,我的工作室叫「小逸摄影」,文件夹 D:\Vibe Coding\DS V4\模特图片 放了一些模特图片,给我生成一个高级审美、大师水准的摄影师作品网站,用上文件夹里的图片并配上精美的讲解。

Qwen3.6-Plus,之前已经测过,效果很惊艳。

视频2

来看下DeepSeek V4 Pro的表现。

视频3

也是深色背景+Hero全屏+网格画廊,整个水准跟Qwen3.6-Plus差距不大。

如果要论细节的话,Qwen3.6-Plus在一些logo、文字配色和交互动画上要更强一些。

图片

Qwen3.6-Plus生成的首屏

图片

DeepSeek V4 Pro生成的首屏

4)Agent长程任务

任务,还是我们的老case,让Claude Code做一个联网搜索+word生成+skill调用+网站开发的复杂长程任务。

提示词:联网搜索、调研张雪机车的发展轨迹,尽量从权威信源获取信息。首先,给我创建一份5000字的word调研报告。然后,调用Knowledge Site Creator Skills给这份报告创建一个知识学习网站,页面高级审美。

这个任务,DeepSeek V4 Pro跑了很久,耗时33分钟。

图片

交付给我了2个东西,一个是word报告,一个是知识学习网站(带后端)。

先看word报告。

图片

内容还是挺全面的。最近,我高频在用DeepSeek做信息检索,回答质量一直都比较靠谱。相比去年的DeepSeek,现在的幻觉已经大幅下降。

然后,再看它生成的知识学习网站。

图片

直接带了后端+数据库的功能,我添加数据后,这个网站就可以真实使用了。

以上4个case,一共消耗了450万tokens,成本10元。蹲一个,DeepSeek啥时候出CodingPlan啊图片

图片

5)世界知识任务

世界知识,要系统测起来,比较麻烦。

我问了一些陌生领域(关闭联网,下同)的问题,它都能答得上来。

图片

一些次新的知识,它也训了进去。

图片

但最新的,它不知道。

图片

我问了下它的知识库,说是训练数据截止到2025年5月。

图片

6)写作任务

以我经常干的事“让AI续写”来进行测试。

提示词:
参考下文的风格续写,300字:
现在,谁发我一张图,我的第一反应都是:“这是不是GPT生成的?”
人类社会,大家能够坐下来一起讨论事情,最基本的前提是,我们活在同一个现实里,对最基础的事实认知是一致的。
而今天,目光所及的一切都在崩塌。

DeepSeek V4 Pro的表现还行,但还是爱拽一些技术词,比如锚点、脚本、图灵测试等。

图片

GPT-5的表现,明显就更像人一些,说人话。

图片

GPT,也一直是我的常用写作模型。但自己要注意微调一下,比如让它不要老说“不是…而是”,不要一直加破折号、冒号。

Gemini-3.1-Pro的表现继续拉胯。拽那么多成语一点用都有,跟原文的风格非常割裂。

图片

上周,我跟大家分享了写作经验,很多人都在评论区说Gemini 3.1/3.0远不如Gemini 2.5,确实如此。

Claude-Opus-4.6,这写作能力依旧顶级。

图片图片

写在最后

整体测下来,我觉得DeepSeek V4的表现是“一般货色”。

这其实也和他们自己的判断一致,距离全球顶尖模型(不论开源还是闭源),大概还有3-6个月的差距。

他们在官方文章中写得也很克制:「不诱于誉,不恐于诽,率道而行,端然正己。」

不是任何东西,一出来就是张雪机车,就是世界第一的叙事。

但有意思的是,今天的AI行业,已经很少有人愿意接受“一般货色”这四个字了。

你发一个模型,如果不能吊打、不能碾压、不能重构一切,那就很容易被归类为“没意思”。

可冷静想想,这种思维不正常。

技术的发展,本来就应该是连续函数,而不是每一代都指数爆炸。

大多数时候,真正决定行业走向的,反而是这些“差一点点”的版本:更稳一点,更可控一点,生态更完善一点。

DeepSeek V4给我的感觉也是这样。

它不惊艳,但它在补课。

  • 重写注意力机制,对Token维度进行压缩,叠加自研的DSA稀疏注意力,把上下文从128k直接推到1M,而且是标配。
  • 重改模型架构,同时适配英伟达GPU和华为昇腾NPU。
  • 重换后训练路径,从V3.2的SFT+混合RL,切到On-Policy Distillation(OPD),先练专家,再做融合。
  • 同时补齐Agent能力,对Claude Code、OpenClaw、CodeBuddy这些实际在用的Agent产品,做针对性优化。

图片

这些事情,没有一件是能上热搜的。

但,总得有人要去做。

而这一次,是DeepSeek。