实测 DeepSeek V4：代码强到离谱，百万上下文却悄咪咪翻车了？DeepSeek V4正式发布，全栈适配华为昇腾9

说实话，今年1月份看到DeepSeek发Engram论文的时候，我还以为V4过年前就能见到，没想到 “难产” 快赶上哪吒了，一直拖到今天才发布。

中间也有好几次状况，先发布，然后又回滚。当时就有内部人说是为了适配华为昇腾系列调整，所以一推再推。结果今天发布一看——还真不是空穴来风，感情真的把华为昇腾给适配上去了。

全栈适配昇腾950，100%国产算力 ！！

一、V4 核心内容概览

参数规模：1.6T（万亿级别） 上下文：1M（100万字，全系标配）架构：MoE混合专家

请添加图片描述

1. 昇腾首发——这块真得说道说道

V4是首个 脱离CUDA 的大模型，全栈适配华为昇腾950PR芯片。

这意味着什么？简单说就是：国产芯片能跑万亿参数模型了。

请添加图片描述

尤其是这句 "预计今年下半年昇腾950超节点批量上市后，Pro价格会大幅下跌。" 特别提气！！

最近 Agent 爆火，相信大多数人都被搞得花钱如流水，欠了一屁股 token 债。如果国产基础设施能跟上，相信背靠着国家的强大工业体系，这部分价格很快就能打到白菜价。

2. 百万上下文——不用担心复杂任务上下文了

全系标配1M超长上下文，并且以后的模型估计也是百万上下文起步了。这对开发太友好了——以前跑长文档还得自己搞分块截断，现在直接整本书喂进去都行。（但是具体效果如何，可以继续看下面的测评）

3. 性能表现

Codeforces评分：3206（开源模型最高）
Agent能力：超越开源模型，对标GPT-4o 和 Claude Opus

请添加图片描述

当然，这个最终效果还是要上手试，但 deepseek 敢这么讲，肯定是有底气的。

二、实测：真刀真枪比一把

参数归参数，真实体验才是王道。我选了几个常用的模型来对比：

选手名单：

豆包 1T
Qwen 3.6 Plus（397B）
Kimi 2.6（1T）
DeepSeek V4 Pro

测试说明：代码生成时，如果模型给的代码跑不通，我会让它自己修，不给更明确的提示。等能运行了就算过。

测试1：3D赛车游戏

prompt：帮我生成一个html网页，我希望这个网页可以直接玩赛车游戏，3D的。要求画面逼真，场景丰富，操作流畅。

豆包：如果是火箭发射的游戏，应该是满分🤔。

在这里插入图片描述

Qwen3.6 Plus：画面可以，但是原地摇摆人，其实玩起来还挺有意思的。

在这里插入图片描述

Kimi 2.6：直接来了个开放世界赛车，惊到我了。完成度确实高。

在这里插入图片描述

DeepSeek V4：说实话，100分的话我能给95分。完成度相当高，画质精美，操作流畅，甚至已经接近4399上那些小游戏了。

在这里插入图片描述

测试2：3D抢滩登陆游戏

prompt：帮我生成一个html网页游戏，抢滩登陆。第一人称视角射击，要求画面精美，操作流畅。3D。

豆包：内容空泛，完成度不够，半成品。

在这里插入图片描述

Qwen3.6 Plus：还行，但没有敌人生成，就给一把枪...这让我怎么玩？

在这里插入图片描述

Kimi 2.6：完成度挺高，基本元素都齐了。

在这里插入图片描述

DeepSeek V4：射击的时候画面震动效果特别好，很爽。但是画面细节还有优化空间，不如赛车游戏惊艳。

在这里插入图片描述

测试3：魔改古诗

原诗：《闺怨》闺中少妇不知愁，春日凝妆上翠楼。忽见陌头杨柳色，悔教夫婿觅封侯。

prompt：帮我把王昌龄的《闺怨》改成魔性中英文版本。例如"书中自有黄金屋"，改为"书中自有everything"。即押韵，意思也相近。

豆包：闺中lady zero愁，春日full妆上高楼。忽见路边willow show，悔教hubby chase 封侯。

Qwen3.6 Plus：闺中少妇 unbothered flow，春日凝妆 ready to go。忽见陌头 willow glow，悔教夫婿 chase the show。

Kimi 2.6：闺中少妇 no sorrow，春日凝妆 up 翠楼。忽见陌头杨柳 green，悔叫 hubby 觅封侯。

DeepSeek V4：闺中少妇 no woe，春日凝妆 feel the glow。忽见陌头 willow grow，悔教夫婿 chase the dough。

这一轮：说实话，这道题有点见仁见智。我个人更喜欢豆包的版本，V4次之。但总体而言，各家差距不大，并没有哪个模型明显胜出。

测试4：20字恐怖微小说

prompt：请用"苹果"，"汽车"，"我"编一个小故事，要求20字以内，有一次反转，且细思极恐。

豆包：我咬了口苹果，汽车里的我缺了块肉。

Qwen3.6 Plus：我削苹果等汽车，车门开，里面坐着我。

Kimi 2.6：我咬了口苹果，发现汽车里坐着另一个"我"。

DeepSeek V4：开车时，后座苹果滚来，回头见自己正坐在后座。

这一轮：Qwen、Kimi 和 deepseek 三个答案意思一模一样，严重怀疑这三位同学互相抄作业。整体上感觉也拉不开差距，并没有哪个特别的惊艳。硬要选的话，豆包这个反而有点鹤立鸡群的味道。

测试5：超长上下文精确度--10万级别

四个模型都支持10万级别的上下文。这里先试用一个10万级别的背景内容，然后在其中插入一些指令，看看模型能否注意到。选取的文本内容为 10万左右。

请添加图片描述

为了防止注意力机制轻易获取到信息，我们采用柔和插入的方式，即在原文中不经意体现。我在文本前段，中段，尾端分别插入了：

前段：秦婉摸了摸自己的胡子，真的是离谱。

中段：此时正是下午34点97分。

尾端：她看了看手机，手机上面显示现在是2月31日。

prompt：基于以上内容，说出文中与基础常识相违背的地方。

豆包：找到两个，摸胡子的遗漏了。在这里插入图片描述

Qwen3.6 Plus：同样找到两个，摸胡子的遗漏了。

在这里插入图片描述

Kimi 2.6：会自动转成附件，担心有其他操作（例如切片）对别的模型不公平，这里不参与比较。

在这里插入图片描述

DeepSeek V4：很强，三个错误都找到了。

在这里插入图片描述

这一轮：Qwen 和豆包都找到两处错误，胡子那一处没有找到（可能是不太明显）。deepseek 三处全部找到了。在10万级别的上下文里，感觉大家的能力都挺强的，deepseek 确实会更优秀一点。

测试6：超长上下文精确度--100万级别

内容为98万+，留一点余量给模型输出。这个级别只有 Qwen3.6 Plus 和 Deepseek V4了。

在这里插入图片描述

prompt：基于以上内容，说出文中与基础常识相违背的地方。

Qwen3.6 Plus：将文本转成了附件，不参与比赛。

在这里插入图片描述

DeepSeek V4：找了一堆其他的出来，埋进去的同样没找到。

在这里插入图片描述

这一轮：唯一有资格的两个选手都没有给出满意的答案，Qwen 直接转附件了，Deepseek 虽然全程按照文本做的，但是看来在 100万级别的上下文中，精确查找和分析细节问题，还是具有较高的难度。