说实话,今年1月份看到DeepSeek发Engram论文的时候,我还以为V4过年前就能见到,没想到 “难产” 快赶上哪吒了,一直拖到今天才发布。
中间也有好几次状况,先发布,然后又回滚。当时就有内部人说是为了适配华为昇腾系列调整,所以一推再推。结果今天发布一看——还真不是空穴来风,感情真的把华为昇腾给适配上去了。
全栈适配昇腾950,100%国产算力 !!
一、V4 核心内容概览
参数规模:1.6T(万亿级别) 上下文:1M(100万字,全系标配) 架构:MoE混合专家
1. 昇腾首发——这块真得说道说道
V4是首个 脱离CUDA 的大模型,全栈适配华为昇腾950PR芯片。
这意味着什么?简单说就是:国产芯片能跑万亿参数模型了。
尤其是这句 "预计今年下半年昇腾950超节点批量上市后,Pro价格会大幅下跌。" 特别提气!!
最近 Agent 爆火,相信大多数人都被搞得花钱如流水,欠了一屁股 token 债。如果国产基础设施能跟上,相信背靠着国家的强大工业体系,这部分价格很快就能打到白菜价。
2. 百万上下文——不用担心复杂任务上下文了
全系标配1M超长上下文,并且以后的模型估计也是百万上下文起步了。这对开发太友好了——以前跑长文档还得自己搞分块截断,现在直接整本书喂进去都行。(但是具体效果如何,可以继续看下面的测评)
3. 性能表现
- Codeforces评分:3206(开源模型最高)
- Agent能力:超越开源模型,对标GPT-4o 和 Claude Opus
当然,这个最终效果还是要上手试,但 deepseek 敢这么讲,肯定是有底气的。
二、实测:真刀真枪比一把
参数归参数,真实体验才是王道。我选了几个常用的模型来对比:
选手名单:
- 豆包 1T
- Qwen 3.6 Plus(397B)
- Kimi 2.6(1T)
- DeepSeek V4 Pro
测试说明:代码生成时,如果模型给的代码跑不通,我会让它自己修,不给更明确的提示。等能运行了就算过。
测试1:3D赛车游戏
prompt:帮我生成一个html网页,我希望这个网页可以直接玩赛车游戏,3D的。要求画面逼真,场景丰富,操作流畅。
豆包:如果是火箭发射的游戏,应该是满分🤔。
Qwen3.6 Plus:画面可以,但是原地摇摆人,其实玩起来还挺有意思的。
Kimi 2.6:直接来了个开放世界赛车,惊到我了。完成度确实高。
DeepSeek V4:说实话,100分的话我能给95分。完成度相当高,画质精美,操作流畅,甚至已经接近4399上那些小游戏了。
测试2:3D抢滩登陆游戏
prompt:帮我生成一个html网页游戏,抢滩登陆。第一人称视角射击,要求画面精美,操作流畅。3D。
豆包:内容空泛,完成度不够,半成品。
Qwen3.6 Plus:还行,但没有敌人生成,就给一把枪...这让我怎么玩?
Kimi 2.6:完成度挺高,基本元素都齐了。
DeepSeek V4: 射击的时候画面震动效果特别好,很爽。但是画面细节还有优化空间,不如赛车游戏惊艳。
测试3:魔改古诗
原诗:《闺怨》 闺中少妇不知愁,春日凝妆上翠楼。 忽见陌头杨柳色,悔教夫婿觅封侯。
prompt:帮我把王昌龄的《闺怨》改成魔性中英文版本。例如"书中自有黄金屋",改为"书中自有everything"。即押韵,意思也相近。
豆包: 闺中lady zero愁,春日full妆上高楼。 忽见路边willow show,悔教hubby chase 封侯。
Qwen3.6 Plus: 闺中少妇 unbothered flow,春日凝妆 ready to go。 忽见陌头 willow glow,悔教夫婿 chase the show。
Kimi 2.6: 闺中少妇 no sorrow,春日凝妆 up 翠楼。 忽见陌头杨柳 green,悔叫 hubby 觅封侯。
DeepSeek V4: 闺中少妇 no woe,春日凝妆 feel the glow。 忽见陌头 willow grow,悔教夫婿 chase the dough。
这一轮:说实话,这道题有点见仁见智。我个人更喜欢豆包的版本,V4次之。但总体而言,各家差距不大,并没有哪个模型明显胜出。
测试4:20字恐怖微小说
prompt:请用"苹果","汽车","我"编一个小故事,要求20字以内,有一次反转,且细思极恐。
豆包: 我咬了口苹果,汽车里的我缺了块肉。
Qwen3.6 Plus: 我削苹果等汽车,车门开,里面坐着我。
Kimi 2.6: 我咬了口苹果,发现汽车里坐着另一个"我"。
DeepSeek V4: 开车时,后座苹果滚来,回头见自己正坐在后座。
这一轮:Qwen、Kimi 和 deepseek 三个答案意思一模一样,严重怀疑这三位同学互相抄作业。整体上感觉也拉不开差距,并没有哪个特别的惊艳。硬要选的话,豆包这个反而有点鹤立鸡群的味道。
测试5:超长上下文精确度--10万级别
四个模型都支持10万级别的上下文。这里先试用一个10万级别的背景内容,然后在其中插入一些指令,看看模型能否注意到。选取的文本内容为 10万左右。
为了防止注意力机制轻易获取到信息,我们采用柔和插入的方式,即在原文中不经意体现。我在文本前段,中段,尾端分别插入了:
前段:秦婉摸了摸自己的胡子,真的是离谱。
中段:此时正是下午34点97分。
尾端:她看了看手机,手机上面显示现在是2月31日。
prompt:基于以上内容,说出文中与基础常识相违背的地方。
豆包:找到两个,摸胡子的遗漏了。
Qwen3.6 Plus:同样找到两个,摸胡子的遗漏了。
Kimi 2.6:会自动转成附件,担心有其他操作(例如切片)对别的模型不公平,这里不参与比较。
DeepSeek V4:很强,三个错误都找到了。
这一轮:Qwen 和 豆包都找到两处错误,胡子那一处没有找到(可能是不太明显)。deepseek 三处全部找到了。在10万级别的上下文里,感觉大家的能力都挺强的,deepseek 确实会更优秀一点。
测试6:超长上下文精确度--100万级别
内容为98万+,留一点余量给模型输出。这个级别只有 Qwen3.6 Plus 和 Deepseek V4了。
prompt:基于以上内容,说出文中与基础常识相违背的地方。
Qwen3.6 Plus:将文本转成了附件,不参与比赛。
DeepSeek V4:找了一堆其他的出来,埋进去的同样没找到。
这一轮:唯一有资格的两个选手都没有给出满意的答案,Qwen 直接转附件了,Deepseek 虽然全程按照文本做的,但是看来在 100万级别的上下文中,精确查找和分析细节问题,还是具有较高的难度。