昨天晚上,我刷 X 的时候,看到一条推文。
一个叫 Legit 的开发者,发了一段关于 DeepSeek V4 的爆料,几个小时之内,12 万阅读,转发量一直在涨。我点进去,看完以后,信息非常真!
Legit 说,DeepSeek V4 Lite 正在积极测试中,代号叫 "sealion-lite",至少有一家推理服务商已经拿到了访问权限,但签了严格的保密协议。
核心参数是这两个:上下文窗口 100 万 token和原生多模态。
原生多模态的意思是,这不是靠外挂一个视觉模块拼起来的,是从架构层面就支持的。
然后,一组 SVG 生成的对比图也流出来了。
网友 Fandu 泄露的,DeepSeek V4 Lite 和 V3.2 的对比,第一组是"骑自行车的鹈鹕"。
第二组是"Xbox 360 手柄"。
但让大家最在意的,其实不是这组对比本身。
是这个对比的背景:V4 Lite 是非思考模式,V3.2 是思考模式。
一个没开深度思考的轻量版本,干翻了开着思考链的上一代旗舰。
有个网友的话我觉得说得很准:"轻量版不是功能弱,是成本更低。这是个成本优化的强力产品。"
还有一个细节值得单独说。
路透社报道,DeepSeek 已经把 V4 的提前访问权,给了华为等国内芯片供应商。
目的是让他们有时间提前优化处理器软件,确保模型能在国产硬件上跑起来。
英伟达和 AMD,还没拿到。
这个事情怎么解读,见仁见智。
但有一点是挺明确的:DeepSeek 在发布之前,把国内的底盘先打稳了。
关于完整版 V4,目前流传的信息比较杂,可信度也参差不齐。
有开发者猜测参数量小版本在 2850 亿左右,大版本可能到 1.4T 甚至 1.5T 万亿级别。
编程能力据称是这次最核心的突破方向,有泄露的基准测试截图显示在 SWE-bench Verified 上的得分超过了 Claude 和 GPT 系列
但这组数据已经有人出来打假了,说部分截图存在明显问题,数字本身不可靠。
所以这些就先存疑。等正式发布再说。
发布时间方面,路透社说最快下周,也有说 3 月前后的。
反正,应该是近在咫尺了。
然后就是 CNBC 那篇预警。
标题大概是:纳斯达克可能迎来"DeepSeek 第二时刻"。
你可能还记得上一次是什么感觉。去年 1 月 27 日,DeepSeek R1 发布,英伟达单日跌了将近 17%,瞬间蒸发 6000 亿美元。一天之内。
现在 V4 还没发布,美股那边已经开始提前绷紧了。
国内更夸张。
春节期间,字节、阿里、智谱、MiniMax,一堆模型密集发布。
就像我朋友说的那样:"传闻 V4 很强,所以晚发不如早发,撞车等于白发。
一旦 DS V4 发布且效果炸裂,舆论关注度会被瞬间吸干,那时候再发就是发了个寂寞。"
这话说得有点丧,但确实是实情。
说实话,现在流出来的信息质量参差不齐。有真的内部爆料,也有捏造的基准测试截图,两种东西混在一起,很难分辨。DeepSeek 的风格一向是官方沉默、靠实力说话,在它正式发布、权重开源之前,所有的"惊天大分"都只是一个数字。
等它出手,应该不会远了。
到时候再聊。