重磅!DeepSeek V4横空出世,百万上下文时代来了!

0 阅读3分钟

4月24日,国产AI大模型圈炸出了一波"深水炸弹"——深度求索(DeepSeek)正式发布了V4模型预览版,并同步开源全部权重,协议为MIT。这款新模型的发布,被业内视为中国AI从"偶尔令人震撼"迈向"持续在场"的标志性事件。

两大版本,双剑合璧

此次发布的V4系列包含两个型号:V4 Pro和V4-Flash。其中,V4 Pro总参数达1.6万亿,激活参数49B;V4-Flash总参数284B,激活13B。两款模型均支持高达100万token的上下文窗口,意味着模型能一次性"记住"整本《红楼梦》级别的长文本。

更令人惊讶的是其效率表现——V4-Pro在处理百万token时,单token算力消耗仅为V3.2版本的27%,KV缓存占用也压缩到10%。这一突破意味着长文本处理不再是"成本杀手"。

五个信号,暗藏玄机

此次发布释放出五个关键信号,值得行业深思:

第一,时机选择意味深长。 相比原计划的发布日期,V4推迟三次才正式亮相,说明公司更注重解决百万上下文场景下的成本可持续性问题,而非单纯追求参数和指标。

第二,产品矩阵清晰明确。 V4 Pro和Flash分别定位高端和专业场景,并包含非思考、思考高、思考极限三种模式。公司明确将自身定位为"Agent时代的底座供应商",而非应用生态开发者。

第三,定价策略极具攻击性。 V4-Flash输入1元/百万token,输出2元;V4-Pro输入12元/百万token,输出24元。相比OpenAI GPT-5.5的30美元/百万token,价格相差超100倍。这种"白菜价铺量、高价撑场景"的打法,被解读为鼓励开发者向Agent开发转型。

第四,生态协同已成定局。 华为昇腾(A2/A3/950)、寒武纪等国产算力厂商已完成Day 0适配与代码开源,系统性地完成了从CUDA到CANN的迁移,证明中国AI研发的系统性创新能力。

第五,开源态度空前开放。 全部权重以MIT协议开源,这一做法既展示了技术自信,也为中国AI社区提供了宝贵资源。

技术硬核,实力说话

V4采用全新混合注意力架构,引入Token维度压缩机制和自研DSA稀疏注意力,结合流形约束超连接和Muon优化器,在数学、STEM、代码等评测中超越公开开源模型,直逼顶级闭源产品。预训练数据超过32万亿token,世界知识全面领先其他开源模型。

结语

从2025年1月R1发布引发美股市值蒸发超1万亿美元,到V4此次低调发布,中国AI企业正以更成熟的心态持续布局。正如文章所言:"不诱于誉,不恐于诽"——在技术跳票与争议中坚持前行,才是技术突破的真谛。

DeepSeek V4的问世,不仅是中国AI技术的又一里程碑,更向全球证明:在智能时代,中国力量正在持续在场、持续发力。