DeepSeek 首启融资:产品是硬通货

0 阅读1分钟

The Information 4 月 17 日报道,DeepSeek 正首次对外融资,目标 3 亿美元以上,估值预计突破 100 亿美元。成立以来一直由幻方量化独家输血的 DeepSeek,这次打开钱袋是因为——产品需求接不住了。

DeepSeek 首次融资

让融资成为必选项的,是 R1 和 V3 之后的口碑。R1 用 560 万美元的训练成本对标 OpenAI 顶级模型,直接引发了 2025 年 1 月全球 AI 股约 1 万亿美元市值的重估。到了 V4,DeepSeek 继续把"少参数激活、多上下文、低推理成本"这条路走深:

  • 1T 参数 MoE,单 token 仅激活约 37B,推理成本被压到与 100B 级稠密模型同量级;
  • Engram 条件记忆——把静态事实检索下沉到 DRAM,GPU 只跑动态推理。在 1M token 上下文下,大海捞针准确率从 84.2% 拉到 97%;
  • DSA 动态稀疏注意力,按 token 复杂度在稠密/稀疏路径间路由,长代码场景尤其受益;
  • mHC 训练框架,把梯度放大约束在 2 倍以内,让万亿参数能稳定收敛。

DeepSeek V4

落到 benchmark 上,内部泄露数据显示 V4 在 SWE-bench Verified 约 81%、HumanEval 约 90%——与 Claude Opus 4.5 处于同一水位。价格侧,API 输入价约为 Opus 的 1/50。独立验证还没出,但架构选型本身已经给出了可信的解释。

芯片特写

对开发者来说,这意味着一个可本地部署、可 Apache 2.0 商用、推理成本足够低的开源基座候选。融资拿到之后,V4 和后续 R2 的发布节奏、推理服务稳定性大概率会是下一个观察点。