前言
DeepSeek又融钱了。100亿美元估值,首次外部融资,打破了梁文锋"不融资"的承诺。
这篇文章不聊估值,只聊技术。DeepSeek-V3和R1到底强在哪?为什么让OpenAI都紧张?船长带你扒开看。
一、DeepSeek-V3的技术突破
1.1 架构创新:MoE + MLA
DeepSeek-V3采用了**混合专家架构(MoE)和多头潜在注意力(MLA)**的组合,这在开源模型中非常罕见。
MoE核心思想:
- 将模型分成多个"专家"(Expert)
- 每个token只激活少数专家处理
- 大幅降低计算量的同时保持性能
MLA核心思想:
- 将Key-Value缓存压缩到低维空间
- 减少推理时的显存占用
- 提高长上下文处理效率
1.2 训练成本:只有GPT-4的1/10
DeepSeek-V3的训练成本约为600万美元,而GPT-4据传训练成本超过1亿美元。
这不是说DeepSeek更省钱,而是他们的工程优化能力极强:
-
FP8混合精度训练
-
DualPipe算法优化通信
-
负载均衡策略
二、DeepSeek-R1的推理能力
2.1 纯强化学习驱动
R1最令人震惊的是:它是用**纯强化学习(RL)**训练出来的,没有人工标注的思维链数据。
传统方法:
SFT(有监督微调)→ 需要大量人工标注的CoT数据
R1的方法:
基座模型 → 强化学习 → 自我进化出推理能力
这意味着:
- 不需要昂贵的标注成本
- 模型可以自己"想出"解题思路
- 涌现出令人惊讶的推理能力
2.2 性能对比
| 模型 | MATH-500 | AIME 2024 | 编程 |
|---|---|---|---|
| GPT-4o | 76.6% | 9.3% | 强 |
| Claude 3.5 | 78.0% | 16.0% | 强 |
| DeepSeek-R1 | 97.3% | 79.8% | 持平 |
| DeepSeek-R1-Zero | 96.8% | 71.0% | 持平 |
R1在数学推理上直接超越了所有闭源模型。
三、为什么选择华为昇腾?
今年3月,DeepSeek被曝已转向使用华为昇腾950PR芯片。为什么?
3.1 昇腾950PR的性能
-
单卡算力达到英伟达H20的2.87倍
-
国内首款支持FP4低精度计算的商用推理产品
-
多模态生成效率提升60%
3.2 国产替代的必然
在美国芯片出口限制背景下,国产大模型企业必须找到替代方案。昇腾950PR是目前最接近H100/H200的国产选择。
四、船长怎么看
DeepSeek的技术路线很有意思:
-
工程能力驱动:不是靠堆卡,而是靠优化
-
开源生态:让全球开发者帮你迭代
-
强化学习:用更少的数据,更低的成本,达到更强的效果
这不是简单的"国产替代",而是走出了一条自己的路。
结语
DeepSeek融了100亿美元,但技术路线的价值远超这个数字。对于开发者来说,DeepSeek的开源模型是最好的实验场;对于企业来说,昇腾+DeepSeek的组合是国产化部署的优选方案。
风口上的猪会摔下来,但真正造风的人会活下去。