训练成本对比
DeepSeek-R1
通过自研MLA架构与强化学习技术,仅使用2048块H800 GPU集群,在2个月内以557万美元完成训练,相当于OpenAI同类模型的1/30成本。这种超低成本源于:
- 动态计算路由技术提升算力利用率
- 直接强化学习减少监督数据依赖
- 开源技术复用优化资源配置
Qwen2.5-Max
作为混合专家(MoE)架构模型,其训练成本尚未公开,但技术路线显示:
- 基于超过20万亿token的预训练数据
- 采用精选监督微调与强化学习方法
- 借助阿里云完整工具链降低部署成本
服务定价对比
| DeepSeek-R1 | Qwen2.5-Turbo | Qwen2.5-Max | |
|---|---|---|---|
| 输入 tokens | 1元/百万(缓存) 4元/百万(未缓存) | 0.3元/百万 | 20元/百万 |
| 输出 tokens | 16元/百万 | 0.6元/百万 | 60元/百万 |
成本优势分析
-
DeepSeek-R1在输入tokens的缓存模式下,成本为1元/百万,而在未缓存模式下为4元/百万。其输出tokens的成本为16元/百万。
-
Qwen2.5-Turbo则在Turbo版中,输入tokens的成本为0.3元/百万,输出tokens的成本为0.6元/百万。
-
Qwen2.5-Max的输入tokens成本为20元/百万,输出tokens成本为60元/百万。
技术路径差异
DeepSeek通过算法效率革命实现成本突破,其动态路由技术使单卡效率提升5倍;而Qwen2.5-Max依托阿里云生态,通过规模化云服务摊薄边际成本,提供从训练到部署的全链条支持。
摩根士丹利分析指出,DeepSeek的创新可能改变AI产业的"生产要素关系",而Qwen2.5-Max的云平台整合优势或将引发中国AI资产价值重估。两类模型的低成本实践,标志着中国AI发展进入算法优化与生态协同并重的新阶段。