一,模型概况
deepseek v3多少参数量671B参数量,激活参数37B。上下文长度128K。
二,训练高效
训练成本557.6万美元,2048张H800训练了2个月,1/8的训练成本。
三,推理高效
输入1元/一百万tokens,是gpt4turbo的1/70。
四,deepseek测评表现
在编程,数学,中文表现突出。 在MATH-500测试中,DeepSeek的得分为90.2%,远超Qwen2.5-72b等模型。 在AIME这样的高级数学竞赛上也有接近40%的准确率,超过了主流的闭源大模型。 在编程竞赛Codeforces上达到51.6百分位,超过Llama-3.1-405b、GPT-4o等模型。
五,哪些关键技术
后续文章会展开分析。 1,MLA注意力机制 2,FP8混合精度训练 3,Moe前向反馈 4,数据精炼 5,deepseek R1蒸馏