国产deepseek分析之高效大模型《一》一，模型概况 deepseek v3多少参数量671B参数量，激活参数37B。

一，模型概况

deepseek v3多少参数量671B参数量，激活参数37B。上下文长度128K。

二，训练高效

训练成本557.6万美元，2048张H800训练了2个月，1/8的训练成本。

三，推理高效

输入1元/一百万tokens，是gpt4turbo的1/70。

四，deepseek测评表现

在编程，数学，中文表现突出。在MATH-500测试中，DeepSeek的得分为90.2%，远超Qwen2.5-72b等模型。在AIME这样的高级数学竞赛上也有接近40%的准确率，超过了主流的闭源大模型。在编程竞赛Codeforces上达到51.6百分位，超过Llama-3.1-405b、GPT-4o等模型。

五，哪些关键技术

后续文章会展开分析。 1，MLA注意力机制 2，FP8混合精度训练 3，Moe前向反馈 4，数据精炼 5，deepseek R1蒸馏