DeepSeek 1.5B、7B、70B、671B 说的是什么为了讲清楚DeepSeek 1.5B，7B，70B，671

为了讲清楚DeepSeek 1.5B，7B，70B，671B，我们需要先解释一下大模型

为了解释大模型，我们先温习下一个数学与计算机科学的基本概念：函数

什么是函数？一些输入经过一些数值计算或者逻辑处理，得到一些输出，这就是函数

而大模型本质上就是一个函数

输入一些文本，输出一些文本（本文仅以文本类型大模型为例进行说明）

中间的计算过程，就是常听到的推理

中间计算过程所需的参数，就是常说的大模型参数

为什么大模型可以进行表现出推理能力？拟合与泛化

什么是拟合？

拟合可以理解为，对客观世界的临摹。输入一段文本给到大模型，大模型通过不断调整参数，一顿加减乘除（仅类比）后，使大模型能输出文本后衔接的内容(或近似内容)

当这样输入的文本越来越多，通过不断的调整参数，模型拟合的文本也就越来越多，模型也似乎学习到了客观世界的规律, 能预测出从来没有见过的文本

而这就是泛化，泛化使大模型出现了人工智能

在拟合的过程中，使用到了一定的高等数学知识，以达到拟合的目标

泛化这个目标，有时也被叫做涌现。涌现目前并没有数学理论指导，所以大模型的训练也被称作炼丹，严重依赖经验与直觉

好了，最后再回到DeepSeek 1.5B、7B、70B、671B

B其实是Billion的缩写，表示十亿

1.5B也就是15亿，7B 70亿，它们表示的是大模型的参数量，每个参数都是一个没有实际意义的浮点数

理论上来说参数量越大意味着拟合的文本越多，泛化的能力越强

但是同时计算量也就会更大，依赖的硬件条件更高，服务部署成本更高

最后似乎忘了说DeepSeek是什么

DeepSeek是一个大模型，可以理解为一个决定了加减乘除工序的规范，一种生产工艺，一道配方