DeepSeek 1.5B、7B、70B、671B 说的是什么

695 阅读2分钟

为了讲清楚DeepSeek 1.5B,7B,70B,671B,我们需要先解释一下大模型

为了解释大模型,我们先温习下一个数学与计算机科学的基本概念:函数

什么是函数?一些输入经过一些数值计算或者逻辑处理,得到一些输出,这就是函数

而大模型本质上就是一个函数

输入一些文本,输出一些文本(本文仅以文本类型大模型为例进行说明)

中间的计算过程,就是常听到的推理

中间计算过程所需的参数,就是常说的大模型参数

为什么大模型可以进行表现出推理能力?拟合与泛化

什么是拟合?

拟合可以理解为,对客观世界的临摹。输入一段文本给到大模型,大模型通过不断调整参数,一顿加减乘除(仅类比)后,使大模型能输出文本后衔接的内容(或近似内容)

当这样输入的文本越来越多,通过不断的调整参数,模型拟合的文本也就越来越多,模型也似乎学习到了客观世界的规律, 能预测出从来没有见过的文本

而这就是泛化,泛化使大模型出现了人工智能

在拟合的过程中,使用到了一定的高等数学知识,以达到拟合的目标

泛化这个目标,有时也被叫做涌现。涌现目前并没有数学理论指导,所以大模型的训练也被称作炼丹,严重依赖经验与直觉

好了,最后再回到DeepSeek 1.5B、7B、70B、671B

B其实是Billion的缩写,表示十亿

1.5B也就是15亿,7B 70亿,它们表示的是大模型的参数量,每个参数都是一个没有实际意义的浮点数

理论上来说参数量越大意味着拟合的文本越多,泛化的能力越强

但是同时计算量也就会更大,依赖的硬件条件更高,服务部署成本更高

最后 似乎忘了说DeepSeek是什么

DeepSeek是一个大模型,可以理解为 一个决定了 加减乘除 工序的规范,一种生产工艺,一道配方