一、感知机
1、x1到xn是输入信号,w1到wn是权重,b是偏置
2、大模型讲的参数是指,权重和偏置,x1-xn和b,总共n+1个参数。
大模型的参数本质上是所有神经元中所有权重和偏置的集合。
3、我们经常所听到的大模型有几百亿几千亿的参数,这里的参数其实就是神经网络的输入权重和输出阈值的总和。
4、感知机(单神经元),通过一定的学习算法,可以将这个单神经元具备一定简单的智能效果,比如识别单个数字。那么我们有1000亿个神经元呢,大量神经元组合到一起,就可以解决复杂的问题。类似人脑中也是由海量的神经元组成的。根据科学的统计是人脑中约有 1000 亿个神经元,这些庞大的神经元构成了非常复杂的神经网络,这也是人脑智能的基础
- 参数
w和b共同定义了一个线性决策边界(在输入空间中是一条直线或一个平面)。学习的目标就是找到一组w和b,使得这个边界能尽可能好地分隔不同类别的数据点。
z = w₁*x₁ + w₂*x₂ + ... + wₙ*xₙ + b
二、我们使用GPT或者其它模型时,比如只输入一个“猫”很少的输入,如何对应海量的参数w权重的?
-
参数不是直接“对应”输入的副本:
- 在感知机中,每个输入特征
x_i确实直接对应一个权重w_i。但这是最原始、最局部的对应关系。 - 在大模型中,参数的作用远不止于此。它们定义了如何计算输入的复杂函数,而不仅仅是存储输入的权重。
- 在感知机中,每个输入特征
-
输入首先被“膨胀”成高维表示:
- 嵌入层 (Embedding Layer): 这是处理离散输入(如单词、token)的第一步。即使你只输入一个单词,比如“猫”,嵌入层会将它映射成一个高维稠密向量(例如维度为 4096 的向量)。这个向量是该单词的分布式语义表示。
- 关键点: 这一个单词的输入,通过嵌入层的参数(嵌入矩阵),瞬间就变成了一个包含数千个数值的向量!嵌入层的参数量通常非常大(词汇表大小 × 嵌入维度),这就是少量输入能“撬动”大量参数的起点。
三、几百亿参数,对应海量感知机,就能解决复杂问题?
单神经元 ≈ 一个线性分类器,能力极其有限
3.1、拥有1000亿个神经元,关键在于它们如何结构化组织和协同工作:
-
a. 层级结构 (Hierarchy):逐级抽象,化繁为简
-
浅层神经元: 学习输入数据的低级、局部特征。
- 视觉例子: 第一层神经元可能识别边缘、角落、基本颜色。
- 文本例子: 第一层可能识别字符、词根或简单短语。
-
中层神经元: 组合低级特征,形成更复杂、更全局的特征。
- 视觉例子: 识别眼睛、鼻子、轮子、窗户。
- 文本例子: 识别短语结构、简单语义关系(主谓宾)。
-
深层神经元: 组合中层特征,学习高级抽象概念和语义。
- 视觉例子: 识别“人脸”、“汽车”、“建筑”。
- 文本例子: 理解句子情感、文本主题、逻辑推理、潜在意图。
-
核心思想: 复杂问题被分解成多层、逐步抽象的简单问题。每一层都在前一层的基础上构建更复杂的表示。这种“特征金字塔”是处理高维、非线性数据的核心。
-