大模型的参数对应感知机里面哪部分

2025-07-16 114 阅读3分钟

一、感知机

1、x1到xn是输入信号，w1到wn是权重，b是偏置

2、大模型讲的参数是指，权重和偏置，x1-xn和b,总共n+1个参数。

大模型的参数本质上是所有神经元中所有权重和偏置的集合。

3、我们经常所听到的大模型有几百亿几千亿的参数，这里的参数其实就是神经网络的输入权重和输出阈值的总和。

4、感知机（单神经元），通过一定的学习算法，可以将这个单神经元具备一定简单的智能效果，比如识别单个数字。那么我们有1000亿个神经元呢，大量神经元组合到一起，就可以解决复杂的问题。类似人脑中也是由海量的神经元组成的。根据科学的统计是人脑中约有 1000 亿个神经元，这些庞大的神经元构成了非常复杂的神经网络，这也是人脑智能的基础

参数 w 和 b 共同定义了一个线性决策边界（在输入空间中是一条直线或一个平面）。学习的目标就是找到一组 w 和 b，使得这个边界能尽可能好地分隔不同类别的数据点。

z = w₁*x₁ + w₂*x₂ + ... + wₙ*xₙ + b

二、我们使用GPT或者其它模型时，比如只输入一个“猫”很少的输入，如何对应海量的参数w权重的？

参数不是直接“对应”输入的副本：
- 在感知机中，每个输入特征 x_i 确实直接对应一个权重 w_i。但这是最原始、最局部的对应关系。
- 在大模型中，参数的作用远不止于此。它们定义了如何计算输入的复杂函数，而不仅仅是存储输入的权重。
输入首先被“膨胀”成高维表示：
- 嵌入层 (Embedding Layer)： 这是处理离散输入（如单词、token）的第一步。即使你只输入一个单词，比如“猫”，嵌入层会将它映射成一个高维稠密向量（例如维度为 4096 的向量）。这个向量是该单词的分布式语义表示。
- 关键点： 这一个单词的输入，通过嵌入层的参数（嵌入矩阵），瞬间就变成了一个包含数千个数值的向量！嵌入层的参数量通常非常大（词汇表大小 × 嵌入维度），这就是少量输入能“撬动”大量参数的起点。

三、几百亿参数，对应海量感知机，就能解决复杂问题？

单神经元 ≈ 一个线性分类器，能力极其有限

3.1、拥有1000亿个神经元，关键在于它们如何结构化组织和协同工作：

a. 层级结构 (Hierarchy)：逐级抽象，化繁为简
- 浅层神经元： 学习输入数据的低级、局部特征。
  - 视觉例子： 第一层神经元可能识别边缘、角落、基本颜色。
  - 文本例子： 第一层可能识别字符、词根或简单短语。
- 中层神经元： 组合低级特征，形成更复杂、更全局的特征。
  - 视觉例子： 识别眼睛、鼻子、轮子、窗户。
  - 文本例子： 识别短语结构、简单语义关系（主谓宾）。
- 深层神经元： 组合中层特征，学习高级抽象概念和语义。
  - 视觉例子： 识别“人脸”、“汽车”、“建筑”。
  - 文本例子： 理解句子情感、文本主题、逻辑推理、潜在意图。
- 核心思想： 复杂问题被分解成多层、逐步抽象的简单问题。每一层都在前一层的基础上构建更复杂的表示。这种“特征金字塔”是处理高维、非线性数据的核心。