大模型的参数对应感知机里面哪部分

114 阅读3分钟

一、感知机

1、x1到xn是输入信号,w1到wn是权重,b是偏置

2、大模型讲的参数是指,权重和偏置,x1-xn和b,总共n+1个参数。

大模型的参数本质上是所有神经元中所有权重和偏置的集合

3、我们经常所听到的大模型有几百亿几千亿的参数,这里的参数其实就是神经网络的输入权重和输出阈值的总和。

4、感知机(单神经元),通过一定的学习算法,可以将这个单神经元具备一定简单的智能效果,比如识别单个数字。那么我们有1000亿个神经元呢,大量神经元组合到一起,就可以解决复杂的问题。类似人脑中也是由海量的神经元组成的。根据科学的统计是人脑中约有 1000 亿个神经元,这些庞大的神经元构成了非常复杂的神经网络,这也是人脑智能的基础

  • 参数 w 和 b 共同定义了一个线性决策边界(在输入空间中是一条直线或一个平面)。学习的目标就是找到一组 w 和 b,使得这个边界能尽可能好地分隔不同类别的数据点。
z = w₁*x₁ + w₂*x₂ + ... + wₙ*xₙ + b

二、我们使用GPT或者其它模型时,比如只输入一个“猫”很少的输入,如何对应海量的参数w权重的?

  1. 参数不是直接“对应”输入的副本:

    • 在感知机中,每个输入特征 x_i 确实直接对应一个权重 w_i。但这是最原始、最局部的对应关系。
    • 在大模型中,参数的作用远不止于此。它们定义了如何计算输入的复杂函数,而不仅仅是存储输入的权重。
  2. 输入首先被“膨胀”成高维表示:

    • 嵌入层 (Embedding Layer):  这是处理离散输入(如单词、token)的第一步。即使你只输入一个单词,比如“猫”,嵌入层会将它映射成一个高维稠密向量(例如维度为 4096 的向量)。这个向量是该单词的分布式语义表示。
    • 关键点:  这一个单词的输入,通过嵌入层的参数(嵌入矩阵),瞬间就变成了一个包含数千个数值的向量!嵌入层的参数量通常非常大(词汇表大小 × 嵌入维度),这就是少量输入能“撬动”大量参数的起点。

三、几百亿参数,对应海量感知机,就能解决复杂问题?

单神经元 ≈ 一个线性分类器,能力极其有限

3.1、拥有1000亿个神经元,关键在于它们如何结构化组织协同工作

  • a. 层级结构 (Hierarchy):逐级抽象,化繁为简

    • 浅层神经元:  学习输入数据的低级、局部特征

      • 视觉例子:  第一层神经元可能识别边缘、角落、基本颜色。
      • 文本例子:  第一层可能识别字符、词根或简单短语。
    • 中层神经元:  组合低级特征,形成更复杂、更全局的特征

      • 视觉例子:  识别眼睛、鼻子、轮子、窗户。
      • 文本例子:  识别短语结构、简单语义关系(主谓宾)。
    • 深层神经元:  组合中层特征,学习高级抽象概念和语义

      • 视觉例子:  识别“人脸”、“汽车”、“建筑”。
      • 文本例子:  理解句子情感、文本主题、逻辑推理、潜在意图。
    • 核心思想:  复杂问题被分解成多层、逐步抽象的简单问题。每一层都在前一层的基础上构建更复杂的表示。这种“特征金字塔”是处理高维、非线性数据的核心。