LLMs 激活函数

40 阅读1分钟

介绍一下 FFN 块 计算公式?

  1. 介绍一下 GeLU 计算公式?

  1. 介绍一下 Swish 计算公式?

2个可训练权重矩阵,中间维度为 4h

  1. 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?

  1. 介绍一下 使用 GeLU 的 GLU 块 计算公式?

  1. 介绍一下 使用 Swish 的 GLU 块 计算公式?

3个可训练权重矩阵,中间维度为 4h*2/3

各LLMs 都使用哪种激活函数?

4h = 4*4096 = 16384

2/3 * 4h = 10022 -> 11008

11008/128 = 86