# 深度学习的灵魂：从“之”字形陷阱到万能近似定理深度学习的灵魂：从“之”字形陷阱到万能近似定理在神经网络中，激活函数

深度学习的灵魂：从“之”字形陷阱到万能近似定理

在神经网络中，激活函数不仅仅是一个简单的非线性映射，它是赋予模型“灵魂”的关键。

如果没有激活函数，无论你的神经网络叠加了多少层，最终的输出都只是输入的线性组合。数学推导证明，两层线性层的嵌套 $y = w_2(w_1x + b_1) + b_2$ 可以简化为一个等效的单层线性形式 $y = W_{new}x + B_{new}$ 。

引入激活函数的真正意义在于：

为什么早期的模型训练极慢？答案藏在 Sigmoid 函数的输出分布里。

通过链式法则推导权重 $w_i$ 的梯度：

$\frac{\partial L}{\partial w_i} = x_i \cdot \frac{\partial L}{\partial f} \frac{\partial f}{\partial z}$

你会发现，对于同一个神经元的所有权重，括号内的“公共部分”是完全一样的。这意味着：权重 $w_i$ 更新的方向（变大或变小），完全由输入 $x_i$ 的符号决定。

如果激活函数（如 Sigmoid）的输出恒为正数，那么下一层神经元的输入 $x_i$ 也全是正数。

为了优化上述问题，激活函数经历了几次关键的更迭：

Tanh 将输出范围拉到了 $(-1, 1)$ ，解决了均值不为 0 的问题。

ReLU ( $f(x) = \max(0, x)$ ) 的出现彻底改变了深度学习。

ELU 在负区间引入了指数曲线，既实现了零中心化，又保持了对噪声的鲁棒性，同时在 0 点处更加平滑。

在当今的 Transformer 大模型架构中，GELU 和 Swish 已经成为了标配。