【漫话机器学习系列】224.双曲正切激活函数（Hyperbolic Tangent Activation Function）

双曲正切激活函数（tanh）详解：更优于 Sigmoid 的选择？

在构建神经网络时，激活函数是非常关键的一环。本文将带大家深入了解一种常见但常被忽视的激活函数：双曲正切函数（Hyperbolic Tangent Function，简称 tanh） 。通过图解和数学表达，我们来剖析它的性质及在实际中的应用。

双曲正切函数（tanh） 是一种 S 形的激活函数，其数学表达形式为：

$\phi(z) = \tanh(z) = \frac{\sinh(z)}{\cosh(z)} = \frac{e^z - e^{-z}}{e^z + e^{-z}}$

它是通过双曲正弦（sinh）与双曲余弦（cosh）的比值得到的函数，图像如下所示：

虽然 tanh 和 sigmoid 都是 S 型函数，但它们的输出范围不同：

函数	输出范围	是否中心化	常见问题
sigmoid	(0, 1)	否	梯度消失问题严重
tanh	(-1, 1)	是	梯度问题缓解

从图中我们可以看出，tanh 函数的输出是以 0 为中心的对称区间 [-1, 1] ，相比 sigmoid 更接近“0 中心化”。这意味着，在使用 tanh 激活函数时，神经元的输出会更容易让下一层网络保持平衡的输入分布，从而加快收敛速度。

而 sigmoid 的输出全为正（0 到 1），可能导致后续层输出出现偏移，从而增加训练难度。

从图像中可以观察到：

tanh 函数的导数形式非常简单：

$\frac{d}{dz}\tanh(z) = 1 - \tanh^2(z)$

这是它相较于 sigmoid 的另一大优势，便于梯度的传播计算。

虽然 ReLU 类函数现在是主流，但 tanh 依然有其重要应用：

tanh 是一个简单却非常强大的激活函数，虽然近年来被 ReLU 抢去了风头，但它仍在很多模型中扮演着关键角色。选择激活函数时，没有“放之四海皆准”的标准，重要的是根据你的问题和数据类型合理选择。

如果你喜欢这类简洁图解式的原理讲解，欢迎点赞、评论、转发！你可以在评论区告诉我你还想了解哪些激活函数，比如 ReLU、Swish、GELU，我们下期再见！