神经网络学习笔记7——普遍性证明

2021-11-22 209 阅读4分钟

这是我参与11月更文挑战的第12天

神经网络的普遍性

神经⽹络的⼀个最显著的事实就是它可以计算任何的函数，称为普遍性，该定理在神经⽹络只在输⼊层和输出层之间存在⼀个中间层的情况下也成立。

更准确的表述

对于“神经⽹络可以计算任何函数”这句话需要更精确地解释两点：

1、这种计算不是准确地计算任何函数，而是获得尽可能好的近似，通过增加隐含层们可以提升近似的精度。用形式化语言表述：对于目标精度 $\epsilon >0$ 的函数 $f(x)$ ，通过使用足够多的隐含神经元使得神经网络输出 $g(x)$ 对所有 $x$ 满足 $|g(x)-f(x)|<\epsilon$ 实现近似运算。

2、按照上⾯的⽅式近似的函数其实是连续函数，如果函数不是连续的，即函数图像会有突然、极陡的跳跃，那么⼀般来说⽆法使⽤⼀个神经⽹络进⾏近似（但是使用连续的近似也可能展现较好的性能）。

最简单的情况证明

函数只有⼀个输⼊和⼀个输出时，神经网络的普遍性证明。

对于类似下图的函数：

构造只包含一个隐含层的神经网络如下所示：

其中神经网络隐含神经元使用的是S型函数 $\sigma=\frac{1}{1+e^{-z}},z=wx+b$ ，改变 $w$ 和 $b$ 的值观察输出的变化，如下图所示：

观察可以发现，当 $w$ 很大时函数变为了阶跃函数，讨论阶跃函数显然比讨论S型函数更简单，阶跃的位置和 $b$ 成反比和 $w$ 成正比，用 $s$ 表示阶跃发生的点， $s=-b/w$ ：

隐式地将 $w$ 取为一个很大的值，选择 $b=-ws$ ，这样只需要调整 $s$ 一个参数：

取顶部隐含神经元 $s_1=0.4$ ，底部隐含神经元 $s=0.6$ ，隐含层加权输出为 $w_1a_1+w_2a_2$ ， $a$ 是隐含层的输出值称为激活值（activations）。通过给定权重值可以得到下面的加权输出图像：

调整权重值我们可以得到完全不同的另一个加权输出图像：

对于这个函数图像我们想调整其凸起的高低，用 $h$ 表示高度，调整 $h$ 值观察变化：

在进一步把区间[0,1]分割成大量子区间，用 $N$ 表示子区间的数目，当 $N=5$ 时，查看图像的变化：

综上可知函数图像的阶跃点在于 $s$ 点的取值，阶跃高度在于 $h$ 的取值。

回到最上面的函数图像：

它的公式是 $f(x)=0.2+0.4x^2+0.3x \sin(15x)+0.05\cos(50x)$ ， $x,y\in [0,1]$ 。

之前已经分析了隐含神经元的加权输出组合 $\sum_j w_ja_j$ 的变化情况，而神经网络的输出是 $\sigma(\sum_j w_ja_j+b)$ 。

现在需要设计一个神经网络，它隐含层的加权输出为 $\sigma^{-1} \circ f(x)$ ，符号 $\circ$ 的意义，对于 $(f \circ g)(x)$ 有：

(f \circ g)(x)=f(g(x))

即： $\sigma^{-1} \circ f(x)=\sigma^{-1}(f(x))$ ：

$\sigma^{-1}$ 是 $\sigma$ 的反函数，根据反函数的定理有：

\sigma(\sigma^{-1}\circ f(x))=\sigma(\sigma^{-1}(f(x)))=f(x)

也就是说通过将加权输出设为 $\sigma^{-1} \circ f(x)$ 可以完美控制网络的最终输出 $\sigma(\sum _jw_ja_j+b)$ 为 $f(x)$ （注意到此处为简化问题将 $b$ 设置为了0），即实现了对 $f(x)$ 的近似。

接下来就是简单的调整问题，通过调整 $s$ 和 $h$ 的值得到如下所示网络加权输出：

综上证明了只有一个输入输出时，神经网络可以计算任何函数。

多个输入变量时

扩展上述问题，将一个输入变为多个输入：

相应的函数图像也由二维变为三维：

可以发现当第二个输入 $y$ 的权重 $w_2=0$ 时，它对网络的输出结果没有任何影响。保持这个状态，只改变输入 $x$ 的权重 $w_1$ 和 $b$ 看能发生什么变化：

和上面相似的，当 $w_1$ 变得极大时图像逐渐转变为阶跃函数，阶跃点在 $s_x=-b/w_1$ 。

同样将 $s$ 作为参数，调整 $s$ 的值，单独给 $w_1$ 或 $w_2$ 赋值，观察图像变化：

变化规律和上面只有一个输入的情况一样。

把问题变得更复杂，给 $w_1,w_2$ 同时赋值，观察图像变化：

基于上面的启发，可以想到如果能构建如下图所示的塔型函数，那就能实现用它来近似任何多输入的函数（通过在不同位置累加不同高度的塔）：

实际上这个问题的本质就是：如何控制其他地方高度和中心塔高度的落差？

回忆 $\sigma$ 的输入 $wx+b$ ，也就是说只要合理设置 $b$ 的值就够了，例如设置 $b=3h/2$ ：

结论

上述内容直观清晰证明了神经网络如何计算任何函数（普遍性），但它并不是严谨的数学证明。