“生物科学中可解释性的方式和原因——Lior Pachter”摘要
链接:www.youtube.com/watch?v =zg…
这是上述链接视频中演讲者的研究论文解释。演讲者开始他的演讲,证明平面中的圆如下:
其中 L=周长 & Pi=周长/直径
但是,如果我们扩大视野,了解二维平面中的所有形状,
等周不等式
如果我们保持周长不变,圆形将是所有封闭形状中面积最大的。
编写等周不等式的另一个版本是等径不等式,它是:
等径不等式 | 其中 D=直径
自编码器是编码器和解码器的组合。编码器将数据点减少到更小的维度,解码器将数据点(几乎与以前相同)恢复到与以前相同的大小。但是这些自动编码器是不可解释的,因为通常神经网络是不可解释的,因为它包含非线性函数。如果你把所有的非线性函数都换成线性函数,那么它是可以解释的;这不过是 PCA。因此,我不会使用这个 PCA,而是让编码器保持非线性,并使用线性函数更改解码器。通过这样做,准确性会受到一些阻碍,但可解释性会大大提高。PCA还有一个缺点就是我们无法解释数据点在空间中的方向,但是我们可以用这种Encoder+线性函数的方式来解释。
从等径不等式可以证明,当您将数据点从较高维度带到较低维度时,根据下面提到的推论,您会在数据点之间的距离方面产生某种失真:
“假设你在二维空间中有 n 个点(其中 n≥3),如果 d 是所有点对之间的最小距离,如果 D 是所有点对之间的最大距离(即圆形区域的直径)在空间中的点之间形成;那么 D 和 d 的比率由下式给出:”
UMAP 的结果表明,在 2D 空间中彼此靠近/远离的点在其实际维度(在更高维度上)可能并不接近/远离,这意味着有很多信息正在被拆除。因此,很难通过可视化来解释数据,但可视化并不是解释性的唯一途径。仅通过以不同方式对数据点进行归一化,我们就可以对 2D 空间中的数据点进行不同的解释。因此很难从转换为 2D 空间的 20,000 维度中的点获得可解释性。
特别是在生物学中,数据点是高维的;可以从单个特征中获取某种信息,但是在数据点中对特定组进行聚类或分割确实很困难,因为高维以及当我们将高维点减少到低维时的可解释性问题。
由于我们在高维数据点的可解释性方面存在问题,因此我们尝试使用讲座中提到的领域特定模型,如随机微分方程模型。在本文中,演讲者研究了这些模型,以了解这些模型将采用何种数据来区分数据集中的每个特征。
因此,当我们拥有高维数据时,这就是我们构建神经网络的方式,不仅用于预测,还用于可解释性。