SS-ELM-AE与S2-BLS相关论文阅读记录论文《Broad learning system for semi-su

本文正在参加人工智能创作者扶持计划

Broad learning system for semi-supervised learning

摘要：本文认为，原始BLS采用的稀疏自编码器来生成特征节点是一种无监督学习方法，这意味着忽略了标注数据的一些信息，并且难以保证同类样本之间的相似性和相邻性，同时SS-BLS和BLS都是构造线性模型，当不同类的样本分布存在重叠时，难以取得良好的分类效果。因此本文提出了一种新的半监督BLS——S2-BLS。

SS-ELM-AE

本文认为，SS-BLS或者是SS-ELM在引入非监督信息，即流形化的时候，考虑到选取k近邻点的情况，但是这种方法可能存在的缺点就是如果大多数标注样本它们所选择的k个近邻点都是标注样本，然后大多数无标注样本所选择的k个近邻点都是无标注样本，那么就没有充分利用到标注样本和未标注样本之间的关系。因此将SS-ELM-AE的目标函数定义为：

L_{SS-ELM-AE}=\frac{1}{2}\Vert HW-X\Vert^2_F+\frac{C}{2}\Vert W\Vert^2_F+\frac{\lambda}{2}(G_{LL}+G_{LU})

其中X代表所有样本。而 $G_{LL}、G_{LU}$ 分别代表标注样本内部之间的信息以及标注样本和无标注样本之间的信息。

对于标注样本，其相似度矩阵定义为：

S^L_{ij}=\begin{cases}1\quad y_i,y_j \in t\\0\quad otherwise\end{cases}

就是属于同类的相似度为1，否则为0。因此 $G_{LL}$ 表示为：

G_{LL}=\frac{1}{2}\sum_{i=1}^l\sum_{j=1}^lS^L_{ij}\Vert g(x_i)-g(x_j)\Vert ^2_F

其中 $g(x)$ 代表模型对样本的输出。

而对于未标注样本，其相似性矩阵定义为：

S^{LU}_{ij}=\begin{cases}1\quad x_i\in knn(x_j),j^* ~~or ~~x_j\in knn(x_i),i^*\\0\quad otherwise\end{cases}

其中 $j^*$ 表示如果 $x_j$ 是标注样本，那么其k个近邻点要从未标注样本之中选择。因此

G_{LU}=\frac{1}{2}\sum_{i=1}^{l+u}\sum_{j=1}^{l+u}S^{LU}_{ij}\Vert g(x_i)-g(x_j)\Vert ^2_F

那么可以将该矩阵写为：

S_{LU}=\left(\begin{matrix}0_{LL}\quad S_{LU}\\S_{UL }\quad S_{UU}\end{matrix}\right)

斜对角线两个矩阵应该是转置关系。 $S_{UU}$ 就是简单的knn来计算。因此有：

在这里插入图片描述

其中 $G=[g(x_1);...;g(x_{l+u})]$ 。L定义为：

L=D-S\\D=diag(d_1,...,d_{l+u}),d_i=\sum_{i=1}^{l+u}S_{ij}\\S=\left(\begin{matrix}S^L\quad S_{LU}\\S_{UL}\quad S_{UU}\end{matrix}\right)

因此可以推导出：

L_{SS-ELM-AE}=\frac{1}{2}\Vert HW-X\Vert^2_F+\frac{C}{2}\Vert W\Vert^2_F+\frac{\lambda}{2}Tr(W^TH^TLHW)

当输出节点输出多于隐藏层节点数目，可解出：

在这里插入图片描述

否则：

在这里插入图片描述

注意这里的损失函数是重构误差，因此可以看成是一个结合ELM思想的AE，是用来求解输入到隐藏层的权重的，而不是像ELM最终求解隐藏层到输出的权重的。

因此求解输入到特征节点映射的权重过程为：在这里插入图片描述

S2-BLS

该算法就是对原有SS-BLS算法的改良，其利用了同样样本间的相似性和近邻点间的相似性信息来获取映射后的特征，同时考虑了类内紧性和类间可分性，获得更好的判别模型。具体来说：

其特征节点的定义比较特殊，用到了非线性激活函数，即：

Z_i=\phi_{i}(XW^T_{ei}),i=1,2,...,n

其中权重 $W_{ei}$ 正是通过SS-ELM-AE来获得的，而 $\phi$ 是非线性函数。然后狗仔增强节点的过程与普通BLS相同，因此得到 $P=[Z^n\mid H^m]$

那么在计算输出权重时，其考虑了类内紧性和类间可分性，即：

在这里插入图片描述

因此构造的损失项为：

在这里插入图片描述

其中 $F=[F_1;...;F_{l+u}]$ 为对每个样本模型的预测向量， $L_{intra}=D^{intra}-S_{intra}=diag(d^{intra}_1,...,d^{intra}_{l+u})$ ， $d^{intra}_i=\sum_{i=1}^{l+u}S^{ij}_{intra}$ 。