【多视图学习】TRUSTED MULTI-VIEW CLASSIFICATION

1,787 阅读11分钟

简介

多视图分类(Multi-view classification, MVC)通常与多模态或多种类型的特性相关联,普遍存在于现实场景中。最先进的多视图学习方法在广泛的现实世界应用中取得了巨大的成功,然而,这种成功通常依赖于复杂的模型,倾向于将多视图信息与深层神经网络相结合。虽然这些模型可以提供准确的分类结果,但是它们很容易产生不可靠的预测,特别是当视图没有得到很好的表示时(例如,来自异常传感器的信息)。因此,他们在安全关键应用中的部署是有限的(例如,电脑辅助诊断或自动驾驶)。这启发我们引入了一种新的多视图分类范式,以生成可信的决策。

对于多视图学习,传统的算法一般对不同的视图采用相同的值,或者为每个视图分配/学习一个固定的权重,基本的假设是,这些视图的质量或重要性对所有样本基本上是稳定的。然而在实践中,视图的质量经常由于样本的不同而变化,这是设计模型需要感知到的。因此我们不仅需要知道分类的结果,还需要知道这个决定有多大把握? 以及为什么对这个决定的置信度如此之高/如此之低?。为此,该模型应该为每个样本的预测提供准确的不确定性,甚至为每个样本提供单独的视图。

基于不确定性的算法大致可分为两大类,即贝叶斯方法和非贝叶斯方法。传统的贝叶斯方法通过推断参数上的后验概率来估计不确定性,然而,与一般的神经网络相比,由于模型参数的倍增和收敛困难,这些方法计算量大。最近的一些算法通过在测试阶段引入dropout来估计不确定性,从而降低计算消耗。非贝叶斯方法包括深层组合(deep ensemble)、证据性深度学习(evidential deep learning)、确定性不确定性估计(deterministic uncertainty estimate)等。然而所有这些方法都侧重于估计单视图数据的不确定性,没有针对多视图的方法。

在本文中,我们提出了一种新的多视图分类算法,旨在优雅地整合多视图信息进行可信决策(如图1(a)所示)。我们的模型在证据层次上结合了不同的视图,而不是像以前那样在特征或输出层次上结合,从而产生了稳定和合理的不确定性估计,从而提高了分类的可靠性和鲁棒性。Dirichlet 分布用于模型分类概率分布,参数化的证据来自不同的意见和集成与 Dempster-Shafer 理论。

image.png

文章主要贡献如下:

  • 提出了一个新的多视图分类模型,旨在提供可信的和交互预测的决策(根据每个视图的不确定性),以有效和高效的方式(即没有任何额外的计算和神经网络的改变),为多视图分类提供了一种新的范式。

  • 该模型将证据层次上的多视点信息与 Dempster-Shafer 理论有机地结合起来,为未来的样本自适应多视角集成提供了一个统一的框架。

  • 对每个视图的不确定性进行了准确的估计,使模型能够提高分类的可靠性和鲁棒性。

  • 进行了大量的实验,验证了我们的模型的准确性,鲁棒性和可靠性。

方法

研究已经证明,使用softmax输出作为置信度预测常常导致高置信度值,即使预测是错误的,因为最大softmax 输出是用于最后的预测。因此,我们引入了一种基于证据的不确定性估计技术,它能够提供更准确的不确定性,并且允许我们灵活地整合多个视图进行可信决策。

不确定性与证据理论

在这个部分,我们详细阐述了证据深度学习如何量化多视图分类中每个视图的不确定性,同时建立各类概率模型和当前预测的总体不确定性模型。在多类分类的概念中,主观逻辑(Subjective logic, SL)和带置信分布的Dirichlet分布的参数有关,此处的Dirichlet分布可以看做分类分布的共轭先验。

因此,需要确定与不确定性度密切相关的浓度参数(concentration parameters)。我们详细论述了主观逻辑,定义了一个基于数据收集的多分类问题的不同类别的概率(信度质量,belief masses)和总体不确定性(不确定性质量,uncertainty mass)的理论框架。

如图1(a)第①步所示,此处的证据(evidence)指的是采集自输入的度量,用于支持分类,它与Dirichlet分布的浓度稀疏密切相关。对于KK分类问题,主观逻辑给每个类标签赋予一个信度质量以及基于证据的整体不确定性。因此,对于第vthv^{th}个视图,其K+1K+1个质量值都是非负的,其和为1:

uv+k=1Kbkv=1u^v+\sum^K_{k=1}b^v_k=1

此处的uv0,bkv0u^v \geq 0,b^v_k \geq 0,表示整体不确定性和第kk个类的概率。

对于第vv个视图,主观逻辑将证据ev=[e1v,...,sKv]e^v=[e^v_1,...,s^v_K]和Dirichlet分布的参数αv=[α1v,...,αKv]\alpha^v=[\alpha^v_1,...,\alpha^v_K]相连(图1中的第②步)。具体的说参数αkv\alpha^v_k是来源于ekve^v_k,即αkv=ekv+1\alpha^v_k=e^v_k+1。置信质量bkvb^v_k和不确定性uvu^v(如图1中第③步)计算为:

bkv=ekvSv=αkv1Sv,uv=KSv(2)b^v_k=\frac{e^v_k}{S^v}=\frac{\alpha^v_k-1}{S^v},u^v=\frac{K}{S^v} \tag{2}

Sv=i=1K(eiv+1)=i=1KαivS^v=\sum^K_{i=1}(e^v_i+1)=\sum^K_{i=1}\alpha^v_i,为Dirichlet 强度。公式(2)实际上表达的是在第kk类中观察到的证据越多,则属于第kk类的概率越大。反正证据越少,总的不确定性越大,这种置信分配可以认为是一种主观意见。给定一个意见,其对应的Dirichlet分布P^v\hat{P}^v可以计算为p^kv=αkvSv\hat{p}^v_k=\frac{\alpha^v_k}{S^v}

与传统深层神经网络分类器的区别:首先,传统的神经网络分类器的输出可以看作简单形上的一个点,而 Dirichlet 分布则参数化了简单形上每个概率分配的密度。因此,带Dirichlet 分布的SL对输出的二阶概率和不确定性进行建模。其次,softmax激活函数分类器广泛应用于传统神经网络分类器的最后一层,然而,使用softmax 输出作为置信度往往导致过度自信,在我们的模型中,引入的 SL 可以通过增加总的不确定性质量来避免这个问题。由于不确定性是在推理阶段获得的,因此很难在统一的框架内对模型进行高精度、鲁棒性和合理的不确定性的无缝训练。因此,现有算法的底层限制(例如,无法直接获得不确定性)也限制了它们扩展到可信多视图分类。

为了清晰描述,我们提供了三分类任务下的一个典型示例来说明上述公式。

假设e=<40,1,1>e=<40,1,1>,则 α=<41,2,2>\alpha=<41,2,2>,其对应的Dirichlet分布如图2(a)所示,在标准2-简单形的尖端有一个尖锐的分布,他表示已观察到足够的证据能够确保准确的分类。

假设e=<0.0001,0.0001,0.0001>e=<0.0001,0.0001,0.0001>,即只有很少关于分类的证据,显然可以得到α=<1.0001,1.0001,1.0001>\alpha=<1.0001,1.0001,1.0001>,不确定质量u1u\approx 1,如图2(b)所示,我们会得到一个平坦均匀的分布结果。

假设e=<5,5,5>e=<5,5,5>,这也是一个高不确定性样例,如图2(c)所示,但这种情况中整体的不确定性减少了。

如图2(d)所示,基于主观逻辑理论,我们可以将Dirichlet分布转换成一个标准3-简单形(在R4R^4中的一个正四面体,其顶点为 (1,0,0,0), (0,1,0,0), (0,0,1,0) 和 (0,0,0,1)),其中简单形中的点MM对应于{{bk}k=13,u}\{\{b_k\}^3_{k=1},u\},而MM在Dirichlet分布中期望值则是其在底部的投影。

image.png

多视角分类的 DEMPSTER 组合规则

在为单视图案例引入了证据和不确定性之后,我们现在将重点放在它们对具有多个视图的数据的适应上。 Dempster-Shafer 证据理论允许将来自不同来源的证据结合起来(如定义3.1所示),形成一定程度的置信度(belief)(由一个称为置信函数的数学对象表示) ,该置信度考虑了所有可用的证据。具体的说,我们需要结合VV(表示视图数)独立集合概率质量分布分配{Mv}1V\{M^v\}^V_1Mv={{bkv}k=1K,u}M^v=\{\{b^v_k\}^K_{k=1},u\},来得到一个联合质量M={{bk}k=1K,u}M=\{\{b_k\}^K_{k=1},u\},即图1中的第④步。

定义3.1 两个独立质量集合的 Dempster 组合规则:组合体(称为联合质量)M={{bk}k=1K,u}M=\{\{b_k\}^K_{k=1},u\}的计算来自于两个质量集合M1={{bk1}k=1K,u1},M2={{bk2}k=1K,u2}M^1=\{\{b^1_k\}^K_{k=1},u^1\},M^2=\{\{b^2_k\}^K_{k=1},u^2\},如下所示:

M=M1M2M=M^1 \oplus M^2

具体计算方法如下:

bk=11C(bk1bk2+bk1u2+bk2u1),u=11Cu1u2b_k=\frac{1}{1-C}(b^1_kb^2_k+b^1_ku^2+b^2_ku^1),u=\frac{1}{1-C}u^1u^2

C=ijbi1bj2C=\sum_{i\neq j}b^1_ib^2_j,为衡量两个质量组之间冲突的度量(即图1(b)中白色的块)。比例因子11C\frac{1}{1-C}用于标准化。

共同意见MM来自于来个意见M1,M2M^1,M^2的融合,类kk的联合置信质量(bkb_k)和总体不确定性 uu对应于图1(b)中棕色的块。直观地说,组合规则确保了:

  • 如果两种观点都具有很高的不确定性(即u1,u2u^1,u^2都很大),那么最终的预测到的置信度必须很小(即bkb_k很小)。

  • 如果两种观点都具有很低的不确定性(即u1,u2u^1,u^2都很小),那么最终的预测到的置信度必然很大(即bkb_k很大)。

  • 但其中一个视图不确定性很低时(例如u1u^1u2u^2中只有一个很大),则最终的预测将依赖于可信的视图。

扩展双视图到多视图的情况,当给定数据有VV个不同视角时,则上式可改进为:

M=M1M2...MVM=M^1 \oplus M^2 \oplus ... M^V

在得到联合质量MM后,根据公式(2),来自多视图对应的联合证据及Dirichlet分布的参数可以写作:

S=Ku,ek=bk×S,αk=ek+1S=\frac{K}{u},e_k=b_k\times S,\alpha_k=e_k+1

主观逻辑与softmax相比的优势:与softmax输出相比,主观不确定性更适合于多决策融合, 主观逻辑提供了一个额外的质量函数(u) ,允许模型区分证据的缺乏。在我们的模型中,主观逻辑提供了每个视图的整体不确定性程度,这在一定程度上对于可信分类和可预知性很重要。

从观点中学习

在这一节中,我们将讨论如何训练神经网络来获得每个视图的证据,然后用这些证据来获得相应的质量,即{Mv}v=1V\{M^v\}^V_{v=1}MM,神经网络可以从输入中获取证据,从而产生一个分类意见,传统的基于神经网络的分类器可以自然地转化为基于证据的分类器,只需要做一些小的改动。具体来说,传统的基于神经网络分类器的softmax层被一个激活函数层(即 RELU)所替换,以确保网络输出非负值,这些值被认为是证据向量 ee,从而可以获得Dirichlet分布的参数。

传统的基于神经网络的分类器通常采用交叉熵损失,如下所示:

Lce=j=1Kyijlog(pij)L_{ce}=-\sum^K_{j=1}y_{ij}\log(p_{ij})

pijp_{ij}表示第ii个样本属于jj类的概率。

对于我们的模型,给定第ii个样本从证据网络中得到的证据,我们可以得到参数αi\alpha_iαiv=eiv+1\alpha^v_i=e^v_i+1),从而组合得到多项观点D(piαi)D(p_i|\alpha_i)pip_i是简单形中的类分配概率。通过简单的修改交叉熵损失函数,可以得到自适应交叉熵:

Lace(αi)=[j=1Kyijlog(pij)]1B(αi)j=1Kpijαij1dpi=j=1Kyij(ψ(Si)ψ(αij))L_{ace}(\alpha_i)=\int[\sum^K_{j=1}-y_{ij}\log(p_{ij})]\frac{1}{B(\alpha_i)}\prod^K_{j=1}p^{\alpha_{ij}-1}_{ij}dp_i=\sum^K_{j=1}y_{ij}(\psi(S_i)-\psi(\alpha_{ij}))

ψ()\psi()表示digamma函数。上式为通过αi\alpha_i定义的简单形上交叉熵损失函数的积分,上述损失函数确保每个样品的正确标签比其他类别产生更多的证据,但不能保证对不正确的标签产生的证据更少。因此,在模型中我们希望不正常标签的证据缩小到0,为此引入了KL散度项:

image.png

α~i=yi+(1yi)αi\tilde{\alpha}_i=y_i+(1-y_i)\odot \alpha_i为Dirichlet分布的自适应参数,可以避免那些grouth类的证据为0,Γ()\Gamma()表示gamma函数。

综上,对于Dirichlet分布的给定参数α\alpha和每个样本ii,其样本-特定损失为:

L(αi)=Lace(αi)+λtKL[D(piα~i)D(pi1)]L(\alpha_i)=L_{ace}(\alpha_i)+\lambda_t KL[D(p_i|\tilde{\alpha}_i)||D(p_i|1)]

λt>0\lambda_t > 0表示平衡项。在实际应用中,我们可以逐渐增加λt\lambda_t的值,以防止网络在训练初期过分注意 KL 散度,从而导致参数空间的探索不够充分,导致网络输出的结果呈现平面均匀分布。

为了保证所有的视角都能同步组成合理的意见,从而提高总体意见,我们使用了一个多任务策略和下面的总体损失函数:

Loverall=i=1N[L(αi)+v=1VL(αiv)]L_{overall}=\sum^N_{i=1}[L(\alpha_i)+\sum^V_{v=1}L(\alpha^v_i)]

该模型的优化过程在算法1中进行了总结。

附录

附录1 Dirichlet分布的概念

image.png

附录2 算法伪码

image.png

源码

源码链接