信息熵 Information Entropy
欧式距离和马氏距离等描述的是单个样本间的距离,而信息熵描述的是整个样本集内部样本的距离,用于度量样本集中样本的集中\分散程度,样本越分散(分布越平均)信息熵越大。
对于一个包含n类样本的样本集X,其信息熵为:
E(X)=i=1∑n−pilog2pi
其中pi为第i类样本出现的频率。
最大均值差异 Maximum Mean Discrepancy(MMD)
MMD是迁移学习(特别是域适应)中运用最广泛的距离度量方法,用于度量映射后源域和目标域之间的差异,即度量两个分布之间的距离。
对于两个领域X和Y,X的分布为p,Y的分布为q,则两个领域间的MMD为:
MMD[F,p,q]=sup Ep[f(x)]−Eq[f(y)]∣∣f∣∣H≤1
sup为求上界(即最大值),Ep,Eq为两个领域的期望,f(⋅)为映射函数。∣∣f∣∣H≤1表示f在再生希尔伯特空间中的范数应小于等于1。
均值差异 Mean Discrepancy, MD
要解释最大均值差异的原理首先要理解均值差异的定义,对于分布p和q,定义他们生成的样本空间为P和Q(P中存在样本p1,...,pn,Q中存在样本q1,...,qm,这些样本构成的空间)。
若存在:
nf(p1)+...+f(pn)==mf(q1)+...+f(qm)即 mean(f(P))==mean(f(Q))
则认为p和q为同一分布。
可知均值差异的定义为:
MD=∣mean(f(P))−mean(f(Q))∣
从均值差异推导最大均值差异
最大均值差异(MMD)即求MD的上确界(上限),在函数集合F中找到一个函数f使得MD有最大值,这个值就是MMD,MMD为0则表示两个分布相同,数学表达如下所示:
MMD[F,p,q]=f∈Fsup (Ex∼p[f(x)]−Ey∼q[f(y)])
若样本数量有限,则上式可以转换为求平均值的形式如下:
MMD[F,p,q]=f∈Fsup (m1i=1∑mf(xi)−n1i=1∑nf(yi))
或可以用μ表示函数的均值:
f∈Fsup<μp−μq,f>
在样本集增大的时候,求MMD希望可以迅速收敛,这要求函数集合F需要满足某种约束并且足够丰富,当F是再生希尔伯特空间(RKHS)上的单位球时可以满足以上的条件,上式转化为(H表示再生希尔伯特空间,f的范数(即长度)应小于等于1):
MMD[F,p,q]=∣∣f∣∣H≤1sup<μp−μq,f>H=∣∣μp−μq∣∣H
问题转化为求两点在RKHS中的距离,将上式平方(平方后得到函数的乘积即内积,函数内积可以转化为用核函数表示):
MMD2[F,p,q]=∣∣μp−μq∣∣H2 =∣∣μp∣∣H2+∣∣μq∣∣H2−2∣∣μpμq∣∣H =Ep<ϕ(x),ϕ(x′)>H+Eq<ϕ(y),ϕ(y′)>H−2Ep,q<ϕ(x),ϕ(y)>H
式中的点积可以用核函数K(x,x′)来计算,RKHS通常是高维或无限维空间,因此核函数选取的高斯核(可以表示无穷维):
K(x,x′)=exp(−∣∣x−x′∣∣2/(2σ2))