【学习笔记】相似性度量使用的一些距离(二)

1,458 阅读2分钟

信息熵 Information Entropy

欧式距离和马氏距离等描述的是单个样本间的距离,而信息熵描述的是整个样本集内部样本的距离,用于度量样本集中样本的集中\分散程度,样本越分散(分布越平均)信息熵越大。

对于一个包含n类样本的样本集X,其信息熵为:

E(X)=i=1npilog2piE(X)=\sum^n_{i=1}-p_ilog_2p_i

其中pip_i为第i类样本出现的频率。

最大均值差异 Maximum Mean Discrepancy(MMD)

MMD是迁移学习(特别是域适应)中运用最广泛的距离度量方法,用于度量映射后源域和目标域之间的差异,即度量两个分布之间的距离。

对于两个领域X和Y,X的分布为p,Y的分布为q,则两个领域间的MMD为:

MMD[F,p,q]=sup  Ep[f(x)]Eq[f(y)]fH1MMD[F,p,q]=sup\ \ E_p[f(x)]-E_q[f(y)] \\ ||f||_H \leq 1

sup为求上界(即最大值),Ep,EqE_p,E_q为两个领域的期望,f()f(\cdot)为映射函数。fH1||f||_H \leq 1表示ff在再生希尔伯特空间中的范数应小于等于1。

均值差异 Mean Discrepancy, MD

要解释最大均值差异的原理首先要理解均值差异的定义,对于分布p和q,定义他们生成的样本空间为P和Q(P中存在样本p1,...,pnp_1,...,p_n,Q中存在样本q1,...,qmq_1,...,q_m,这些样本构成的空间)。

若存在:

f(p1)+...+f(pn)n==f(q1)+...+f(qm)m即 mean(f(P))==mean(f(Q))\frac{f(p_1)+...+f(p_n)}{n} == \frac{f(q_1)+...+f(q_m)}{m} \\ 即\ mean(f(P)) == mean(f(Q))

则认为p和q为同一分布。

可知均值差异的定义为:

MD=mean(f(P))mean(f(Q))MD = |mean(f(P))-mean(f(Q))|

从均值差异推导最大均值差异

最大均值差异(MMD)即求MD的上确界(上限),在函数集合F中找到一个函数f使得MD有最大值,这个值就是MMD,MMD为0则表示两个分布相同,数学表达如下所示:

MMD[F,p,q]=supfF  (Exp[f(x)]Eyq[f(y)])MMD[F,p,q]=\sup_{f \in F}\ \ (E_{x\sim p}[f(x)]-E_{y\sim q}[f(y)])

若样本数量有限,则上式可以转换为求平均值的形式如下:

MMD[F,p,q]=supfF  (1mi=1mf(xi)1ni=1nf(yi))MMD[F,p,q]=\sup_{f \in F}\ \ (\frac{1}{m}\sum^m_{i=1}f(x_i)-\frac{1}{n}\sum^n_{i=1}f(y_i))

或可以用μ\mu表示函数的均值:

supfF<μpμq,f>\sup_{f\in F}<\mu_p-\mu_q,f>

在样本集增大的时候,求MMD希望可以迅速收敛,这要求函数集合F需要满足某种约束并且足够丰富,当F是再生希尔伯特空间(RKHS)上的单位球时可以满足以上的条件,上式转化为(HH表示再生希尔伯特空间,ff的范数(即长度)应小于等于1):

MMD[F,p,q]=supfH1<μpμq,f>H=μpμqHMMD[F,p,q]=\sup_{||f||_H\leq 1}<\mu_p-\mu_q,f>_H \\ =||\mu_p-\mu_q||_H

问题转化为求两点在RKHS中的距离,将上式平方(平方后得到函数的乘积即内积,函数内积可以转化为用核函数表示):

MMD2[F,p,q]=μpμqH2 =μpH2+μqH22μpμqH =Ep<ϕ(x),ϕ(x)>H+Eq<ϕ(y),ϕ(y)>H2Ep,q<ϕ(x),ϕ(y)>HMMD^2[F,p,q]=||\mu_p-\mu_q||^2_H \\ \ \\ =||\mu_p||^2_H+||\mu_q||^2_H-2||\mu_p\mu_q||_H \\ \ \\ =E_p<\phi(x),\phi(x')>_H+E_q<\phi(y),\phi(y')>_H-2E_{p,q}<\phi(x),\phi(y)>_H

式中的点积可以用核函数K(x,x)K(x,x')来计算,RKHS通常是高维或无限维空间,因此核函数选取的高斯核(可以表示无穷维):

K(x,x)=exp(xx2/(2σ2))K(x,x')=exp(-||x-x'||^2/(2\sigma^2))