数学学习笔记--概率论

2,504 阅读17分钟

2. 概率论

2.1 概率分布与随机变量

2.1.1 机器学习为什么要使用概率

事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律

机器学习通常必须处理不确定量,有时候也需要处理随机量。几乎所有的活动都需要一些在不确定性存在的情况下进行推理的能力。

不确定性和随机性可能来自多个方面,不确定性有 3 种可能的来源:

  1. 被建模系统内在的随机性。比如纸牌游戏,假设纸牌被真正混洗成了随机顺序。
  2. 不完全观测。对于确定的系统,但是如果不能观测到所有驱动系统行为的变量时,该系统也会呈现随机性。比如让选手选择三扇门中的一个,并获得门后的奖品,每个门后的奖品是确定的,但是选手无法观测到,所以对于选手来说,结果是不确定的。
  3. 不完全建模。当采用一些必须舍弃某些信息的模型时,舍弃的信息可能导致模型的预测出现不确定性。

在很多情况下,采用简单而不确定的规则要比复杂而确定的规则更加的实用。

可以使用概率论来量化不确定性。 用概率来表示一种信任度,概率直接和事件发生的频率相联系的被称为频率派概率,比如说某件事发生的概率是 p,这表示如果反复试验无限次,有 p 的比例是发生这件事情;而涉及确定性水平的称为贝叶斯概率,比如说医生在对一个病人的诊断中判断其患某个病的概率是 p。

概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。

例如在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。

2.1.2 变量与随机变量有什么区别

随机变量(random variable)是可以随机地取不同数值的变量。

它表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。 随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。

变量与随机变量的区别: 当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量。

比如: 当变量xx值为100的概率为1的话,那么x=100x=100就是确定了的,不会再有变化,除非有进一步运算. 当变量xx的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

2.1.3 随机变量与概率分布的联系

一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法,就是概率分布(probability distribution)**.

随机变量可以分为离散型随机变量和连续型随机变量。

相应的描述其概率分布的函数是:

  • 概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布,通常用大写字母 PP表示。

  • 概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布,通常用小写字母pp表示。

2.1.4 离散型随机变量和概率质量函数

PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率

  • 一般而言,P(x)P(x) 表示时 X=x X=x的概率,概率为 1 表示 X=x X=x 是确定的,概率是 0 表示 X=x X=x 是不可能的;
  • 有时候为了防止混淆,要明确写出随机变量的名称P(P(x=x)=x)
  • 有时候需要先定义一个随机变量,然后制定它遵循的概率分布 x 服从P(P(x))

PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) P(X=x,Y=y)P(X=x,Y=y)表示 X=xX=x Y=y Y=y同时发生的概率,也可以简写成 P(x,y)P(x,y).

如果一个函数PP是随机变量 XX 的 PMF, 那么它必须满足如下三个条件:

  • PP的定义域必须是的所有可能状态的集合
  • x∀x∈x, 0P(x)10 \leq P(x) \leq 1 .
  • xXP(x)=1∑_{x∈X} P(x)=1. 我们把这一条性质称之为归一化的(normalized),如果不满足这条性质,那么可能某件事情发生的概率会是大于 1。

2.1..5 连续型随机变量和概率密度函数

如果一个函数pp是x的PDF,那么它必须满足如下几个条件

  • pp的定义域必须是x的所有可能状态的集合。
  • xX,p(x)0∀x∈X,p(x)≥0. 注意,我们并不要求p(x)1 p(x)≤1,因为此处 p(x)p(x)不是表示的对应此状态具体的概率,而是概率的一个相对大小(密度)。具体的概率,需要积分去求。
  • p(x)dx=1∫p(x)dx=1, 积分下来,总和还是1,概率之和还是1.

注:PDFp(x)p(x)并没有直接对特定的状态给出概率,给出的是密度,相对的,它给出了落在面积为 δxδx的无线小的区域内的概率为p(x)δx p(x)δx.

由此,我们无法求得具体某个状态的概率,我们可以求得的是 某个状态 xx 落在 某个区间[a,b][a,b]内的概率为abp(x)dx \int_{a}^{b}p(x)dx.

2.1.6 举例理解条件概率

条件概率公式如下:

P(AB)=P(AB)/P(B)P(A|B) = P(A\cap B) / P(B)

说明:在同一个样本空间Ω\Omega中的事件或者子集AABB,如果随机从Ω\Omega中选出的一个元素属于BB,那么下一个随机选择的元素属于AA 的概率就定义为在BB的前提下AA的条件概率。

条件概率文氏图示意如图1.1所示。

图1.1 条件概率文氏图示意

根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(AB)P(A\bigcap B)除以P(B)P(B)

举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过)

穷举法:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3。

条件概率法P()=P(女女)/P()P(女|女)=P(女女)/P(女),夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则P(女女)P(女女)为1/4,P(女)=1P(男男)=3/4P(女)= 1-P(男男)=3/4,所以最后1/31/3

这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。

2.1.7 联合概率与边缘概率联系区别

区别: 联合概率:联合概率指类似于P(X=a,Y=b)P(X=a,Y=b)这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率

边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于P(X=a)P(X=a)P(Y=b)P(Y=b)这样,仅与单个随机变量有关的概率。

联系:

联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。

2.1.8 条件概率的链式法则

由条件概率的定义,可直接得出下面的乘法公式: 乘法公式 设A,BA, B是两个事件,并且P(A)>0P(A) > 0, 则有

P(AB)=P(BA)P(A)P(AB) = P(B|A)P(A)

推广

P(ABC)=P(CAB)P(BA)P(A)P(ABC)=P(C|AB)P(B|A)P(A)

一般地,用归纳法可证:若P(A1A2...An)>0P(A_1A_2...A_n)>0,则有

P(A1A2...An)=P(AnA1A2...An1)P(An1A1A2...An2)...P(A2A1)P(A1)=P(A1)i=2nP(AiA1A2...Ai1)P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)\\ =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})

任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。

2.1.9 独立性和条件独立性

独立性 两个随机变量xxyy,概率分布可以表示成两个因子乘积形式,一个因子只包含xx,另一个因子只包含yy,则可以说这两个随机变量相互独立(independent)**。 条件有时为不独立的事件之间带来独立,有时也会把本来独立的事件,因为此条件的存在,而失去独立性。

举例:P(XY)=P(X)P(Y)P(XY)=P(X)P(Y), 事件XX和事件YY独立。此时给定ZZ

P(X,YZ)P(XZ)P(YZ)P(X,Y|Z) \not = P(X|Z)P(Y|Z)

事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分稀少的,因为大部分情况下,事件之间都是互相影响的。

条件独立性 给定ZZ的情况下,XXYY条件独立,当且仅当

XYZ    P(X,YZ)=P(XZ)P(YZ)X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)

XXYY的关系依赖于ZZ,而不是直接产生。

举例定义如下事件: XX:明天下雨; YY:今天的地面是湿的; ZZ:今天是否下雨; ZZ事件的成立,对XXYY均有影响,然而,在ZZ事件成立的前提下,今天的地面情况对明天是否下雨没有影响。

2.1.10 常见公式

概率基础的公式

  • P(A+B)=P(A)+P(B)P(AB)P(A+B) = P(A)+P(B)-P(AB)
  • P(AB)=P(A)P(B)P(A-B)=P(A)-P(B)
  • P(AB)=P(A)P(BA)P(AB)=P(A)P(B|A)

全概率

P(A)=iP(Bi)P(ABi)P(A) = \sum_i P(B_i)P(A|B_i)

贝叶斯

P(BA)=P(B)P(AB)P(A)P(B|A) = \frac{P(B)P(A|B)}{P(A)}

2.1.11 应用

抽球

n 个球,对于有放回和无放回的抽取方式

  • 有放回的抽取,抽取 m 个排成一列,求不同排列的数量:nmn^m

  • 没有放回的抽取,抽取 m 个排成一列,求不同排列的数量:n!(nm)!\frac{n!}{(n-m)!}

2.2 常见概率分布

2.2.1 均匀分布

离散随机变量的均匀分布:假设 X 有 k 个取值,则均匀分布的概率质量函数为:

p(X=xi)=1k,i=1,2,,kp(X=x_i) = \frac{1}{k},i=1,2,\cdots,k

连续随机变量的均匀分布:假设 X 在 [a, b] 上均匀分布,则其概率密度函数为:

p(X=x)={0,x[a,b]1ba,x[a,b]p(X=x) = \begin{cases} 0,x\notin[a,b]\\ \frac{1}{b-a},x\in[a, b] \end{cases}

2.2.1 Bernoulli分布

Bernoulli分布(伯努利分布,0-1分布)是单个二值随机变量分布, 单参数ϕ\phi∈[0,1]控制,ϕ\phi给出随机变量等于1的概率. 主要性质有:

P(x=1)=ϕP(x=0)=1ϕ概率质量函数:P(x=x)=ϕx(1ϕ)1x\begin{align*} P(x=1) &= \phi \\ P(x=0) &= 1-\phi \\ 概率质量函数:P(x=x) &= \phi^x(1-\phi)^{1-x} \\ \end{align*}

其期望和方差为:

Ex[x]=ϕVarx(x)=ϕ(1ϕ)\begin{align*} E_x[x] &= \phi \\ Var_x(x) &= \phi{(1-\phi)} \end{align*}

适用范围: 伯努利分布适合对离散型随机变量建模.

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中kk是有限值.Multinoulli分布由向量p[0,1]k1\vec{p}\in[0,1]^{k-1}参数化,每个分量pip_i表示第ii个状态的概率, 且pk=11Tpp_k=1-1^Tp.这里1T1^T表示元素全为1的列向量的转置,其实就是对于向量p中除了k的概率之和。可以重写为pk=10k1pip_k=1-\sum_{0}^{k-1}p_i

补充二项分布、多项分布:

二项分布,通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

定义成功 x 次的概率为:f(x)=Cnxpx(1p)nx,x0,1,,nf(x)=C_n^xp^x(1-p)^{n-x},x\in{0,1,\cdots,n}

期望是 np, 方差是 np(1-p)

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。

2.2.3 高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:

N(x;μ,σ2)=12πσ2exp(12σ2(xμ)2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )

其中, μ\muσ\sigma分别是均值和标准差, 中心峰值x坐标由μ\mu给出, 峰的宽度受σ\sigma控制, 最大点在x=μx=\mu处取得, 拐点为x=μ±σx=\mu\pm\sigma

正态分布中,±1σ\sigma、±2σ\sigma、±3σ\sigma下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。

此外, 令μ=0,σ=1\mu=0,\sigma=1高斯分布即简化为标准正态分布:

N(x;μ,σ2)=12πexp(12x2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )

对概率密度函数高效求值:

N(x;μ,β1)=β2πexp(12β(xμ)2)N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)

其中,β=1σ2\beta=\frac{1}{\sigma^2}通过参数β0\beta∈(0,\infty)来控制分布精度。

2.2.4 何时采用正态分布

问: 何时采用正态分布?

答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

  1. 中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
  2. 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

正态分布的推广:

正态分布可以推广到RnR^n空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵Σ\Sigma:

N(x;μ,Σ)=1(2π)ndet(Σ)exp(12(xμ)TΣ1(xμ))N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)

对多为正态分布概率密度高效求值:

N(x;μ,β1)=det(β)(2π)nexp(12(xμ)Tβ(xμ))N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)

此处,β\vec\beta是一个精度矩阵。

2.2.5 指数分布

深度学习中, 指数分布用来描述在x=0x=0点处取得边界点的分布, 指数分布定义如下:

p(x;λ)=λIx0exp(λx)p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})

指数分布用指示函数Ix0I_{x\geq 0}来使xx取负值时的概率为零。

2.2.6 Laplace 分布(拉普拉斯分布)

一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点 μ\mu处设置概率质量的峰值

Laplace(x;μ;γ)=12γexp(xμγ)Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)

期望是 μ\mu,方差是 2γ22\gamma^2

拉普拉斯分布比高斯分布更加尖锐和狭窄,在正则化中通常会利用这个性质。

2.2.7 泊松分布

假设已知事件在单位时间(或者单位面积)内发生的平均次数为λ,则泊松分布描述了:事件在单位时间(或者单位面积)内发生的具体次数为 k 的概率。 概率密度函数:

p(X=k;λ)=eλλkk!p(X=k;\lambda)=\frac{e^{-\lambda}\lambda^k}{k!}

期望是 λ\lambda,方差是 λ\lambda.

2.2.8 Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克δ\delta函数(也称为单位脉冲函数)定义如下:

p(x)=δ(xμ),xμp(x)=\delta(x-\mu), x\neq \mu
abδ(xμ)dx=1,a<μ<b\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b

Dirac 分布经常作为经验分布(empirical distribution)的一个组成部分出现

p^(x)=1mi=1mδ(xx(i))\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})

其中, m个点x1,...,xmx^{1},...,x^{m}是给定的数据集, 经验分布将概率密度1m\frac{1}{m}赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

关于经验分布的另一个重要观点是,它是训练数据的似然最大的那个概率密度函数。

2.2.9 混合分布

通过组合一些简单的概率分布来定义新的概率分布也是很常见的。

一种通用的组合方法就是构造混合分布。混合分布由一些组件分布构成。

一个混合分布的例子就是:实值变量的经验分布对于每一个训练实例来说,就是以 Dirac 分布为组件的混合分布。

混合模型是组合简单概率分布来生成更丰富的一种简单策略。一个非常强大且常见的混合模型就是高斯混合模型

它的组件是高斯分布,每个组件有自己的参数,均值和协方差矩阵。

2.3 期望、方差、协方差、相关系数

2.3.1 期望

函数 f(x) 关于某个分布 P(x) 的期望或者期望值是指,当 x 由 P 产生, f 作用于 x 的时候,f(x) 的平均值。

在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小

  • 线性运算: E(ax+by+c)=aE(x)+bE(y)+cE(ax+by+c) = aE(x)+bE(y)+c
  • 推广形式: E(k=1naixi+c)=k=1naiE(xi)+cE(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}
  • 函数期望:设f(x)f(x)xx的函数,则f(x)f(x)的期望为
    • 离散函数: E(f(x))=k=1nf(xk)P(xk)E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}
    • 连续函数: E(f(x))=+f(x)p(x)dxE(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}

注意:

  • 函数的期望大于等于期望的函数(Jensen(詹森)不等式,即E(f(x))f(E(x))E(f(x))\geqslant f(E(x))
  • 一般情况下,乘积的期望不等于期望的乘积。
  • 如果XXYY相互独立,则E(xy)=E(x)E(y)E(xy)=E(x)E(y)

2.3.2 方差

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:

Var(x)=E((xE(x))2)Var(x) = E((x-E(x))^2)

方差性质:

1)Var(x)=E(x2)E(x)2Var(x) = E(x^2) -E(x)^2 2)常数的方差为0; 3)方差不满足线性性质; 4)如果XXYY相互独立, Var(ax+by)=a2Var(x)+b2Var(y)Var(ax+by)=a^2Var(x)+b^2Var(y)

2.3.3 协方差

协方差是衡量两个变量线性相关性强度及变量尺度。 两个随机变量的协方差定义为:

Cov(x,y)=E((xE(x))(yE(y)))Cov(x,y)=E((x-E(x))(y-E(y)))

方差是一种特殊的协方差。当X=YX=Y时,Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)

协方差性质:

1)独立变量的协方差为0。 2)协方差计算公式:

Cov(i=1maixi,j=1mbjyj)=i=1mj=1maibjCov(xiyi)Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)}

3)特殊情况:

Cov(a+bx,c+dy)=bdCov(x,y)Cov(a+bx, c+dy) = bdCov(x, y)

2.3.4 相关系数

相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:

Corr(x,y)=Cov(x,y)Var(x)Var(y)Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}

相关系数的性质: 1)有界性。相关系数的取值范围是 [-1,1],可以看成无量纲的协方差。 2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为0时,表示两个变量没有相关性。

2.4 信息论

信息论主要研究的是对一个信号包含新的多少进行量化。

信息论的一个基本想法是一个不太可能发生的事件居然发生了,比一个非常可能发生的事件发生,能提供更多的信息。

如果想通过这种基本想法来量化信息,需要满足这个 3 个性质:

  • 非常可能发生的事件信息论要比较少,并且极端情况下,确保能够发生的事件应该没有信息量;
  • 较不可能发生的事件具有更高的信息量;
  • 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息,应该是投掷一次硬币证明朝上的信息量的两倍。

这里定义一个事件 x=xx自信息为:

I(x)=logP(x)I(x) = -log P(x)

自信息量只能处理单个的输出。可以用香农熵来对整个概率分布中的不确定性总量进行量化:

H(x)=ExP[I(x)]=ExP[logP(x)]H(x) = -E_{x\sim P}[I(x)] = -E_{x\sim P}[logP(x)]

也记作 H(P)。这里的 E 表示的就是期望,也就是说一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量

而如果对于一个随机变量有两个单独的概率分布 P(x) 和 Q(x),那么可以使用KL 散度来衡量这两个分布的差异:

DKL(PQ)=ExP[logP(x)logQ(x)]=ExP[logP(x)logQ(x)]D_{KL}(P||Q) = E_{x\sim P}[\frac{logP(x)}{logQ(x)}] = E_{x\sim P}[logP(x)-logQ(x)]

举例:对于一个二值随机分布的香农熵,H(x)=(1p)log(1p)plogpH(x) =- (1-p)log(1-p)-plogp

KL散度的性质有:

  1. 非负的;
  2. KL 散度为 0 的情况,当且仅当 P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的;
  3. 常用作衡量分布之间的某种距离,但并不是真正的距离,因为它不是对称的。

一个和 KL 散度很相似的是交叉熵,即 H(P,Q)=H(P)+DKL(PQ)H(P,Q)=H(P)+D_{KL}(P||Q)

H(P,Q)=ExPlogQ(x)H(P,Q)=-E_{x\sim P}logQ(x)

针对 Q 最小化交叉熵等价于最小化 KL 散度,因为 Q 并不参与被省略的那一项。

在计算这些量的时候,经常会遇到 0log0 这个表达式,一般对这个的处理是 limx>0xlogx=0lim_{x->0}xlogx = 0


欢迎关注我的公众号--AI 算法笔记,获取更多的AI 算法笔记、论文阅读笔记。