连续正态分布随机变量的熵
《机器学习数学基础》第 416 页给出了连续型随机变量的熵的定义,并且在第 417 页以正态分布为例,给出了符合 N(0,σ2) 的随机变量的熵。
注意:在第 4 次印刷以及之前的版本中,此处有误,具体请阅读勘误表说明。
本书专题网站:lqlab.readthedocs.io/en/latest/m…
1. 推导(7.6.6)式
假设随机变量服从正态分布 X∼N(μ,σ2) (《机器学习数学基础》中是以标准正态分布为例,即 X∼N(0,σ2) )。
根据《机器学习数学基础》的(7.6.1)式熵的定义:
H(X)=−∫f(x)logf(x)dx
其中,f(x)=2πσ1e−2σ2(x−μ)2 ,是概率密度函数。根据均值的定义,(7.6.1)式可以写成:
H(X)=−E[logf(x)]
将 f(x) 代入上式,可得:
H(X)=−E[log(2πσ1e−2σ2(x−μ)2)]=−E[log(2πσ1)+log(e−2σ2(x−μ)2)]=−E[log(2πσ1)]−E[log(e−2σ2(x−μ)2)]=21log(2πσ2)−E[−2σ21(x−μ)2loge]=21log(2πσ2)+2σ2logeE[(x−μ)2]=21log(2πσ2)+2σ2logeσ2(∵E[(x−μ)2]=σ2,参阅332页(G2)式)=21log(2πσ2)+21loge=21log(2πeσ2)
从而得到第 417 页(7.6.6)式。
2. 推导多维正态分布的熵
对于服从正态分布的多维随机变量,《机器学习数学基础》中也假设服从标准正态分布,即 XX∼N(0,ΣΣ) 。此处不失一般性,以 XX∼N(μ,ΣΣ) 为例进行推导。
注意:《机器学习数学基础》第 417 页是以二维随机变量为例,书中明确指出:不妨假设 XX=[XX1XX2] ,因此使用的概率密度函数是第 345 页的(5.5.18)式。
下面的推导,则考虑 n 维随机变量,即使用 345 页(5.5.19)式的概率密度函数:
f(XX)=(2π)n∣ΣΣ∣1exp(−21(XX−μμ)TΣΣ−1(XX−μμ))
根据熵的定义(第 416 页(7.6.2)式)得:
H(XX)=−∫f(XX)log(f(XX))dxx=−E[logN(μ,ΣΣ)]=−E[log((2π)−n/2∣ΣΣ∣−1/2exp(−21(XX−μμ)TΣΣ−1(XX−μμ)))]=−E[−2nlog(2π)−21log(∣ΣΣ∣)+logexp(−21(XX−μμ)TΣΣ−1(XX−μμ))]=2nlog(2π)+21log(∣ΣΣ∣)+2logeE[(XX−μμ)TΣΣ−1(XX−μμ)]
下面单独推导:E[(XX−μμ)TΣΣ−1(XX−μμ)] 的值:
E[(XX−μμ)TΣΣ−1(XX−μμ)]=E[tr((XX−μμ)TΣΣ−1(XX−μμ))]=E[tr(ΣΣ−1(XX−μμ)(XX−μμ)T)]=tr(Σ−1Σ−1E[(XX−μμ)(XX−μμ)T])=tr(ΣΣ−1ΣΣ)=tr(IIn)=n
所以:
H(XX)=2nlog(2π)+21log(∣ΣΣ∣)+2logeE[(XX−μμ)TΣΣ−1(XX−μμ)]=2nlog(2π)+21log(∣ΣΣ∣)+2logen=2n(log(2π)+loge)+21log(∣ΣΣ∣)=2nlog(2πe)+21log(∣ΣΣ∣)
当 n=2 时,即得到《机器学习数学基础》第 417 页推导结果:
H(XX)=log(2πe)+21log(∣ΣΣ∣)=21log((2πe)2∣Σ∣Σ∣)
参考资料
[1]. Entropy of the Gaussian[DB/OL]. gregorygundersen.com/blog/2020/0… , 2023.6.4
[2]. Entropy and Mutual Information[DB/OL]. gtas.unican.es/files/docen… ,2023.6.4
[3]. Fan Cheng. CS258: Information Theory[DB/OL]. qiniu.swarma.org/course/docu… , 2023.6.4.
[4]. Keith Conrad. PROBABILITY DISTRIBUTIONS AND MAXIMUM ENTROPY[DB/OL]. kconrad.math.uconn.edu/blurbs/anal…, 2023.6.4.
本文由mdnice多平台发布