最大熵模型中数学补充知识

222 阅读1分钟

拉格朗日乘子法

拉格朗日乘子法:一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。

假设给定二元函数z=ƒ(x,y)和附加条件φ(x,y)=0,为寻找z=ƒ(x,y)在附加条件下的极值。

  1. 先做拉格朗日函数,其中λ为参数。

  2. 令F(x,y,λ)对x和y和λ的一阶偏导数等于零。即:

      F'x=ƒ'x(x,y)+λφ'x(x,y)=0
      F'y=ƒ'y(x,y)+λφ'y(x,y)=0
      F'λ=φ(x,y)=0
      
    

3.由上述方程组解出x,y及λ。此时求解的(x,y)是二元函数z=ƒ(x,y)在附加条件下的可能极值点。

贝叶斯定理(Bayes Rule)

贝叶斯定理:用来描述两个条件概率之间的关系。

P(A):事件A发生的概率。
P(B):事件B发生的概率。
P(A|B):事件B发生的情况下事件A发生的概率
P(A,B):事件AB同时发生的概率

P(A|B)=P(A,B)/P(B)
P(B|A)=P(A,B)/P(A)

可得贝叶斯公式:

image.png

熵(entropy)

熵:表示随机变量不确定性的度量。

X是一个离散型随机变量,其熵的定义为: image.png

注:p(x)为概率分布。

熵只依赖于X的分布,而与X的取值无关。熵越大,随机变量的不确定性就越大。

条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。定义为X给定条件下Y的条件概率分布的熵对X的数学期望。

image.png