线性回归
令 z =wT x+b z =w T x+b z = w T x+ b ,得到:
Unexpected text node: ' ' Unexpected text node: ' ' y =z+ ϵ,ϵ∼ N(0,σ 2 )
于是:
y ∣x∼N (z, σ2) y ∣x∼N(z ,σ 2 ) y ∣x∼ N(z,σ 2 )
为啥是 y ∣x y ∣x y∣ x ,因为判别模型的输出只能是 y ∣x y ∣x y ∣x 。
它的概率密度函数:
Unexpected text node: ' ' Unexpected text node: ' ' f Y∣X (y)= 2π σ 1 exp( 2σ 2 −(y− z) 2 ) = A exp(−B( y− z ) 2 ),A, B> 0
计算损失函数:
L =−∑ i logf Y∣X ( y( i) ) =− ∑i (logA− B( y( i) −z (i) )2) =B ∑i (y (i) −z (i) )2+ C L =−∑ i log f Y ∣X ( y ( i) ) = −∑ i ( logA− B( y ( i) − z ( i) ) 2 ) = B∑ i ( y ( i) − z ( i ) ) 2 + C L = − ∑ i lo g f Y ∣ X ( y ( i ) ) = − ∑ i ( lo g A − B ( y ( i ) − z ( i ) ) 2 ) = B ∑ i ( y ( i ) − z ( i ) ) 2 + C
所以 min L min L min L 就相当于 min ( y( i) −z (i) )2 min (y ( i) −z ( i) ) 2 min (y (i) − z (i) ) 2 。结果和最小二乘是一样的。
逻辑回归
令 z =wT x+b, a=σ(z) z =w T x+ b,a =σ (z ) z = w T x+ b, a= σ( z) ,我们观察到在假设中:
P (y=1 ∣x)= aP( y=0∣ x)= 1−a P (y=1 ∣x)=a P (y =0∣ x)= 1−a P (y= 1∣x )= a P( y= 0∣x )= 1 − a
也就是说:
y ∣x∼B (1,a ) y ∣x∼ B(1,a) y ∣x∼ B(1 ,a)
其实任何二分类器的输出都是伯努利分布。因为变量只能取两个值,加起来得一,所以只有一种分布。
它的概率质量函数(因为是离散分布,只有概率质量函数,不过无所谓):
p Y∣X ( y) =ay (1− a)1−y p Y ∣X (y )=a y (1 −a) 1 −y p Y∣X (y) = a y (1− a) 1−y
然后计算损失函数:
L =−∑ i logp Y∣X ( y( i) ) =− ∑i (y (i) loga (i) +( 1−y (i) ) log( 1−a (i) ) ) L =−∑ i log p Y ∣X ( y ( i) ) =−∑ i ( y ( i) log a ( i) + (1− y ( i) ) log ( 1− a ( i) ) ) L = − ∑ i lo g p Y ∣ X ( y ( i ) ) = − ∑ i ( y ( i ) lo g a ( i ) + ( 1 − y ( i ) ) lo g ( 1 − a ( i ) ) )
和交叉熵是一致的。
可以看出,在线性回归的场景下,MLE 等价于最小二乘,在逻辑回归的场景下,MLE 等价于交叉熵。但不一定 MLE 在所有模型中都是这样。