一、原理
参考了《机器学习公式推导与代码实现》第22章和博文 mp.csdn.net/mp_blog/cre… 对应M步的Q函数,利用拉格朗日乘数法分别对θB 和θC求偏导并令等于0,联立方程可求得第一次迭代后θB 和θC的更新公式:
θA=∑j=15ujyj+∑j=15uj(10−yj)∑j=15ujyjθB=∑j=15(1−uj)yj+∑j=15(1−uj)(10−yj)∑j=15(1−uj)(10−yj)这里θA和θB是硬币B和硬币C正面出现的概率uj是本轮迭代每次试验的选择B或C的概率(即硬币A是正面还是反面的概率),uj=P(Z=B∣yj,θ),具体含义就是每次试验结果有yj次正面朝上,(自然有10−yj次朝下),而这一次数组合来自硬币B的概率。uj=P(Z=B∣yj,θ)=P(Z=B,yj∣θ)∗P(Z=C,yj∣θ)+P(Z=C,yj∣θ)P(Z=B,yj∣θ)∗P(Z=C,yj∣θ)