如何理解西瓜书朴素贝叶斯分类器旁边提示的直接估计联合概率会遇到组合爆炸问题?

125 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

假设有两个特征属性:X^(1)^和X^(2)^。

X^(1)^的取值为{1,2,3},X^(2)^的取值为{S,M,L}

通过这两个特征得到预测结果Y={-1,1}

若这两个特征不独立,则需要计算18个参数。

P(X^(1)^=1,X^(2)^=S|Y=-1),    P(X^(1)^=1,X^(2)^=S|Y=1) P(X^(1)^=1,X^(2)^=M|Y=-1),      P(X^(1)^=1,X^(2)^=M|Y=1) P(X^(1)^=1,X^(2)^=L|Y=-1),       P(X^(1)^=1,X^(2)^=L|Y=1) P(X^(1)^=2,X^(2)^=S|Y=-1),    P(X^(1)^=2,X^(2)^=S|Y=1) P(X^(1)^=2,X^(2)^=M|Y=-1),      P(X^(1)^=2,X^(2)^=M|Y=1) P(X^(1)^=2,X^(2)^=L|Y=-1),       P(X^(1)^=2,X^(2)^=L|Y=1) P(X^(1)^=3,X^(2)^=S|Y=-1),    P(X^(1)^=3,X^(2)^=S|Y=1) P(X^(1)^=3,X^(2)^=M|Y=-1),      P(X^(1)^=3,X^(2)^=M|Y=1) P(X^(1)^=3,X^(2)^=L|Y=-1),       P(X^(1)^=3,X^(2)^=L|Y=1)

若Y的可取值为K个,每个特征可取值为Sj个,则参数有Kj=1nSj{ K\cdot \prod_{j=1}^{n} S_{j} }个。

若独立,则只需要计算12个参数。

P(X^(1)^=1|Y=-1),     P(X^(1)^=1|Y=1), P(X^(1)^=2|Y=-1),     P(X^(1)^=2|Y=1), P(X^(1)^=3|Y=-1),     P(X^(1)^=3|Y=1), P(X^(2)^=S|Y=-1),       P(X^(2)^=S|Y=1), P(X^(2)^=M|Y=-1),    P(X^(2)^=M|Y=1), P(X^(2)^=L|Y=-1),     P(X^(2)^=L|Y=1),

即若Y的可取值为K个,每个特征可取值为Sj个,则参数有Kj=1nSj{ K\cdot \sum_{j=1}^{n} S_{j} }个。

综上,若假特征属性独立则可减少参数计算量!

转自:如何理解西瓜书朴素贝叶斯分类器旁边提示的直接估计联合概率会遇到组合爆炸问题?_Joyce168998的博客-CSDN博客