开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第十五天,点击查看活动详情
总结:此文为12月更文计划第十五天第二十七篇。
贝叶斯分类器
贝叶斯概率基础,条件概率与联合概率:
1、女神喜欢的概率?
4/7
2、职业是程序员 并且体型匀称的概率?
3/7 * 4/7 = 12/49
3、在女神喜欢的条件下,职业是程序员的概率?
1/2
4、在女神喜欢的条件下,职业是产品, 体重是超重的概率?(分开来看)
P(产品,超重|喜欢) = P(产品喜欢)P(超重|喜欢) = 1/2*(1/4)= 1/8
特性: P(A1,A2|B) = P(A1|B)P(A2|B)
联合概率:包含多个条件,且所有条件同时成立的概率
记作:p(A,B )
条件概率:就是事件 A 在另外一个事件 B 已经发生条件下的发生概率
记作:P(A|B)
特性:P(A1,A2|B) = P(A1|B)P(A2|B)
注意:此条件概率的成立,是由于 A1,A2 相互独立的结果。
朴素贝叶斯-贝叶斯公式
贝叶斯公式为什么是这个,朴素贝叶斯是后验概率
朴素贝叶斯分类优缺点 优点:
朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
对缺失数据不太敏感,算法也比较简单,常用于文本分类。
分类准确度高,速度快
缺点:
需要知道先验概率 P(F1,F2,…|C),因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
假设了文章当中一些词语另外一些是独立没关系—-如果有关系,会造成不太靠谱
训练集当中去进行统计词这些工作 文章收集的不好,比如有作弊文章,充斥某个词会对结果造成干扰
朴素贝叶斯:文本分类—主要应用领域
神经网络效果要更好(深度学习)