个人理解总结-朴素贝叶斯综上，贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换为计算“属于某类的条件下具有某特征

1.贝叶斯公式

英国神学家贝叶斯提出贝叶斯公式，用来描述两个条件概率直接的关系，经过一系列推导得到贝叶斯公式的最终可用版本：

P(X|Y)=\frac{P(Y|X)P(X)}{P(Y)}

其中， $P(Y)$ 为先验概率， $P(Y|X)$ 为后验概率将上述等式右侧的 $P(X)$ 和 $P(Y)$ 移到左侧，可得下式：

P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}

将 $X$ 视为“具有某种特征”， $Y$ 视为“类别标签”,即可得到：

P(所属类别|某种特征)=\frac{P(某种特征|所属类别)P(所属类别)}{P(某种特征)}

后续计算中，我们主要使用到等式右侧分子 $P(X|Y)P(Y)$

综上，贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换为计算“属于某类的条件下具有某特征”的概率，该方法属于监督学习。

Step1：训练数据生成训练样本集
- 获取数据的特征向量（TF-IDF，word2vector等方法都可以）
- 特征独立性（特征向量的每个维度都是相互独立的）
Step2：计算每个类别的概率，即 $P(Y)$
Step3：对每个特征计算其对于所有类别的概率
Step4：将待预测数据的特征带入 $P(X|Y)P(Y)$ ，即计算其对于每个类别的概率值
Step5： $P(X|Y)P(Y)$ 中值最大的那一项表明 $X$ 属于该类的概率最高，即可认为 $X$ 属于该类

朴素贝叶斯分类的训练过程实质上就是一个统计的过程，将训练数据集所有的特征及其标签进行统计，获得所有特征的 $P(X|Y)$ 和 $P(Y)$ 值
- $P(Y)$ 比较容易计算，所以训练的目的是计算 $P(X|Y)$ 的值
- 区别于基于误差函数的循环调参式训练，朴素贝叶斯的训练我认为是一次性的，即获得数据之后统计相关概率值即可完成训练
当带预测数据集中的某个特征是之前训练数据集中不曾出现过的时候，该如何解决