一、 核心理论:贝叶斯决策论 (Bayesian Decision Theory)
这是整个贝叶斯分类的基石,考试常考基本概念辨析。
1. 核心公式:贝叶斯定理 (必背)
我们想求的是后验概率 (看到特征 后,它属于类别 的概率),但这个很难直接算。贝叶斯公式让我们通过“反推”来计算:
- 先验概率 (Prior):不看任何特征,根据以往经验,样本属于 类的概率(比如好瓜本来就少,好瓜的 就低)。
- 类条件概率 (Likelihood):如果已经是 类了,长成 这样特征的概率是多少(比如好瓜通常是绿色的,那么 就高)。
- 证据 (Evidence):用于归一化,对于所有类别来说都一样,决策时通常忽略。
2. 两个决策准则 (考试重点)
考试中可能会给出一个损失矩阵,让你判断怎么决策。
- 最小错误率决策 (Minimum Error Rate):
- 口诀:谁的后验概率大,就选谁。
- 目标:。
- 等价于: (因为分母 相同)。
- 最小风险决策 (Minimum Risk):
- 背景:有时候犯错的代价不一样(比如把毒蘑菇当成正常的吃的,代价比把正常的当毒蘑菇扔了要大得多)。
- 引入:损失函数 (把 类误判为 类的损失)。
- 做法:选择期望损失(风险)最小的类别。
- 特例:如果损失函数是 0-1 损失(判对损失0,判错损失1),那么最小风险决策 最小错误率决策。
二、 极重要算法:朴素贝叶斯 (Naive Bayes)
这是本讲最容易出计算大题的部分(例如给一个西瓜的数据表,让你手算它是好瓜的概率)。
1. “朴素”在哪里?
- 核心假设:属性条件独立性假设。
- 即:假设所有属性(色泽、根蒂、敲声...)之间互不影响,独立地对分类结果产生影响。
- 公式: 即:后验概率 先验概率 每个属性条件概率的连乘。
2. 怎么训练?(参数估计)
其实就是“数数”。
- 先验 : (c类样本数 / 总样本数)。
- 条件概率 :
- 离散属性: (c类中第i个属性取值为x的样本数 / c类样本总数)。
- 连续属性:通常假设服从高斯分布 (正态分布),算出均值和方差,代入高斯公式计算概率密度。
3. 拉普拉斯修正 (Laplacian Correction) —— 考点预警
- 问题:如果某个属性值在训练集中没出现过(比如“敲声=清脆”在好瓜里是0个),连乘会导致整个概率变成0。
- 解决:
- 分子 + 1
- 分母 + N (N是该属性可能的取值个数)
- 公式:, 。
三、 参数估计方法:MLE vs 贝叶斯估计
这部分通常考概念辨析。
- 极大似然估计 (MLE):
- 频率学派观点。认为参数 是固定的(虽然未知)。
- 目标:找到一个 ,让看到现有数据的概率(似然)最大。
- 缺点:数据少时容易过拟合。
- 贝叶斯估计:
- 贝叶斯学派观点。认为参数 是随机变量,服从一个分布。
- 引入了先验分布(Prior),结合数据得到后验分布。
四、 EM 算法 (Expectation-Maximization) —— 难点
如果考试考到 GMM (高斯混合模型) 或者有隐变量 (Latent Variable) 的问题,必考 EM 算法。
- 场景:数据不完整,或者含有无法观测的隐变量(例如:一堆西瓜数据,但我不知道哪些是A类瓜,哪些是B类瓜,只知道它们混合在一起的分布)。
- 核心思想:迭代法。
- E步 (Expectation):先猜一个参数,计算隐变量的期望(或者说是隐变量的后验概率)。
- M步 (Maximization):根据算出的隐变量,重新用极大似然估计来更新参数。
- 比喻:就像炒菜,先估计要放多少盐(E步),尝一口(计算似然),觉得淡了再根据刚才的味觉调整盐量(M步),反复几次直到味道最好。
五、 拓展概念 (了解即可)
- 半朴素贝叶斯:觉得“所有属性完全独立”太假了,稍微放松一点,允许属性之间有一些依赖(如 AODE, TAN)。
- 贝叶斯网:用有向无环图 (DAG) 来表达属性之间的依赖关系。
考试通关 CheckList:
- 计算题:给一个类似“西瓜数据集”的表格,给定一个新的样本(色泽=青绿,根蒂=蜷缩...),请务必掌握如何用朴素贝叶斯计算它属于“好瓜”和“坏瓜”的概率(记得比较大小时,分母可以消去,只需算分子)。一定要注意是否需要使用拉普拉斯修正。
- 概念:解释什么是先验概率、后验概率、类条件概率。
- EM算法:能简述 EM 算法是用来解决什么问题的(含隐变量的参数估计),以及 E 步和 M 步分别在做什么。
- 公式:贝叶斯公式 必须烂熟于心。 好的,我们严格按照您的节奏,一讲一讲来。现在进入第4讲:贝叶斯分类器 (Bayesian Classifiers)。 这一讲是概率图模型和统计推断的基础,考试中极易出现计算题(尤其是朴素贝叶斯的手算)和概念辨析题(如极大似然估计 vs 贝叶斯估计)。
以下是第4讲的考试与解题深度复习笔记。
第4讲:贝叶斯分类器 —— 概率与决策
一、 核心基础:贝叶斯决策论 (Bayesian Decision Theory)
这是解题的理论依据,考试中常让你根据给定的损失矩阵或概率做决策。
- 基本公式:贝叶斯定理 (必考)
- 先验概率 (Prior):由以往经验统计得到的类别概率(例如:好瓜占所有瓜的比例)。
- 类条件概率 (Likelihood/似然):在类别 中,出现特征 的概率(例如:好瓜中是绿色的概率)。
- 后验概率 (Posterior):在看到特征 后,样本属于类别 的概率(例如:看到是绿色的,它是好瓜的概率)。
- 两个决策准则 (计算题判据)
- 最小错误率决策 (Minimum Error Rate):
- 判据:直接比较后验概率,谁大选谁。
- 公式:选择 使得 最大。等价于比较分子 。
- 特例:如果是二分类,且 ,则判为 。
- 最小风险决策 (Minimum Risk):
- 场景:当犯错的代价不同时(例如:把“有病”误判为“无病”的代价 > 把“无病”误判为“有病”)。
- 引入:损失函数 (将第 类误分为第 类的损失)。
- 计算条件风险:。
- 判据:选择动作 使得风险 最小。
- 考点:如果损失函数是 0-1损失(判对损失0,判错损失1),则最小风险 = 最小错误率。
- 最小错误率决策 (Minimum Error Rate):
二、 核心算法:朴素贝叶斯 (Naive Bayes) —— 必考计算题
这是本章最可能出计算大题的部分。请务必掌握以下流程。
- “朴素”的含义 假设所有属性(特征)之间相互独立。即:色泽不仅与好坏有关,但与根蒂、敲声等其他特征无关。
- 计算公式 (解题核心)
- :先验概率。
- :各个属性条件概率的连乘积。
- 手算步骤示例 (以西瓜数据集为例)
- 题目:给定训练集,判断测试例 是否是“好瓜”。
- Step 1: 算先验概率
- Step 2: 算条件概率 (查表数数)
- 同理算出 和 。
- Step 3: 连乘比较
- 好瓜得分:
- 坏瓜得分:
- 结论:哪个乘积大,就预测为哪一类。
- 特殊情况处理
- 连续属性:如果属性是“密度=0.697”,不能数数了。通常假设服从高斯分布 (正态分布)。
- 计算该类下该属性的均值 和方差 。
- 代入公式:。
- 零概率问题 (拉普拉斯修正):
- 如果某个属性值在训练集中没出现(比如好瓜里没有“敲声=清脆”),概率为0,连乘后全为0。
- 修正公式: 其中 是平滑项, 是该属性可能的取值个数(注意不是总样本数!)。
- 连续属性:如果属性是“密度=0.697”,不能数数了。通常假设服从高斯分布 (正态分布)。
三、 参数估计:MLE vs 贝叶斯估计
这部分主要考概念辨析和简单推导。
| 特性 | 极大似然估计 (MLE) | 贝叶斯估计 (Bayesian Estimation) |
|---|---|---|
| 核心观点 | 参数 是固定的未知常数 | 参数 是随机变量,服从先验分布 |
| 目标 | 最大化似然函数 $L(\theta) = P(D | |
| 计算方法 | 求导,令导数为0 | 结合先验,求期望或最大后验 (MAP) |
| 优缺点 | 数据少时易过拟合 | 利用先验知识,能缓解过拟合,但计算复杂 |
| 公式记忆 |
- 考试高频推导:
- 证明正态分布均值 的 MLE 估计就是样本均值 。
- 推导:写出似然函数 取对数 对 求导 令导数为0 解出 。
四、 EM 算法 (Expectation-Maximization)
当数据中存在隐变量 (Latent Variable)(即有些数据通过观测无法直接得到,例如硬币A还是B抛的)时,MLE 无法直接求解,需用 EM 算法。
- 算法流程 (两步走):
- E步 (Expectation):
- 固定参数 ,计算隐变量 的后验概率(或者说是对数似然的期望)。
- 简单理解:“猜”。根据现有模型,猜缺失数据(隐变量)大概率是什么。
- M步 (Maximization):
- 固定隐变量的分布(用E步算出的期望),最大化似然函数来更新参数 。
- 简单理解:“算”。根据猜出的完整数据,用 MLE 重新计算参数。
- 循环:E -> M -> E -> M ... 直到收敛。
- E步 (Expectation):
- 应用场景:
- 高斯混合模型 (GMM):数据由多个高斯分布混合而成,不知道每个点属于哪个高斯分布(隐变量)。
- K-Means 聚类:可以看作是 GMM 的一种特例(硬分配)。 题目类型:朴素贝叶斯分类
题面:已知好瓜(是/否)的先验,以及(色泽、根蒂)的条件概率表。求问样本(青绿,蜷缩)是好瓜吗?
解题步骤:
- 写公式:
- 算正例 (好瓜): (代入数值计算)
- 算负例 (坏瓜): (代入数值计算)
- 比较下结论: 如果 ,则是好瓜;否则是坏瓜。 (注意:如果是填空题,可能要注意是否需要归一化,即算出具体的概率值,通常只需比较大小即可) 题目类型:拉普拉斯修正
题面:如果训练集中没有(色泽=青绿,好瓜=是)的样本,怎么算?
解题:
- 分子加 1。
- 分母加 (色泽这个属性有多少种取值,比如青绿、乌黑、浅白,那就是+3),千万别加成总样本数!
EM 算法示例
EM 算法(Expectation-Maximization Algorithm,期望最大化算法)主要用于解决含有**隐变量(Latent Variables)的概率模型参数估计问题。 当观测数据不完整,或者模型中存在无法直接观测到的随机变量时,普通的极大似然估计(MLE)往往难以直接求解。EM 算法通过交替进行 E 步(求期望) 和 M 步(求极大值) 来逼近最优解。 下面通过最经典的“硬币投掷问题”**来演示 EM 算法的计算过程。
1. 问题背景:双硬币模型
假设有两枚硬币 和 ,它们正面向上的概率分别是 和 (这是我们要估计的参数)。 我们做了 5 组实验,每组随机选一枚硬币并投掷 10 次。
- 理想情况: 我们知道每组选的是哪枚硬币,直接用每一枚硬币正面总数除以总投掷次数即可(这就是 MLE)。
- EM 场景: 我们丢失了“每组选了哪枚硬币”的记录(隐变量 ),只知道每组实验中正面(H)和反面(T)的数量。
观测数据 (Data)
- 5正5反
- 9正1反
- 8正2反
- 4正6反
- 7正3反
2. EM 算法执行步骤
步骤 0:初始化
随机假设初始参数:
步骤 1:E-Step (Expectation)
根据当前参数,计算每一组观测数据来源于硬币 或 的概率(期望)。 以第一组数据(5正5反)为例:
- 如果是 产生该结果的概率:
- 如果是 产生该结果的概率: 归一化权重(贡献度):
- 这组数据来自 的概率
- 这组数据来自 的概率 分配正面/反面次数:
- 硬币 贡献了:
- 硬币 贡献了: 对所有 5 组数据重复此操作,并累加 和 的贡献。
步骤 2:M-Step (Maximization)
根据 E 步计算出的“期望”次数,重新估计参数 和 。 假设 5 组数据累计结果如下(数值为示例):
- 硬币 的总贡献: 个正面, 个反面。
- 硬币 的总贡献: 个正面, 个反面。 更新参数:
步骤 3:迭代
使用更新后的 和 回到 E 步,重新计算权重,再进入 M 步更新参数。 重复该过程,直到参数 的变化非常小(收敛)。
3. 核心公式总结
在数学上,EM 算法实际上是在不断最大化似然函数的下界(ELBO)。
- E-Step: 计算隐变量 的后验概率分布:
- M-Step: 最大化似然估计的期望值:
4. 为什么需要 EM?
- 无法一步到位: 在含有隐变量的模型(如高斯混合模型 GMM、隐马尔可夫模型 HMM)中,似然函数通常是“和的对数”,求导非常困难。
- 坐标上升: EM 将复杂问题分解,E 步固定参数估算隐变量,M 步固定隐变量分布优化参数,保证了每次迭代似然值都不会下降。
贝叶斯估计 & 贝叶斯学习
贝叶斯估计(Bayesian Estimation)和贝叶斯学习(Bayesian Learning)的核心思想是:将参数看作随机变量,而不是一个固定的常数。 在传统的频率学派看来,硬币正面朝上的概率 是一个死理,只是我们不知道;但在贝叶斯学派看来, 本身服从一个分布,我们会根据观察到的数据不断“修正”对这个分布的认知。
1. 贝叶斯估计 (Bayesian Estimation)
核心公式:
- Prior (): 先验概率。在看到数据前,你对参数的猜测。
- Likelihood (): 似然概率。给定参数下,观察到当前数据的可能性。
- Posterior (): 后验概率。看到数据后,你对参数的新认知。
举例:判断硬币是否均匀
假设你手里有一枚硬币,你想估计它正面朝上的概率 。
- 设定先验 (Prior): 你根据常识认为硬币通常是均匀的。于是你设定 服从一个中心在 0.5 附近的分布(比如 Beta 分布)。
- 收集数据 (Data): 你投掷了 10 次,发现 8 次正面,2 次反面。
- 计算后验 (Posterior):
- 频率学派 (MLE): 直接断定 。
- 贝叶斯估计: 它会结合你的“先验(0.5)”和“数据(0.8)”。
- 结果: 最终得到的后验分布可能中心在 0.7 左右。它既承认了数据反映出的倾向,也保留了“硬币可能没那么极端”的先验直觉。
2. 贝叶斯学习 (Bayesian Learning)
贝叶斯学习通常指在机器学习任务中,利用贝叶斯推断来预测新样本。它不只是给出一个最优的 (那是 MAP 极大后验估计),而是考虑所有可能的 及其概率。
举例:垃圾邮件预测
假设我们要根据“免费”这个词来预测邮件是否为垃圾邮件。
- 学习阶段: 我们不只是算一个固定的概率 。贝叶斯学习会维护一个关于参数的完整分布。它会从历史数据中学习到:当样本量很少时,我们对“免费即垃圾”的结论保持怀疑;随着数据增多,这个概率分布会变得越来越“瘦且高”(即越来越确定)。
- 预测阶段 (Bayesian Prediction): 当新邮件到来时,贝叶斯学习会对所有可能的参数取值进行加权平均(积分): 这比只用一个固定参数预测要稳健得多,因为它考虑了模型本身的不确定性。
3. 三者的直观对比
为了方便你理解(尤其是对应你正在学习的机器学习课程),我们将 MLE、MAP 和贝叶斯估计放在一起:
| 特性 | 极大似然估计 (MLE) | 极大后验估计 (MAP) | 贝叶斯估计 |
|---|---|---|---|
| 对待参数的态度 | 固定常数 | 随机变量 | 随机变量 |
| 是否考虑先验 | 否 | 是 | 是 |
| 输出结果 | 一个数值(点估计) | 一个数值(点估计) | 一个概率分布 |
| 计算复杂度 | 低(求导即可) | 中 | 高(通常涉及复杂的积分或采样) |
| 哲学观 | “数据决定一切” | “数据 + 经验,取最可能的” | “保留所有可能性,按概率加权” |
4. 为什么要用贝叶斯方法?
作为计算机专业的学生,你可能会在以下场景发现它的强大:
- 小样本学习: 当数据很少时,MLE 极易过拟合(比如投两次都是正面,MLE 会说概率是 100%),而贝叶斯方法通过先验知识能有效“拉回”偏差。
- 不确定性量化: 在自动驾驶或医疗诊断中,我们不仅需要知道“结果是什么”,更需要知道“AI 对这个结果有多大把握”。贝叶斯输出的分布宽度就是不确定性的度量。
极大似然估计 & 贝叶斯估计
极大似然估计(MLE)和贝叶斯估计(Bayesian Estimation)最本质的区别在于:你是否相信“先验经验”以及你如何看待“参数”本身。 我们可以用一个简单的**“投篮命中率”**例子来彻底理清两者的区别。
1. 核心哲学区别
| 维度 | 极大似然估计 (MLE) | 贝叶斯估计 (Bayesian) |
|---|---|---|
| 参数观 | 参数 是固定且唯一的真值。 | 参数 是随机变量,服从某种分布。 |
| 数据观 | 数据是随机的,我们要让当前数据出现概率最大。 | 数据是确定的(观察到的),我们要据此修正对参数的认知。 |
| 依赖项 | 只看实验数据。 | 实验数据 + 先验经验。 |
| 输出结果 | 一个确定的数值(点估计)。 | 一个概率分布(后验分布)。 |
2. 举例说明:库里的投篮命中率
假设我们要估计斯蒂芬·库里(Stephen Curry)的三分命中率 。
场景:某场比赛库里手感不佳,前 3 投 0 中。
方式 A:极大似然估计 (MLE)
- 逻辑: “我只相信我眼前的看到的。”
- 计算: 既然 3 投 0 中,那么为了让这个结果发生的概率最大, 必须等于 0。
- 结论: 。
- 评价: 显然这不符合常理。如果数据量极小(只有 3 次),MLE 极易产生严重的过拟合。
方式 B:贝叶斯估计 (Bayesian)
- 逻辑: “虽然他这几球没进,但我知道他是历史射手,他平时命中率在 40% 左右。”
- 计算过程:
- 先验 (Prior): 在比赛开始前,我根据历史数据认为 服从一个中心在 0.4 附近的分布。
- 似然 (Likelihood): 这一场 3 投 0 中的数据。
- 后验 (Posterior): 结合先验和数据。因为 3 投 0 中的样本量太小,无法撼动强大的先验,计算出的后验分布中心可能微调到了 0.38。
- 结论: (这是一个分布,或者取分布的期望)。
- 评价: 更加稳健,即使在小样本下也不会给出极端荒谬的结论。
3. 数学表达的直观理解
极大似然估计 (MLE)
它寻找的是让似然函数 最大化的 : (翻译:哪个 最能解释眼前这些数据?)
贝叶斯估计
它计算的是给定数据后,参数 的概率分布 :
(翻译:结合我的老经验 和新数据 ,现在的 应该长什么样?)
4. 为什么 CS 学生要关注这个?
在你的 AI 学习路径(尤其是吴恩达的课程)中,你会发现:
- 过拟合与正则化: 当你给线性回归加上 L2 正则化(Ridge) 时,本质上你就是在做贝叶斯估计。L2 正则化相当于给模型参数加了一个“均值为 0 的高斯分布”作为先验,告诉模型:“虽然数据让你把参数调得很大,但我倾向于认为参数应该接近 0。”
- 数据量级:
- 当数据量巨大时,MLE 和贝叶斯估计的结果会趋于一致。因为强大的数据证据会抹平先验的影响。
- 当数据量稀疏时(比如医疗稀有病诊断),贝叶斯方法是救命稻草。
5. 总结对比
| 场景 | 推荐算法 | 原因 |
|---|---|---|
| 数据量极大(Big Data) | MLE | 计算简单,速度快,结果准确。 |
| 数据量很小 | 贝叶斯 | 避免极端结果,利用先验知识辅助决策。 |
| 需要知道“不确定性” | 贝叶斯 | 它能告诉你“我不确定”,而 MLE 永远只给你一个死数字。 |
既然你在学习计算机视觉和机器学习,你想了解一下在神经网络中,如何通过“Dropout”这种技术来近似模拟贝叶斯的不确定性吗?
极大似然估计
极大似然估计(Maximum Likelihood Estimation, MLE)的核心逻辑是:“既然这件事发生了,那它发生的概率一定是最大的。” 为了让你清晰地看到计算过程,我们用最基础的**“硬币模型(伯努利分布)”**来演示。虽然直觉告诉你结果是“正面次数/总次数”,但严谨的数学推导分为以下 4 个标准步骤。
1. 案例背景:不均匀的硬币
假设你手里有一枚硬币,正面朝上的概率为 (这是我们要估计的参数)。 你进行了 10 次实验,结果如下:
- 7 次正面 (H)
- 3 次反面 (T) 问题: 取什么值时,最能解释这“7正3反”的观测结果?
2. MLE 计算的四个标准动作
第一步:写出似然函数
似然函数就是“在参数 下,观察到当前这组数据”的总概率。 由于每次投掷是独立同分布的,总概率等于每次概率的乘积:
第二步:取对数得到对数似然
在数学上,直接对 求导比较麻烦(乘法导数很复杂)。因为 是单调递增函数,使 最大的 也一定会使 最大。 取对数后,乘法变加法:
第三步:求导
我们要找到这个函数的顶点,即斜率为 0 的点。对 求一阶导数:
注: 这里用到了复合函数求导法则 。
第四步:令导数为 0,解出
3. 为什么 MLE 如此重要?
在你的计算机科学和 AI 学习中,MLE 是几乎所有模型的基础:
- 线性回归: 当我们假设误差服从高斯分布(正态分布)时,使用 最小二乘法 (OLS) 得到的解,本质上就是该模型的 MLE 解。
- 逻辑回归 (Logistic Regression): 逻辑回归的损失函数(交叉熵损失)就是通过对数似然函数推导出来的。
- 深度学习: 神经网络在分类任务中使用交叉熵作为损失函数,其本质也是在最大化似然概率。
4. 总结:MLE 的“三部曲”套路
无论模型多复杂(即使是高维的高斯分布或复杂的神经网络),MLE 的计算套路永远是:
- 列概率(Likelihood)
- 取对数(Log-Likelihood)
- 求极值(Derivative = 0)
朴素贝叶斯分类计算举例
在理解了贝叶斯估计之后,再看贝叶斯分类器就会非常直观。它们的核心逻辑都是一样的:利用先验知识和观测到的证据,计算某个对象属于某一类别的概率。
1. 什么是贝叶斯分类器 (Bayesian Classifier)?
贝叶斯分类器是一个统称。它的核心思想是:对于给定的一个样本 ,我们计算它属于每一个类别 的概率 ,然后把样本划归到概率最大的那个类别中。 根据贝叶斯公式:
- (先验概率):在没看到这个样本特征之前,根据历史经验,某一类样本出现的比例。
- (似然概率):如果已知一个样本属于 类,那么它呈现出特征 的概率是多少。
- (后验概率):看到特征 后,它属于 的概率。
2. 为什么要加“朴素”两个字?(Naive Bayes)
在现实中,样本特征 通常不是单一的,而是一个向量 。 计算 (即 )极其困难。因为你要考虑特征之间所有的相关性(比如“下雨”和“阴天”是相关的),这需要海量的数据才能准确估算。 “朴素” (Naive) 的假设是: 假设所有的特征 之间相互独立,互不影响。 于是: 这个假设虽然在现实中往往不成立(所以叫它“朴素”或“天真”),但它极大地简化了计算,且在很多场景(如文本分类)中效果惊人地好。
3. 举例说明:垃圾邮件过滤
我们要判断一封含有词语 “中奖” 和 “点击” 的邮件是否为 “垃圾邮件”。
已知数据(训练集统计):
- 历史邮件中:垃圾邮件占 40% (),正常邮件占 60% ()。
- 在垃圾邮件中:出现“中奖”的概率是 0.5,出现“点击”的概率是 0.2。
- 在正常邮件中:出现“中奖”的概率是 0.01,出现“点击”的概率是 0.05。
计算步骤:
第一步:计算它是垃圾邮件 (Spam) 的概率分子: 第二步:计算它是正常邮件 (Healthy) 的概率分子: 第三步:比较并判别:
- 垃圾邮件的概率得分 (0.04) 远大于正常邮件 (0.0003)。
- 结论: 这封邮件被分类器判定为 “垃圾邮件”。
4. 常见的三种朴素贝叶斯模型
根据特征 的分布不同,我们通常使用不同的朴素贝叶斯变体:
- 高斯朴素贝叶斯 (Gaussian NB):
- 适用于特征是连续数值(如身高、体重)。
- 假设每个特征服从正态分布。
- 多项式朴素贝叶斯 (Multinomial NB):
- 适用于计数数据(如一个单词在文章中出现的次数)。
- 常用于文本分类。
- 伯努利朴素贝叶斯 (Bernoulli NB):
- 适用于布尔/二元特征(如某个词“出现”或“没出现”,不计次数)。
5. 总结:朴素贝叶斯的优缺点
- 优点:
- 速度快:计算量极小,只需统计频率。
- 对小规模数据表现良好。
- 能处理多分类任务。
- 缺点:
- 特征独立性假设:如果特征之间关联性极强(例如“广东人”和“爱吃早茶”),朴素贝叶斯的效果会打折扣。
- 零频率问题:如果某个词在训练集中没出现过,概率就会变成 0。针对这个问题,我们通常使用 “拉普拉斯平滑 (Laplace Smoothing)”(即在分子分母各加一个常数,本质上也是引入了一个先验)。
你看,这和我们之前讲的贝叶斯估计是不是串联起来了?拉普拉斯平滑其实就是给分类器加了一个“先验”,让它不要因为没见过某个词就武断地认为概率是 0。