机器学习之线性回归和朴素贝叶斯

330 阅读5分钟

一、概述

从大量现象中提取反复出现的规律与模式,这一过程在人工智能中的实现就是机器学习。从方法论的角度看,机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。

在机器学习中,数据并非通常意义上的数量值,而是对于对象某些性质的描述。

  1. 被描述的性质叫做属性
  2. 属性的取值称为属性值
  3. 不同的属性值有序排列得到的向量就是数据,也叫实例
  4. 数据的不同属性之间相互独立,这些属性代表不同的维度,这些维度共同构成了特征空间
  5. 每一组属性值的集合都是这个空间中的一个点,因而每个实例都可以视为特征空间的一个向量,即特征向量

在机器学习任务中,根据输入输出类型的不同,预测问题可以分为三类:

  1. 回归问题:输入变量和输出变量均为连续变量
  2. 分类问题:输出变量为有限个离散变量,个数为2即为二分类问题
  3. 标注问题:输入变量和输出变量均为变量序列

二、线性回归

线性回归:假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合中的最优系数。在众多回归分析的方法里,线性回归模型最易于拟合,其估计结果的统计特性也更容易确定,因而得到广泛应用。

假定一个实例可以用列向量 x=(x1;x2;⋯,xn) 表示,每个 xi 代表了实例在第 i 个属性上的取值,线性回归的作用就是习得一组参数 wi,i=0,1,⋯,n,使预测输出可以表示为以这组参数为权重的实例属性的线性组合。如果引入常量 x0=1,线性回归试图学习的模型就是

image.png

当实例只有一个属性时,输入和输出之间的关系就是二维平面上的一条直线;当实例的属性数目较多时,线性回归得到的就是 n+1 维空间上的一个超平面,对应一个维度等于 n 的线性子空间。

三、朴素贝叶斯

朴素贝叶斯方法:将连续取值的输入映射为离散取值的输出。其基本思想在于分析待分类样本出现在每个输出类别中的后验概率,并以取得最大后验概率的类别作为分类的输出。

假设训练数据的属性由 n 维随机向量 x 表示,其分类结果用随机变量 y 表示,那么 x 和 y 的统计规律就可以用联合概率分布 P(X,Y) 描述,每一个具体的样本 (xi,yi) 都可以通过 P(X,Y) 独立同分布地产生。

朴素贝叶斯分类器的出发点就是这个联合概率分布,根据条件概率的性质可以得到
P(X,Y) = P(Y) * P(X|Y) = P(X) * P(Y|X)
在上式中,P(Y) 代表着每个类别出现的概率,也就是类先验概率;P(X|Y) 代表着在给定的类别下不同属性出现的概率,也就是类似然概率

先验概率容易根据训练数据计算出来,只需要统计不同类别样本的数目即可。而似然概率受属性取值数目的影响,其估计较为困难。

要解决似然概率难以估计的问题,就需要“条件独立性假设”登台亮相。条件独立性假设保证了所有属性相互独立,互不影响,每个属性独立地对分类结果发生作用。这样类条件概率就变成了属性条件概率的乘积,在数学公式上可以体现为

image.png

这正是朴素贝叶斯方法的“朴素”之处,通过必要的假设来简化计算,并回归问题的本质。

有了训练数据集,先验概率 P(Y) 和似然概率 P(X|Y) 就可以视为已知条件,用来求解后验概率 P(Y|X)。对于给定的输入 x,朴素贝叶斯分类器利用贝叶斯定理求解后验概率,并将后验概率最大的类作为输出。

由于在所有后验概率的求解中,边界概率 P(X) 都是相同的,因而其影响可以忽略。将属性条件独立性假设应用于后验概率求解中,就可以得到朴素贝叶斯分类器的数学表达式

image.png

应用朴素贝叶斯分类器处理连续型属性数据时,通常假定属性数据满足正态分布,再根据每个类别下的训练数据计算出正态分布的均值和方差。

从模型最优化的角度观察,朴素贝叶斯分类器是平均意义上预测能力最优的模型,也就是使期望风险最小化。 期望风险是风险函数的数学期望,度量的是平均意义下模型预测的误差特性,可以视为单次预测误差在联合概率分布 P(X, Y) 上的数学期望。