【笔记】统计学习方法-李航1. 统计学习概念：统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测分析

一、概论

1. 统计学习

概念：统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测分析的学科。

特点：

a. 建立在计算机与网络上的；
b. 以数据为研究对象；
c. 目的是对数据进行预测与分析；
d. 以方法为中心，构建模型；
e. 涉及概率论、统计学、计算机等的交叉学科

对象：统计学习研究的对象是数据 (data) 。同类数据具有一定的统计规律性。

目的：通过构建概率统计模型对数据，特别是未知新数据，的预测与分析。

方法：监督学习、非监督学习、半监督学习和强化学习等。

步骤：

a. 得到一个有限的训练数据集合；
b. 确定包含所有可能的模型的假设空间，即学习模型的集合；
c. 确定模型选则的准则，即策略；
d. 实现求解最优模型的算法，即算法；
e. 选择最优的算法；
f. 利用最优模型对新数据进行预测或分析。

三要素：模型、策略、算法

2. 统计学习的分类

2.1 基本分类

监督学习(Supervised Learning)

从标注数据中学习预测模型的机器学习问题。

输入\输出空间：输入\输出所有可能取值的集合。

特征空间：所有特征向量存在的空间，特征空间的每一维对应于一个特征，与输入空间不一定相同，实例从输入空间映射到特征空间；模型实际上都是定义在特征空间上的。

假设空间：模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间。

回归问题、分类问题、标注问题

输入变量与输出变量均为变量序列的预测问题称为标注问题。

无监督学习(Unsupervised Learning)

从无标注数据中学习预测模型的机器学习问题，学习数据中的统计规律或潜在结构。

输出空间Z为隐式结构空间。

强化学习(Reinforcement Learning)

智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。

假设智能系统与环境的互动基于马尔可夫决策过程，智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。

无模型的 (model-free) 方法 :

基于策略 (policy-based) 试图求解最优策略，学习通常从一个具体策略开始，通过搜索更优的策略进行。
基于价值 (value-based) 试图求解最优价值函数，学习通常从一个具体价值函数开始，通过搜索更优的价值函数进行。

半监督学习(Semi-supervised Learning)与主动学习(Active Learning)

半监督学习：利用标注数据和未标注数据学习预测模型的机器学习问题。利用未标注数据中的信息，辅助标注数据，进行监督学习，以较低的成本达到较好的学习效果。

主动学习：机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。目标是找出对学习最有帮助的实例让教师标注，以较小的标注代价，达到较好的学习效果。

2.2 按模型分类

概率模型 & 非概率模型

概率模型：决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型

非概率模型：感知机、支持向量机、 k 近邻、 AdaBoost、 k 均值、潜在语义分析、神经网络

逻辑斯谛回归既可看作是概率模型，又可看作是非概率模型。

线性模型 & 非线性模型

线性模型：感知机、线性支持向量机、 k 近邻、 k 均值、潜在语义分析

非线性模型：核函数支持向量机、 AdaBoost、神经网络

参数化模型 & 非参数化模型

参数模型：感知机、朴素贝叶斯、逻辑斯谛回归、 k 均值、高斯混合模型

非参数化模型：决策树、支持向量机、 AdaBoost、 k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配

参数化模型适合问题简单的情况，现实中问题往往比较复杂，非参数化模型更加有效。

2.3 按算法分类

在线学习(Online Learning)

在线学习是指每次接受一个样本，进行预测，之后学习模型，并不断重复该操作的机器学习。

批量学习(Batch Learning)

批量学习一次接受所有数据，学习模型，之后进行预测。

2.4 按技巧分类

贝叶斯学习(Bayesian learning)

在概率模型的学习和推理中，利用贝叶斯定理，计算在给定数据条件下模型的条件概率，即后验概率，并应用这个原理进行模型的估计，以及对数据的预测。

特点：将模型、未观测要素及其参数用变量表示；使用模型的先验分布

包括：朴素贝叶斯、潜在狄利克雷分配

核方法(kernel method)

使用核函数表示和学习非线性模型的一种机器学习方法，可以用于监督学习和无监督学习。

包括：核函数支持向量机，以及核PCA、核 k均值

3. 统计学习方法三要素

方法=模型+策略+算法

3.1 模型

--要学习的条件概率分布或决策函数

假设空间 (hypothesis space)：所有可能的条件概率分布/决策函数的集合。

假设空间通常是由一个参数向量决定的条件概率分布/函数族。

参数空间(parameter space)：参数向量取值于 n 维欧氏空间 R^n，称为参数空间。

本书中称由决策函数表示的模型为非概率模型，由条件概率表示的模型为概率模

型。

3.2 策略

--选择最优模型的准则

损失函数

预测错误程度的度量，损失函数值越小，模型越好

（1）0-1损失函数

（2）平方损失函数

（3）绝对损失函数

（4）对数损失函数

风险函数（期望损失）

损失函数的期望

这是模型f(X)关于联合分布P(X,Y)的平均意义下的损失，称为风险函数或损失函数。

学习的目标就是选择期望风险最小的模型，但由于联合分布P(X,Y)未知，R不能直接计算。

经验风险（经验损失函数）

模型关于训练集（训练样本）的平均损失

期望风险是模型关于联合分布的期望损失，经验风险是模型关于训练集样本的平均损失，根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险，所以可以用经验风险估计期望风险，但由于样本量不足，需要对经验风险进行校正，常用的策略是经验风险最小化和结构风险最小化。

经验风险最小化(empirical risk minimization, ERM)

经验风险最小的模型是最优的模型。

即求解最优化问题: （F是假设空间）

当样本容量足够大时，经验风险最小化能保证很好的效果，在实际中被广泛采用，比如极大似然估计；而当样本量很小时，会产生“过拟合”现象。

结构风险最小化(structural risk minimization, SRM)

是防止过拟合的策略，等价于正则化，在经验风险上加了表示模型复杂度的正则化项或罚项，定义为：

J(f)为模型的复杂度，是定义在假设空间F上的泛函；模型越复杂，复杂度函数J(f)就越大，反之则越小，复杂度表示了对复杂模型的惩罚；结构风险小需要经验风险与模型复杂度同时小，结构风险小的模型往往对训练数据及未知的测试集都有较好的预测；贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子。

3.3 算法

--学习模型的具体计算方法，通常为最优化问题的求解

4. 模型评估与模型选择

4.1 训练误差与测试误差

--都是基于损失函数的误差

训练误差：模型关于训练集数据的平均损失（N是训练样本容量）

测试误差：模型关于测试集数据的平均损失（N'是测试样本容量）

4.2 过拟合与模型选择

过拟合是指学习时选择的模型所包含的参数过多，以至出现这一模型对己知数据预测得很好，但对未知数据预测得很差的现象。

模型选择旨在避免过拟合并提高模型的预测能力。

5. 正则化与交叉验证

5.1 正则化(regularization)

模型选择的典型方法是正则化。

正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项 (regularizer)或罚项 (penalty term) 。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。

常见的有L1，L2正则化，具体公式、优势与区别见：

juejin.cn/post/684490…

5.2 交叉验证(cross validation)

另一种常用的模型选择方法。

将数据集分为训练集、验证集和测试集，训练集用于训练模型，验证集用于模型选择，测试集用于最终学习方法的评估。在学到的不同复杂度的模型中，选择对验证集有最小预测误差的模型。

（1）简单交叉验证：随机将数据分为两部分，一部分训练集，一部分测试集（通常70%，30%），然后在各种条件（如不同的参数个数）训练模型，在测试集上评价各个模型的测试误差，选出测试误差最小的模型。

（2）S折交叉验证：随机将数据分为S个互不相交的大小相同的子集，然后用S-1个子集的数据训练模型，余下的测试，这一过程对可能的S种选择重复进行，最后选出S次测评中平均测试误差最小的模型。

（3）留一交叉验证：是S折交叉验证的特殊情况，S=N（样本容量），每次只留一个样本测试，用于数据缺乏的情况。

6. 泛化能力

--由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。

6.1 泛化误差(generalization error)

如果学到的模型是f，那么用这个模型对未知数据预测的误差即为泛化误差。

事实上，泛化误差就是所学习到的模型的期望风险。

6.2 泛化误差上界(generalization error bound)

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的，简称为泛化误差上界。

性质：

样本容量的函数，当样本容量增加时，泛化上界趋于 0;
假设空间容量的函数，假设空间容量越大，模型就越难学，泛化误差上界越大。

7. 生成模型与判别模型

监督学习方法又可以分为生成方法(generative approach)和判别方法 (discrimina-tive approach)。所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)。

生成模型

由数据学习联合概率分布P(X,Y), 然后求出条件概率分布P(Y|X)作为预测的模型，即：

P(Y|X) = P(X, Y) / P(X)

这类方法之所以称为生成方法是因为模型表示了给定输入X产生输出Y的生成关系，典型的生成模型有朴素贝叶斯法和隐马尔科夫模型。

特点:

可以还原出联合概率分布P(X, Y)；
学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快地收敛于真实模型；
当存在隐变量时，仍可以用生成方法学习。

判别模型

由数据直接学习决策函数f(X)或者条件概率分布P(YIX)作为预测的模型，即判别模型。

判别方法关心的是对给定的输入X，应该预测什么样的输出Y。典型的判别模型包括：k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。

特点:

直接学习条件概率P(YIX)或决策函数f(X)，直接面对预测，通常学习准确率更高；
由于直接学习P(YIX)或f(X)，可对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

8. 监督学习应用

分类问题、标注问题、回归问题

8.1 分类问题

输入变量X是离散或连续的；输出变量Y取有限个离散值。

分类器( classifier )：监督学习从数据中学习一个分类模型或分类决策函数；

分类(classification)：分类器对新的输入进行输出的预测；

类别(class)：可能的输出。

分类器的性能评价指标一般是分类准确率 (accuracy)；定义为：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。对于二类分类问题常用的评价指标是精确率(precision)与召回率(recall)。

8.2 标注问题

目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测；标注问题是分类问题的一个推广。

输入：观测序列；输出：标记序列或状态序列。

注意，可能的标记个数是有限的，但其组合所成的标记序列的个数是依序列长度呈指数级增长的。

标注模型评价指标与分类模型一样，常用的有标注准确率、精确率和召回率。

常用方法：隐马尔可夫模型、条件随机场。

常用领域：信息抽取、自然语言处理

8.3 回归问题

预测输入变量(自变量)和输出变量(因变量)之间的关系。

回归模型：表示从输入变量到输出变量之间映射的函数。

回归问题的学习等价于函数拟合：选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据。

分类：

输入变量的个数：一元回归 & 多元回归
输入变量和输出变量之间关系的类型(模型的类型)：线性回归 & 非线性回归

最常用的损失函数：平方损失函数（此时可由最小二乘法求解）

第二章、感知机 (perceptron)

二类分类的线性分类模型。

输入：实例的特征向量；输出：实例的类别（+1 和一 1）

感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面。

1. 感知机模型

感知机模型的假设空间是定义在特征空间中的所有线性分类模型。

2. 感知机学习策略

2.1 数据集的线性可分性

线性可分数据集：存在某个超平面S能够将数据集的正负实例点完全正确地划分开。

2.2 感知机学习策略

学习策略：定义(经验)损失函数并将损失函数极小化。

损失函数：误分类点到超平面 S 的总距离

输入空间中任一点 x0 到超平面 S 的距离: (||w||是w的L2范数)

对于误分类的数据 (xi，yi)，-yi * (w * xi + b) > 0

则所有误分类点到超平面 S 的总距离为：

不考虑||w||就可得到感知机学习的损失函数：（M为误分类点的集合）

该损失函数就是感知机的经验风险函数。

2.3 感知机学习算法

感知机学习算法的原始形式

感知机学习算法是对以下最优化问题的算法；求参数w，b，使其为以下损失函数极小化问题的解：

感知机学习算法是误分类驱动的，具体采用随机梯度下降法。

极小化过程中每次随机选取一个误分类点使其梯度下降。

算法的收敛性

--证明对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。

定理表明，误分类的次数 k 是有上界的，经过有限次搜索可以找到将训练数据完全正确分开的分离超平面。

感知机学习算法的对偶形式

与原始形式的区别在于将w和b表示为xi、yi的累积形式，alpha=学习率*ni，ni是数据xi被作为误分类点的次数。

第三章、k近邻法(k-nearest neighbor, k-NN)

--一种基本分类与回归方法；不具有显式的学习过程

输入：实例的特征向量，对应于特征空间的点

输出：实例的类别，可多类

实际上利用训练数据集对特征向量空间进行划分，井作为其分类的"模型 "。

三个基本要素：k 值的选择、距离度量、分类决策规则

1. k 近邻算法

给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 k 个实例，这 k 个实例的多数属于某个类，就把该输入实例分为这个类。

k 近邻法的特殊情况是 k=1 的情形，称为最近邻算法。

2. k近邻模型

k 近邻法使用的模型实际上对应于对特征空间的划分。

模型由三个基本要素一一距离度量、 k 值的选择、分类决策规则决定。

2.1 模型

k 近邻法中，若训练集、距离度量、 k 值、分类决策规则)确定，则新的输入实例所属的类唯一地确定。即，将特征空间划分为子空间，确定子空间里的每个点所属的类。

2.2 距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。越相似距离越近，实例相同则距离为0。

常用欧氏距离，但也可以是其他距离：如曼哈顿距离，更一般的Lp距离，Minkowski 距离。

欧式距离(Euclidean distance)：p = 2

曼哈顿距离(Manhattan distance) : p = 1

不同的距离度量所确定的最近邻点是不同的。

2.3 k值的选择

k 值的选择会对 k 近邻法的结果产生重大影响。

如果k很小，“学习”的近似误差（训练误差）会小，但"学习"的估计误差（预测误差）会大，即模型复杂导致过拟合。可理解为参考的样本太少，对近邻实例点非常敏感，若近邻点刚好是噪声，预测就会出错。

如果k很大，近似误差会很大，与输入实例较远的训练实例也会影响预测。最大就是整个训练集，这时每次预测结果均为数量最多的那个类别。模型过于简单，可能欠拟合。

所以选k很重要，一般取一个比较小的值。通常采用交叉验证方法来选取最优的k值。

2.4 分类决策规则

大多采用多数表决，即由输入实例的 k 个邻近的训练实例中的多数类决定输入实例的类。

3. k近邻法的实现: kd树

目标是实现快速k近邻搜索。

一般的线性搜索是直接计算输入实例与每一个训练实例的距离，当训练数据量大或特征空间维度高时，线性搜索计算量很大。

3.1 构造kd树

kd 树是一种对 k 维空间中的训练实例点进行存储以便对其进行快速检索的树形数据结构。

kd树为二叉树，构造 kd 树相当于不断用垂直于坐标轴的超平面将 k 维空间切分，不断将示例划分为两半，直到子空间中没有示例。通常，依次选择坐标轴对空间切分，并选择训练实例的中位数为切分点，得到平衡 kd 树。但平衡的效率未必最优。

3.2 搜索kd树

平均计算复杂度为O(logN)，N是训练实例数。更适用于训练实例数远大于空间维数时的 k 近邻搜索。

第四章、朴素贝叶斯法(naïve Bayes)

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

1. 朴素贝叶斯法的学习与分类

1.1 基本方法

X是定义在输入空间上的随机向量，Y是定义在输出空间上的随机向量，训练数据集由P(X, Y)独立同分布产生。

朴素贝叶斯法通过训练数据集学习联合概率分布P(X, Y)。通过学习先验概率分布和条件概率分布，从而学习到联合概率分布。朴素贝叶斯法学习生成数据的机制，属于生成模型。

但条件概率分布有指数级数量的参数(x, y的取值数乘积)，其估计实际是不可行的。

朴素贝叶斯法对条件概率分布作了条件独立性的假设，即用于分类的特征在类确定的条件下都是条件独立的：

朴素贝叶斯分类器：

1.2 后验概率最大化的意义

朴素贝叶斯的原理：

后验概率最大化准则可由期望风险最小化准则推得，二者等价。

2. 朴素贝叶斯法的参数估计

2.1 极大似然估计

先验概率P(Y = ck)的极大似然估计：

条件概率P(X^(j) = ajl | Y = ck)的极大似然估计:

2.2 学习与分类算法

2.3 贝叶斯估计

极大似然估计可能会导致估计概率值为0，影响后验概率的计算，使分类产生偏差。

因此，需要采用贝叶斯估计：

等价于在随机变量各个取值的频数上赋予一个正数 λ。当 λ=0 时就是极大似然估计；常取 λ= 1，称为拉普拉斯平滑 (Laplacian smoothing) 。此时估计仍为一种概率分布。

第五章、决策树(decision tree)

决策树模型呈树形结构，可理解为 if-then 规则的集合，也可理解为定义在特征空间与类空间上的条件概率分布。

优点：模型可读性、分类速度快

学习步骤：特征选择、决策树的生成、决策树的修剪

1. 决策树模型与学习

1.1 决策树模型

定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型：内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性，叶结点表示一个类。

1.2 决策树与 if-then 规则

可将决策树看成一个 if-then 规则的集合。由根结点到叶结点的每一条路径可构建一条规则：路径上内部结点的特征对应规则的条件，叶结点的类对应规则的结论。该规则集合具有互斥且完备的性质。

1.3 决策树与条件概率分布

决策树表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分(partition) 上。将特征空间划分为互不相交的单元，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。
决策树的每条路径对应一个单元，每个单元内的条件概率分布往往属于某一类的概率偏大，因此往往将落到这个单元里的示例都分到该类中。

1.4 决策树学习

决策树学习的目标是根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。决策树学习本质上是从训练数据集中归纳出一组分类规则。想要找到的是一个与训练数据误差较小且泛化能力好的决策树模型。

损失函数通常是正则化的极大似然函数；学习策略是以损失函数为目标函数的最小化。

由于选择最有决策树是NP完全问题，所以其学习算法通常采用启发式方法近似求解，得到次最优(sub-optimal)的决策树模型。

决策树的学习通常是递归地选择最优的特征将其作为父节点将实例进行切分，当切分后的实例基本被正确分类后建立对应类的叶节点，但是这样的决策树可能过拟合仅对训练数据分类效果较好，所以需要进行自下而上的剪枝，使其具有更好的泛化能力。当特征很多时需要在学习开始时进行特征选择。

决策树的生成对应于模型的局部选择，决策树的剪枝对应于模型的全局选择。因此，生成只考虑局部最优，剪枝则考虑全局最优。

2. 特征选择

2.1 特征选择问题

选取对训练数据具有分类能力的特征，提高决策树学习效率。特征选择的准则通常是信息增益或信息增益比。

2.2 信息增益

熵(entropy)是表示随机变量不确定性的度量，定义为：0 <= H(p) <= logn其中log以2为底时熵的单位为比特(bit)，以e为底时单位为纳特(nat)。熵只与X的分布相关与X的取值无关，所以也可写为H(p)。熵越大，随机变量的不确定性越大，H(p)是关于p的凸函数。

条件熵(conditional entropy)H(YIX)表示在己知随机变量X的条件下随机变量Y的不确定性。当熵中的概率由数据估计得到时，应分别称为经验熵和经验条件熵。

信息增益(information gain)表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

信息增益等价于训练数据集中类与特征的互信息。

决策树采用信息增益准则选择特征，即选择那些信息增益较大的特征。

| * |表示*的个数。设训练数据集为D，可分为K个类Ck；特征A有n个不同的取值，可根据A的取值将D划分为n个子集Di；而子集Di中属于类Ck的样本的集合为Dik。

2.3 信息增益比

特征选择的信息增益准则偏向于选择取值较多的特征。而使用信息增益比(information gain ratio)可以校正这一问题。

3. 决策树的生成

3.1 ID3 算法

应用信息增益准则选择特征，递归地构建决策树。

ID3 算法只有树的生成，所以该算法生成的树容易产生过拟合。

3.2 C4.5 的生成算法

C4.5算法是ID3算法的改进；C4.5应用信息增益比来选择特征。

4. 决策树的剪枝

生成决策树时过多地考虑如何提高对训练数据的正确分类，而构建出过于复杂的决策树，因此需要通过剪枝(pruning)来降低树的复杂度，改善过拟合现象。具体地，剪枝从己生成的树上裁掉一些子树或叶结点，并将其根结点或父结点作为新的叶结点，从而简化分类树模型。

决策树的剪枝往往通过极小化决策树整体的损失函数(loss function)或代价函数(cost function)来实现。

t是树T的叶结点，该叶结点有Nt个样本点，其中k类的样本点有Ntk个，Ht(T)为叶结点t上的经验熵，α >= 0为参数，则决策树学习的损失函数定义为：C(T)表示模型与训练数据的拟合程度，ITI表示模型复杂度，参数α控制两者之间的影响。

损失函数表示了对拟合程度与复杂度的平衡。利用损失函数最小原则进行剪枝就是用正则化的极大似然估计进行模型选择。

5. CART算法

5.1 CART生成

决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方误差最小化准则，对分类树用基尼指数(Gini index)最小化准则，进行特征选择，生成二叉树。

回归树的生成

分类树的生成

算法停止计算的条件是结点中的样本个数小于预定阀值，或样本集的基尼指数小于预定阔值(样本基本属于同一类)，或者没有更多特征。

5.2 CART剪枝

首先自下而上不断剪枝，得到一个子树序列，然后通过交叉验证法从序列中选择最优子树。

第六章、逻辑斯谛回归(logistic regression)与最大熵模型(maximum entropy model)

分类模型、对数线性模型

学习算法：迭代尺度算法、拟牛顿法

6.1 逻辑斯谛回归模型

1.1 逻辑斯谛分布

1.2 二项逻辑斯谛回归模型(binomial logistic regression model)

分类模型，由条件分布概率P(Y | X)表示；随机变量X取值为实数，随机变量Y取值为1 / 0。

几率（odds）：事件发生的概率与事件不发生的概率的比值，即 p / 1-p（事件发生概率p）

对数几率（log odds）：logit(p) = log(p / 1 - p)

在逻辑斯谛回归模型中，输出Y = 1的对数几率是输入x的线性函数：

由此可推导出二项逻辑斯谛回归模型：有时为了方便会将权值向量w和输入向量x加以扩充，w最高维扩充为b，x最高维扩充为1，此时w * x + b变为w * x。

在模型中可以看出，w * x线性模型值越接近于正无穷，P(Y = 1 | x)概率值越接近1，反之线性模型值越接近于负无穷，概率值越接近0。

1.3 模型参数估计

极大似然估计法

问题转化为以对数似然函数为目标函数的最优化问题，通常采用梯度下降法和拟牛顿法学习。

1.4 多项逻辑斯谛回归(multi-nominal logistic regression model)

多类分类模型

6.2 最大熵模型(maximum entropy model)

2.1 最大熵原理

熵最大的模型是最好的模型，故在满足约束条件的模型集合中选择熵最大的模型。

当随机变量X均匀分布时，熵最大（熵的定义见5.2.2）。最大熵原理：模型在满足约束条件且没有更多信息的情况下，认为不确定部分都是“等可能的”，最大熵原理通过熵的最大化来表示等可能性。

2.2 最大熵模型的定义

约束条件的具体定义：

2.3 最大熵模型的学习

最大熵模型的学习等价于以下约束最优化问题 -> 等价的求最小值问题：

利用拉格朗日对偶性将约束最优化原始问题转化为无约束最优化对偶问题：其中，L(P, w)为拉格朗日函数：（w0, w1, w2, ... , wn是拉格朗日乘子）

具体求解步骤：

先求解拉格朗日函数关于P的极小化问题，求L(P, w)对P(y|x)的偏导并令偏导数为0，求得P(y|x)，重新带入L(P, w)，此时L(P, w)中只存在未知数w即L(Pw, w)。

求解此时拉格朗日函数关于w的极大化问题，求L(Pw, w)对w0, w1, w2, ... , wn的偏导并令偏导数为0，于是可求得所需概率分布解。

2.4 极大似然估计

证明对偶函数的极大化等价于最大熵模型的极大似然估计。从而可将最大熵模型写为更一般的形式：

最大熵模型与逻辑斯谛模型都可称为对数线性模型，其学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

6.3 模型学习的最优化算法

最大熵模型与逻辑斯谛回归模型的学习都可归结为以似然函数（光滑的凸函数）为目标函数的最优化问题，通常通过迭代算法求解：改进的迭代尺度法、梯度下降法、牛顿法、拟牛顿法。

3.1 改进的迭代尺度法(improved iterative scaling, IIS)

f#(x, y)表示所有特征在(x, y)出现的次数。

若f#(x, y)不是常数，则可使用牛顿法通过数值计算迭代求解delta i；迭代公式为：牛顿法收敛速度很快。

3.2 拟牛顿法

其中g(w)为梯度：

第七章、支持向量机(support vector machines, SVM)

基本模型：定义在特征空间上的间隔最大的线性分类器；通过核技巧变为实质上的非线性分类器。

学习策略：最大化间隔

7.1 线性可分支持向量机与硬间隔最大化

1.1 线性可分支持向量机

二分类问题，数据线性可分。

1.2 函数间隔和几何间隔

函数间隔：（当w / b同时倍乘时，超平面不变但函数间隔翻倍，因此需要规范化为几何间隔）

1.3 间隔最大化

以充分大的确信度对训练数据集进行分类，即不仅正负样本完全分开并且对距离分类平面最近的点也有足够的确信度分开。

1）最大间隔分离超平面

2）最大间隔分离超平面的存在唯一性

若训练数据集T线性可分，则可将数据集中的样本点完全正确分开的最大间隔分离超平面存在且唯一。

3）支持向量和间隔边界

支持向量：与分离超平面距离最近的样本点的实例

在绝对分离超平面时只有支持向量起作用 -> 支持向量机

1.4 学习的对偶算法

7.2 线性支持向量机与软间隔最大化

2.1 线性支持向量机

2.2 学习的对偶算法

2.3 支持向量

2.4 合页损失函数

7.3 非线性支持向量机与核函数

3.1 核技巧

3.2 正定核

3.3 常用核函数

3.4 非线性支持向量分类机

7.4 序列最小最优化算法

4.1 两个变量二次规划的求解万法

4.2 变量的选择方法

4.3 SMO算法