3. 线性模型

3.1 基本形式

线性模型试图学得一个通过属性的线性组合来进行预测的函数，即：

一般用向量形式写为：

当w和b学得后，模型得以确定

“线性回归” (linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。

线性回归试图学得：

确定w和b：均方误差是回归任务中最常用的性能度量，因此我们可试图让均方误差最小化，即

基于均方误差最小化来进行模型求解的方法称为 “最小二乘法” (least square method)。

我们希望找到能在一定程度上近似单位阶跃函数的“ 替代函数” ，并希望它单调可微，对数几率函数(简称“对率函数”)正是这样一个常用的替代函数：

“ 对数几率回归”是一种分类学习方法，这种方法有很多优点：

我们可通过“ 极大似然法” 来估计 w 和 b。

LDA 的思想非常朴素：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，冉根据投影点的位置来确定新样本的类别。

多分类学习的基本思路是“拆解法”，即将多分类任务拆分为若干个二分类任务求解。具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果．这里的关键是如何对多分类任务进行拆分，以及如何对多个分类器进行集成。

最经典的拆分策略有三种：“一对一”OvO，“一对其余”OvR，“多对多”MvM。

OvO：将N个类别两两配对，从而产生N(N-1)/2个分类问题（分类器）。在测试阶段，将新样本同时提交给所有分类器，并产生N(N-1)/2个结果，最终结果通过投票产生。
OvR：每次将一个类的样例作为正例，所有其他类的样例作为反例；从而训练N个分类器。在测试时若仅有一个分类器预测为正类，则对应的类别标记为最终分类；若有多个分类器预测为正类，则通常考虑分类器的置信度，选择置信度最大的类别标记作为分类结果。

MvM：每次将若干个类作为正类，若干个其它类作为反类。但正反类构造必须有特殊的设计，不能随便选取。这里纠错输出码（EOOC）就是一种最常见的MvM技术。ECOC工作过程分为两步：
- （1）编码：对N个类别做M次划分，每次划分将一部分化为正，一部分化为反，从而形成一个二分类训练集，这样一共产生M个训练集，可以训练M个分类器。
- （2）解码：M个分类器分别对样本进行预测，这些预测标记组成一个编码，将这个预测编码与每个类别的各自编码进行编码，返回其中距离最小的类别作为预测结果。

类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况不失一般性。

欠采样法的时间开销通常远小于过采样法，因为前者丢弃了很多反例，使得分类器训练集远小千初始训练集，而过采样法增加了很多正例，其训练集大于初始训练集。