开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第十四天,点击查看活动详情
总结:此文为12月更文计划第十四天第二十二篇。
第三章:线性模型
· 线性回归:试图学得一个线性模型以尽可能准确的预测实值输出标记
· 分类:即最常见的是二分类,在线性回归得出预测值之后,增加了一个“单位越界函数”
回归和分类的区别:
本质都是一致的,就是模型的拟合(匹配),但是分类问题的y值(label)更离散化一些.而且同一个y值可能对应一大批的x,这些x是具有范围的。所以分类问题更多的是(一定区域的X)对应着一个y标签。而回归问题的模型更倾向于(很小区域内的X或者一般是一个X)对应着一个y.
定义:线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合
一元线性回归:涉及到的变量只有一个 多元线性回归:涉及到的变量两个或两个以上
通用公式:ℎ(w)= w_0+w_1x_1+w_2x_2+… = w^Tx
(均方误差(Mean Squared Error)MSE) 评价机制
向量形式:
f ( x ) = w T x + b
w = ( w 1 ; w 2 ; . . . ; w d ):向量表示
线性模型优点
· 形式简单、易于建模
· 可解释性
· 非线性模型的基础
线性回归(linear regression)目的
· 学得一个线性模型以尽可能准确地预测实值输出标记
单一属性的线性回归目标:
· f ( x ) = w T x + b
参数/模型估计:最小二乘法(least square method)
最小化均方误差
分别对w ww和b bb求导,可得:
基于均方误差最小化来进行模型求解的方法为最小二乘法.
在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。
b则决定截距,当学习得到的模型恰好经过原点时,可以不考虑偏置项b。
优化提要
各任务下(回归、分类)各个模型优化的目标
· 最小二乘法:最小化均方误差
· 对数几率回归:最大化样本分布似然
参数的优化方法
· 最小二乘法:线性代数
· 对数几率回归:凸优化梯度下降、牛顿法