吃瓜教程 - 线性回归

2021-11-10 461 阅读2分钟

这是我参与11月更文挑战的第9天，活动详情查看：2021最后一次更文挑战

一元线性回归

算法原理

y = wx + b - 求w和b的过程 - 求均方误差最小时的w和b[最小二乘法]/求极大似然估计

最小二乘法

求点到线平行于y轴的距离【点与线之间的误差 xi】 - 线性回归
ΣXi - 均方误差

即求均方误差最小的那条线 - 即求均方误差最小化的w和b,被称为最小二乘法

求点垂直于y轴的距离 - 正交回归

极大似然估计

求样本出现概率最大的分布

用途

求概率分布的参数值【eg: 正态分布的σ，μ】

表达式

对数似然函数

由于极大似然估计是相乘 - 可对数简化连乘项

考虑误差的极大似然估计

y = wx + b + ε
ε - 可假设为均值为0的正态分布（误差一般就在0上下浮动，中心极限定理 - 符合正态分布）
∴ - 得到ε的概率密度函数 - 将ε 用 y-wx-b代替，则得到的是y的正态分布，μ为（wx+b）

则仍然按照前面的极大似然估计法求w和b

求w和b

1. 求是凸函数

求海塞矩阵
求矩阵是否正定

分别求出四个偏导数

2. 求最值

凸函数求最值的问题

补充知识点

凸函数 - 类似⚪，圆中每两个点连成的线都在这个圆内，凹函数就不一定

机器学习中向下凹的函数是凸函数，因为是求最优解的过程

梯度 - 多元函数的一阶导数 - 求各一阶偏导数

3. 海塞矩阵 - 多元函数的二阶导数

求和转换成向量 - numpy更快求解

多元线性回归

多个特征 - x变为向量标量 - 向量求导 - 梯度 - 对各个分量求偏导

对数几率回归 - 分类算法

线性模型的基础上套一个映射函数达到分类的目的

二分类线性判别分析

算法原理

训练样本投影后：

异类样本中心尽可能远
同类样本方差尽可能小