综述:监督学习指通过已知的(正确的)数据,使用算法预测并得出“正确答案”;无监督学习指通过所有大量的无类型、无归类的数据,要求找出数据的类型结构。(聚类算法(clustering algorithm):通过给大量无类型、无归类的数据,要求找出数据的类型结构;举例:社交网络分析(social network analysis),分析某用户联系最频繁的日,从而找出同一朋友圈的人)
总结第一部分课程,主要学习两个监督算法的特性与相关使用,包括Regression回归算法和Classification分类算法。
线性回归的式子:
线性回归的平方误差成本函数:
用于代表其误差
代价函数:衡量参数好坏
求出最贴近真实数据的预测曲线就是找出合适的w,b,使得代价函数J代价函数最小(误差最小,最贴合的式子)
线性模型的代价函数
如何实现代价函数最小值需要梯度下降算法(Gradient descent algorithm)(以某点为起点,找到下一步为当前点最快到达的最低处的点,不断循环,直到找到局部最小值)(代价函数的曲线图有多个局部最小值)
α学习率(learning rate):每次更新参数值时更新值的幅度大小。 学习率过小,需要多次更新;学习率过大,则有可能使参数值在更新时直接跨过局部最低值。
多元线性回归函数:有多个影响特征,并引入向量和为什么使用numpy函数快
梯度下降算法技巧:1. 特征缩放(接近于圆) 2. 均值归一Mean normalization 3. 选择合适的学习率
解出参数Θ方法:正规方程 (参数范围几千内适用)
特征工程:新特征的创建
多项式:引入二次方、三次方
运用逻辑回归处理分类问题:线性回归预测误差过大 输出结果是 y=1 的可能概率 该方法式子也称为Sigmoid函数
决策边界:挑选对应Θ,实现曲线分别将两种数据划分到两边 Θ改变。决策边界也改变
例如,
通过决策边界是否清晰分割数据类型,体现挑选的Θ是否合适
例如2
挑选
那么
Θ的选取
不能直接将代价函数照搬到分类问题中:
使用新的代价函数
通过代价函数,我们可以了解到预测值越接近于实际值,代价函数取值就越小,而且越光滑
简化后
多类别分类的思想是看作两次分类
过拟合(高偏差) & 高方差:过于合适数据
修改的方法:
- 更多的data数据
- 使用特征的一个子集(降低特征数量)
- 正则化 例子:神经网络
正则化:防止过拟合,还顺便解决正规方程中不可逆的问题
具体方法:引入一个正则项,限制参数的大小。例如对于高次项的参数,系数是乘以1000.这个方式是为了在优化损失函数时,限制θ3和θ4不会很大
扩展:正则化是对某一问题加上限制和约束以达到某种特定目的的一种手段和操作