Andrew Ng的第二阶段学习

114 阅读2分钟

1 引言

这一阶段主要学习了Gradient Descent、Feature Scaling、Logistic Function这三块的内容,听Andrew的课确实是一种十分的享受,一开始是一倍速(但实际上他讲的东西我基本学过了,感觉前期还是比较浪费时间,后来早上开了1.5倍速食用起来更香了!📵

2 精髓学习

基本的机器学习框架:

  • model
  • parameters
  • cost function
  • objective

基本的梯度下降框架:

  • Start with some w0,b0w_{0},b_{0}
  • keep changing w ,b to reduce J(w,b)J(w,b)
  • until we settle at or near mininum

当时给出的情景是如何快速下山,我觉得就很不错,我们人类总是会倾向于选择如何快速到达山脚(这里的山脚也就是global mininum,但可以理解的是,第一步下降是最快的,因为我们采取最优策略,后面会比前一步斜率小)

放张有意思的图:

2023-04-30 20 50 00.png

而后将注意力可以聚焦到如何选取何时的初值,让这个梯度下降可以更接近,这里考察就是自身对于初值的评估以及涉及到一些重要的Feature Scaling技术。

  • 平均归一化

    • xi=xi均值maxminx_{i}=\frac{x_{i}-均值}{max-min}
  • Z-score Normalization

    • xi=xi均值σix_{i}=\frac{x_{i}-均值}{\sigma_{i}}

下图同样介绍了以一个迭代的随机梯度下降算法的可视化解释,可以很自然发现,如果做了一定的归一化使得变量的分布均匀,就能够使得梯度下降可以找到一条更直接的通向全局最小值的路径

2023-05-01 11 36 04.png 2023-04-30 22 05 09.png

而后又讲了Classfication部分,借助Sigmoid函数作为 fw,b(x)f_{\vec{w},b}(\vec{x}) 的映射函数,令其可以做到相比于线性回归更加成熟的二分类任务。

g(z)=11+ezg(z)=\frac{1}{1+e^{-z}}

除此之外,还讨论了对于logistic regression的cost function,并对其做了一定的Simplifie

da9f204676066931ae7f4c98c018bbd7.jpg 综合来说,我的进度还是太慢了,后续可以加快,毕竟我觉得这部分前期内容对我来说有点simple。🥳🥳🥳