Tip 1: tuning your learning rate

需要监测Loss vs. # parameters updates的曲线，观察前几次的曲线走向

Adaptive learning rates

Reduce the learning rate by some factor every few epochs
- 1/t decay: $\eta_t = \eta / \sqrt{t+1}$
Give differnt parameters different learning rates
- Adagrad

Divide the learning rate of each parameter by the root mean square of its previous derivatives

可以加速训练过程

what's feature scaling
why feature scaling
- before: require adaptive learning rates
- after: not require adaptive learning rates & more efficient

Taylor series