本文已参与「新人创作礼」活动,一起开启掘金创作之路
熵:对于消息不确定性的一种度量
决策树的好处:
1.不需要依赖大数据,数据量小的时候回达到很好的效果
2.模型很容易解释
缺陷:
1.非常容易过拟合
2、决策树找到的是局部最有,因为是贪心的找最佳的信息增益
单棵树用的不多,有很多人会使用一些混合的模型,如xgboost
最好的分类器:距离分类器最近的点最远-->不容易分混淆了。这些近的点叫做支持向量。
svn通过核函数进行二维到三位的转化,就可以实现一些非常复杂的问题
效果不错,因为可以人为地去设计一些核函数。但是也因此导致这个算法很依赖特征工程,不是通用的。
神经网络:逐层抽象,渐进学习
梯度消失问题:人工神经网络训练深度太深了就没法做优化了
寒武纪生物大爆炸:据说是因为进化出了眼睛
神经网络其实就是多层感知机
激活函数的主要作用就是把一些大范围的数值归一化到0-1之间,方便评估
神经网络生成的两个过程:
1.前序传播:获得大概计算出来的y,-->每一个单元计算的东西就是做:1.通过自己的参数进行计算 2.外面套一层激活函数
全连接模型:任何一个节点和前面后面所有的节点都是连接的
2.反向传播:计算神经网络现在大概有多强,然后和答案比较,看看差距,然后进行参数调整
神经网络有这么多函数,但是为什么没有过拟合呢?
因为这个有千千万万个子模型,每一个可能都是过拟合的,如果在每一个方面都是过拟合就可以实现拟合好
drop out:
有时候训练模型的时候,会不断地通过砍掉网络中隐藏层的神经元节点,可以实现不同的学习方向实现拟合