本文已参与「新人创作礼」活动,一起开启掘金创作之路。 卷积不会导致维度发生变化(因为会填充),但是池化会
如何防止过拟合:
1.l1正则
2.l2平方
3.早停(得到实验数据和显示数据命中率的函数,发现过拟合就停止迭代
4.数据增强:
用处1.增大数据量(通过增加噪音
用处2.防止过拟合(加了噪音让1个4变成很多不同的变形的4
迁移学习:
从识别猫狗到识别汽车:
神经网络前几层识别线条、现状的网络是一样的,可以共用的,最后再加几层就可以实现不同的功能
模型蒸馏
最开始用做模型压缩的,后来是做模型之间的知识传递
循环神经网络
RNN,主要功能就是有记忆对于上一时刻的数据产生记忆,对短期记忆比较好,但是没有长期记忆了和
一个词看成一个向量,通过向量决定特定维度上的向量距离决定词义的相近性。
lstm,之前rnn因为经过激活函数,出现了梯度消失,所以分为两块,一个是用过激活函数的做短期记忆,用没做过激活函数的做长期记忆。
gru,所有的记忆都存储在长期记忆中,不用短期记忆了。
双向rnn,从未来来和从过去来
多层rnn,一层理解词语之间的关系,一层理解段落之间的关系
autoencoder
输入x,输出x,可以实现无监督地编码,可以用来压缩,或者没有见过异常的时候发现异常
谷歌deep & wide网络:
推荐系统主要的问题就是记忆和探索问题的兼顾
就是做了两个网络,一个是浅浅的网络做探索,另外一个深的神经网络做推荐