深度学习基础1.卷积神经网络CNN卷积核使用3*3的滤波器的时候，处理速度较快，使用多个卷积核（内积）提取特征，使提取的

1.卷积神经网络CNN卷积核使用3*3的滤波器的时候，处理速度较快，使用多个卷积核（内积）提取特征，使提取的特征具有多样性，对于图像来说，不同通道的色值与对应的卷积核中的层做内积，然后不同通道的结果相加再加上偏置，得到一个标量值。在卷积神经网络CNN）中，下采样通常通过池化层实现，如最大池化或平均池化，以减少特征图的尺寸，提高计算效率和防止过拟合。卷积神经网络比较简单，灵活易于拓展。在具体做图像分类任务时候，用CNN、激活函数和池化作为block进行特征提取，默认的有权重参数的才算一层（池化不能算一层），所以常用的网络中6 + 1层，最后一层是全连接（FC）部分，作为分类的输出。
2.Batch Normalization是数据归一化方法，往往用在深度神经网络中激活层之前，进行特征对齐
3.resnet 何凯明，至少不比原来差。
4.2012 word2vec , RNN解决不了长序列，不并行，是串行的，
5.transform 将不突出的特征突出出来，里面的Q，K都是经过全连接训练得到， V是实际的特征信息，dk 向量维度， $√￣dk$ 不让分值随着向量维度的增大而增大，在自注意机制中，对于固定的词来说，放在那个位置编码都一样，所以需要有额外的位置信息，输入经过self-Attention之后维度不变，提取出特征V，当decoder的时候，会产生q,各个q之间也会进行计算（例如得到q1,如果得到q2,q2还需要计算与q1的关系，得到q3,q3还需要计算与q1,q2的关系），并使用encoder产生的k 和 v,在decoder中使用到encoder的内容，称为cross-attetion。transform可以看做是特征提取,不仅在语义理解，也能处理图像。
1. warmup 学习率刚开始比较小，逐渐增加，再减小
1. 业务场景和数据集可以去kaggle上找，天池竞赛可以看别人的解决方案
8.MMselfSup是一个基于pytorch实现的开源自监督表征学习工具箱，MIM : Masked image modeling
1. 面向工具包编程，nn 神经网络