1.数据增强 对图片可以进行裁剪,色调变换,亮度变换,(亮度,对比度,饱和度,和色调) 2.预训练 + 微调 底层的特征更加通用,高层次的特征更跟数据集相关 3.统计模型 , 优化算法
4.图像检测:数据集COCO,边缘框:图像真实的位置,锚框:计算机预测的位置, 目标检测步骤:1).提出多个被称为锚框的区域(边缘框)2).预测每个锚框里面是否含有关注的物体(将每个锚框要么标注成背景,要么关联上一个真实的边缘框) 3).如果是,预测从这个锚框到真实边缘框的偏移。(至少找到一个锚框跟边缘框关联起来,)NMS:非极大值抑制,主要用来合并相似的预测,(选中是非背景类的最大预测值,去掉所有其他和它IOU值大于θ的预测) 总体来说: 首先生成大量锚框,并赋予标号,每个锚框作为一个样本进行训练,在预测时,使用NMS来去掉冗余的预测。
5.w,h为宽高 s为锚框大小, r为锚框的高宽比,生成以每个像素为中心具有不同形状的锚框
启发式搜索算法选择锚框,ROI 物体检测 RCNN -> Fast RCNN -> Faster R-Cnn (分两个stage) -> mask R-cnn (精度高,效率低) 单stage SSD 物体检测: Yolo系列 , DETR
6.告别框框,进行语义分割 语义分割数据集: Pascal VOC2012 语义分割对每个像素做分类
7.转置卷积:它通常用来作上采样,只是形状转置,值(大小)不恢复
8.对见过的数据建模,称为自回归模型 马尔可夫假设: 假设当前数据只跟T个数据相关, 潜变量模型:使用潜变量来概括历史信息,RNN是潜变量模型
9.语言模型:n元语法(一元,二元,三元...)语言模型(基于马尔可夫)
10.潜变量自回归模型 -> 循环神经网络 hidden latent 困惑度, 梯度裁剪
11.query 通过注意力机制有偏向性的选择某些输入,