早期视觉:SIFT & HOG
图像分类/目标识别
- 基本流程:输入图像 → 预处理 → 特征提取 → 学习算法 → 类标
多尺度表征
- 使用金字塔结构捕获全局和局部特征
- 包括高斯金字塔和拉普拉斯金字塔
梯度方向直方图 (HOG)
- 预处理:选择特定尺寸的Patch并调整大小 Patch可以是任意的尺寸,但是有一个固定的比例,比如当patch长宽比1:2,那patch大小可以是 100200, 128256或者10002000但不可以是101205
- 计算梯度图像:使用Sobel算子确定水平和垂直方向的梯度
- 在8x8网格中计算梯度直方图
- 16x16块归一化以减少光照变化的影响
一般不会在每一个91的直方图上面做归一化,而是从一个1616的块上做 归一化,也就是4个91的直方图组合成一个361的向量,然后做归一化, 接着,窗口再朝后面挪8个像素。
- 计算整个图像的HOG特征向量
SIFT (Scale Invariant Feature Transform)
- 提取具有特征尺度的关键点,这些关键点对图像变换具有协变性
- 包括关键点检测、尺度选择、关键点定位、方向确定和描述子生成
SIFT关键点检测
对图像平移、旋转和尺度鲁棒的特征
- 尺度空间极值检测
- 关键点定位
- 确定关键点方向
- 生成关键点描述子
SIFT特征描述子
- 通过尺度空间极值检测和关键点定位来确定具有独特方向的特征
- 描述子对图像变换(平移、旋转、尺度变化)具有不变性
SIFT特征应用
- 用于图像分类、目标识别、图像对齐等
实际应用
- 介绍了常用的图像特征,如Haar-like features、HOG、SIFT、SURF等
- 讨论了关键点检测和描述子在图像识别中的应用