图像分类——计算机视觉期末复习

2024-06-25 457 阅读2分钟

图像分类 & 线性模型

计算机视觉中的图像识别任务

分类 (Classification)：判断图片或视频中包含的目标类别。
定位 (Location)：确定目标的位置。
检测 (Detection)：同时确定目标的位置和种类。
分割 (Segmentation)：分为实例分割和场景分割，确定每个像素属于哪个目标物或场景。

目标检测算法

MultiBox
YOLO (You Only Look Once)
Faster R-CNN
SSD (Single Shot MultiBox Detector)

图像分割

基于阈值的分割方法

图像分类

统计学习框架：使用预测函数在图像的特征表示上得到所需输出。
基本流程：输入图像 → 预处理 → 特征提取 → 学习算法 → 类标

机器学习定义

根据Tom Mitchell (1998)，机器学习是程序通过经验改进任务性能的过程。

误差和损失函数

损失函数类型：均方损失、绝对值损失、二值损失。
优化问题：最小化训练误差，同时避免过拟合和欠拟合。

主要的分类策略

最/K近邻分类 (KNN)

线性模型
- 决策函数/判别函数
- 决策边界/平面
- 线性回归
- 损失函数和最优化问题
- 梯度下降法和随机梯度下降法

多类分类

将分类问题看作条件概率估计问题。

Logistic Regression

Logistic函数
交叉熵损失
Softmax回归

支持向量机 (SVM)

间隔与支持向量
线性不可分问题
核支持向量机
核函数
软间隔

总结

图像分类基本流程：预处理、特征提取、机器学习。
分类策略：KNN、线性分类、Logistic回归、Softmax、SVM。
图像分类实践：数据集划分、性能指标。

课后作业

介绍Canny、Sobel、Prewitt边缘检测和Harris角点检测的详细步骤并比较。
推导Prewitt和Laplacian算子。
计算给定灰度图的二阶矩和LBP值。

参考资料

列出了计算机视觉领域的相关书籍和资源链接。