1. 图像分类
将不同的图像,划分到不同的类别,实现最小的分类误差。
对于二分类问题,图像分类可以分为跨物种语义级图像分类
、子类细粒度图像分类
、实例级图像分类
三大类别。
深度学习方法:
ImageNet竞赛:
- 2012年:
Alexnet
- 2014年:
VGG
- 2014年:
GoogleNet
,也被称为Inception Model
- 2015年:
ResNet
- 2016年:
ResNeXt
- 2017年:
senet
方向特点:
在实际应用中,存在着一些问题:样本不均衡、分类界面模糊、未知类别等。
2. 目标检测
分类任务给出的是整张图片的内容描述,而目标检测人去则关注图片中特定的目标。
检测任务包含两个子任务:
- 其一是这一目标的类别信息和概率(分类任务)
- 其二是目标的具体位置信息(定位任务)
目标检测算法一定会有三个模块:
- 第一个是
检测窗口的选择
- 第二个是
图像特征的提取
- 第三个是
分类器的设计
深度学习方法:
需要解决区域选择、提取特征、分类回归三个问题。
在实际演变过程中,发展成了两种方法。multi-stage
方法:分步骤完成上面的任务;one-stage
方法:一步到位。
RCNN
:multi-stage典型代表。Fast R-CNN
YOLO
:one-stage典型代表。
方向特点:
固有难题:小脸、遮挡、大姿态
研究小方向:多尺度与级联网络的设计、难样本的挖掘、多任务loss
3. 图像分割
把图像分割成具有相似的颜色或纹理特性的若干子区域,并使他们对应不同的物体或物体的不同部分的技术。这些子区域,组成图像的完备子集,又相互之间不重叠。
深度学习方法:
全卷积神经网络是第一个将卷积神经网络正式用于图像分割问题的网络。
方向特点:
关键技术:反卷积的使用,多尺度特征融合、CRF等。
4. 目标跟踪
对视频中运动目标的跟踪,跟踪的结果通常就是一个框。
分类:生成式模型方法
和判别式模型方法
。
生成式模型跟踪算法
:以均值漂移目标跟踪方法和粒子滤波目标跟踪方法为代表。
判别式模型跟踪算法
:以相关滤波目标跟踪方法和深度学习目标跟踪算法为代表。
5. 图像滤波与降噪
现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为噪声图像。
减少数字图像中的噪声的过程称为图像降噪。
降噪可应用于图像增强
和美颜
等领域。
深度学习方法:
输入一张有噪声的图,标签是一张无噪声的图,输出是一张降噪后的图,损失函数是无噪声groundtruth与网络输出的L2距离,网络通常就是与图像分割算法一样的网络,卷积+与之对称的反卷积。
6. 图像增强
增强图像中的有用信息,改善图像的视觉效果。
对比度增强,用于扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,可用于改善图像的识别效果,满足某些特殊分析。
超分辨,使图像变得更加清晰,可以用于视频的传输先进行降采样,再进行升采样,即降低了传输成本,又增加了视觉效果。
图像修复,重建图像和视频中丢失或损坏的部分,也被称为图像插值或视频插值,主要是替换一些小区域和瑕疵,如photoshop中的印章工具。随着发展,已经从原先针对划痕、污点等的修复到现在对图像、视频中文字、物体等的移除,比如水印等。
深度学习方法:
以增强对比度为例,深度学习方法使用了CNN来进行非线性变换的学习,而且通常不仅仅局限在对比度增强,经常会同时学习到降噪。深度学习的方法有两种,一种是采用成对的图片训练,比如pix2pix,learning in the dark,缺点是没有普适性,只能对所实验的数据集有用。一种是不需要成对图片训练,只需要好图,比如WESPE,常配合GAN使用。7. 风格化
通过算法,将数码相机拍摄的照片,变成绘画、素描等艺术类的非数码相机效果,是后期程度最深的操作,将彻底改变相片的风格。
8. 三维重建
是建立真实世界的三维模型。随着软硬件的成熟,在电影,游戏,安防,地图等领域,三维重建技术的应用越来越多。目前获取三维模型的方法主要包括三种,手工建模,仪器采集与基于图像的建模。
9. 图像检索
早期:利用文本来描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。 基于内容的图像检索:对图像的颜色、纹理、布局等进行分析和检索。
10. GAN
GAN的原理很简单,它包括两个网络,一个生成网络,不断生成数据分布。一个判别网络,判断生成的数据是否为真实数据。