论文笔记： U-Net: Convolutional Networks for Biomedical Image Segmentation

浅若清风cyf

2022-06-30 214 阅读4分钟

持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第30天，点击查看活动详情

Paper Information

Title: U-Net: Convolutional Networks for Biomedical Image Segmentation
Date: 2015

一、研究背景

基于深度学习的视觉识别任务：
- 大量的训练数据
- 网络结构的大小
发展方向：更大的数据集，更复杂更深层的网络
分类任务：
- 普通的分类任务：对输入图像输出单个类别的标签
- 生物医学图像识别任务：除标签以外还需要给出位置信息
生物医学图像识别任务：
- 缺少大量的训练数据
  现有方法：Ciresan等人提出滑动窗口（Sliding-window）的方法：使用每个像素周围的局部区域（patch）来预测像素的类别和标签。
  - 优点：①可定位 ②数量多，可用来训练
  - 存在问题：①速度慢（patch多，冗余）
    
    ②分割准确率与上下文关系需要平衡【大patch定位差；小patch上下文信息少】

二、本文方法概述（U-Net）

基于FCN修改
架构：【总体对称，呈现U形结构】
- 收缩网络（Contracting Network）【逐层下采样】
  
  提取图像特征，捕获上下文，图像压缩为有特征组成的feature maps
  - 上采样代替池化
  - 高分辨率特征被连接到上采样输出中（获得更加精确的定位）
  - 连续卷积层（综合学习输出信息）
  - 大量的特征通道（feature channels）（更好的传递上下文信息到更高分辨率的层）
- 扩展路径（Expansive Path）
  
  精准定位，将提取的特征解码为与原始图像尺寸一样的分割后的预测图像
①采用重叠-平铺策略（overlap-tile strategy）能够无缝分割任意大的图像

在预处理中，对输入图像进行padding，通过padding扩大输入图像的尺寸，使得最后输出的结果正好是原始图像的尺寸【如模型架构图所示，输入572×572，输出为388×388】

②对于边界缺失的数据采用镜像
数据增广
- 弹性变形（Elastic Deformations）
  
  学习细胞变形的不变性
  
  ▶数据集是细胞组织的图像，细胞组织的边界每时每刻都会发生不规则的畸变，所以这种弹性变形的增广是非常有效的。

三、U-Net模型架构【Encoder-Decoder结构】

收缩路径（contracting path）【左侧】
- 2个3×3卷积（无填充）+ReLU
- 1个2×2最大池化（步长为2的下采样）
  
  每次下采样的同时，特征通道数量加倍
扩展路径（expansive path）【右侧】
- 1个2×2的反卷积（上采样）
  
  同时特征通道减半
  
  ▶为了降低在压缩路径上损失的图像信息，还将contracting path和expanding path同尺寸的feature map进行叠加，再继续进行卷积和上采样工作，以此整合更多信息进行图像分割。
输出：最后一层将64通道的特征转化为分割图像（2类：前景（细胞）、背景）
总结：

U-Net: 采用编码和解码的结构，降采样可以增加对输入图像的一些小扰动的鲁棒性，比如图像平移，旋转等，减少过拟合的风险，降低运算量，和增加感受野的大小。升采样的最大的作用其实就是把抽象的特征再还原解码到原图的尺寸，最终得到分割结果。

四、训练

随机梯度下降法（SGD）
batch size = 1（单张图像作为输入）
高动量（high momentum（0.99））
loss function=pixel_wise softmax + cross_entropy
预计算（pre-compute）权值函数（weight map）补偿不同类别像素的频率差异，使网络更注重学习相互接触的细胞之间的小的分割边界

$w(x)=w_c(x)+w_0·e^{-\frac{(d_1(x)+d_2(x))^2}{2\sigma^2}}$
- 采用形态学操作计算分割边界
- $w_c$ 是用于平衡类别频率的权重图， $d_1$ 代表到最近细胞的边界的距离， $d_2$ 代表到第二近的细胞的边界的距离。

五、数据增广

目的：获得不变性，提高鲁棒性
不变性：平移（shift）、旋转（rotation）
鲁棒性：弹性形变（elastic deformation）、灰度变化（gray value）