EdgeFlow:使用 Edge-Guided Flow 实现实用的交互式分割

307 阅读9分钟

本文已参与「新人创作礼活动」,一起开启掘金创作之路。

摘要

高质量的训练数据在图像分割任务中起着关键作用.通常对于大量训练数据,像素级注释昂贵、费力且耗时.为了降低标记成本并提高分割质量,本文提出了交互式分割方法,只需点击几下即可提供结果.然而,它们的性能在速度和准确性方面不能满足实际分割任务的要求.在这项工作中,本文提出了 EdgeFlow,它通过边缘引导流充分利用用户点击的交互信息.本文的方法在没有任何后处理或迭代优化方案的情况下实现了最先进的性能.此外,本文为实际数据注释任务开发了一种高效的交互式分割工具.源代码和工具可从 github.com/PaddlePaddl… 获得.

介绍

深度学习在计算机视觉领域取得了巨大成功,例如图像识别目标检测图像分割.包含大量标签的图像数据对于模型训练过程通常是必不可少的.但是随着数据量的增加,人工标注的成本快速增长,尤其是在涉及像素级分割任务时.尽管已经提出了半监督甚至无监督的算法来缓解标签依赖性,但它们与全监督的准确性仍有很大差距.因此,交互式分割是一种有吸引力且有效的方式 .与以模型为中心的方法不同,交互式分割方法考虑了交互式信息.交互信息可以是各种输入,如涂鸦 、点击、边界框等.其中基于点击的方法是最有前途的,因为它们以最少的交互时间提供了足够的选定对象信息.基于点击的方法通常使用两种类型的用户点击,即正面点击和负面点击.如图 1 所示,正面点击旨在强调目标对象(前景),负面点击隔离非目标区域(背景).此类方法只需点击几下即可完成对象分割任务.

近期,有一些关于基于点击的交互式分割的作品,其中深度学习方法在准确性方面超越了传统方法.然而,大多数都需要花费大量的时间进行额外的后处理.于是端到端交互式的算法被提出来,但它们存在共同的问题,首先点击是第一层的唯一输入,因此特定的空间和语义信息将通过早期层被稀释,另一个问题是连续点击的关系没有正确建模,导致注释不稳定,两次连续点击之间的注释会发生明显变化.

本文,本文提出了一种新的交互式分段体系结构,充分利用了用户的点击和连续点击之间的关系以增强交互信息.用户点击的特征被嵌入到早期和晚期两个层中,图像特征被有效地与早期-晚期融合,建立两次连续单击之间的关系.前一次单击生成的遮罩与当前单击一起作为输入,显著提高了分割结果的稳定性,还采用了从粗到细的网络设计来进一步获得细化的分割.此外,基于提出的交互模型,为实际的分割任务开发了一种有效的交互式分割工具.

图1. 交互式点击示例. 绿点表示正点击,红点表示负点击.

网络架构

图 2 所示,所提出的架构由两部分组成,输入基础分割模型(CoarseNet)和细化模型(FineNet).对于网络输入,边缘掩码和正 / 负点击由交互式分支编码,其中CoarseNet 使用HRNET-18+OCR作为基本分割模型,并附加边缘引导流来处理交互信息,FineNet使用三个卷积块来细化掩模.

图2. Edgeflow体系结构概述,CoarseNet 使用HRNET-18+OCR作为基本分割模型,并附加边缘引导流来处理交互信息,FineNet使用三个卷积块来细化掩模.

边缘引导流

点击编码:交互信息包含正点击和负点击.将点击编码利用高斯算法或L2距离生成距离图作为特征图反馈给网络.

早期-晚期融合:以前方法都是在主网络之前融合交互信息和图像特征,即所谓的早期融合.早期的融合方法都有一个共同的问题,那就是没有正确地提取交互信息.交互特征比图像特征稀疏得多,并且包含高级信息,如位置信息.主干网的早期层侧重于底层功能的扩展,因此交互功能将通过早期层被稀释,网络无法及时响应用户的点击.为了防止特征稀释,本文提出了一种早期-晚期融合策略来整合交互和图像特征. 如图2 所示,设计的多阶段特征融合,不仅仅在网络开始时融合特征,第二融合在主干的第一过渡块和第二级块之间,最后一次融合发生在第四阶段块之后,多阶段融合促进了交互信息在网络上的传播,也使网络能够精确响应用户的点击.

边缘引导:交互式分割的关键思想是通过用户点击逐步改进分割遮罩.由于用户点击的巨大空间差异,连续点击的特征将非常不同,从而导致差别显著的分割遮罩.之前的方法引入了以前点击的分割掩码作为输入,这在一定程度上缓解了这个问题.但是可能会使模型陷入局部最优导致分割结果不好.为了提高分割掩模的稳定性,本文提出了一种边缘掩模方案,该方案将先前迭代估计的对象边缘作为先验信息,而不是直接的掩模估计.边缘估计比全掩模算法在输入时更稀疏、波动更小,因此可以提高分割的稳定性和效果.在交互式分割模型融合不同层的时侯,交互图像和边缘遮罩特征存在较大的空间偏差,采用光流方法可以有效地进行多尺度特征对齐.

损失函数

本文希望损失函数更关注错误的像素而不是分类良好的像素,使用归一化焦点损失来计算预测掩码和地面实况掩码之间的差异,可以表示为:

其中 是焦点损失的超参数. 表示像素的预测置信度,表示为:

其中 是位置 上的预测概率,是位置 上对应的地面实况.为了最小化上次迭代的边缘估计与从地面实况掩码导出的边缘之间的差异,采用平衡的 BCE 损失 来分配对边缘的更多关注,而不是对背景的关注.此外,利用 BCE 作为辅助损失 来约束主干输出.

实验

与 SOTA 方法的比较:使用COCO和LVIS的组合作为训练数据.计算NoC@85和NoC@90作为GrabCut、Berkeley、DAVIS和Pascal VOC的指标.评价结果见表1. 本文的方法在除GrabCut之外的所有数据集上都达到了最佳性能.GrabCut的对象数量有限,边界清晰,因此所有的深度学习方法都表现得非常好,本文的方法也取得了有竞争力的结果.而 Berkeley 的图像中有复杂的物体,例如自行车车轮弹簧和降落伞绳.在该数据集中,本文的方法达到了最佳性能.分析结果表明,早期和后期融合策略可以防止交互点击在网络上的稀释.因此,本文的方法能够有效地响应点击,并且在各种场景中都具有鲁棒性.

表1 GrabCut, Berkeley, DAVIS and Pascal VOC 的评价结果,值越低越好,最好的结果用粗体标出.

图 3 显示了不同数据集上前 20 次点击的 mIoU 变化. 有三个观察结果:

1)与其他方法相比,本文的方法具有最稳定的性能,其中随着点击次数的增加,mIoU 逐渐提高. 其他方法存在退化问题. 例如,当 GrabCut 数据集上的点击次数从 4 次增加到 5 次,从 10 次增加到 11 次时,RITM 的 mIoU 会急剧下降.

2)与其他方法相比,本文的方法需要更少的点击来实现更高的 mIoU. 在Berkeley数据集中,本文方法的 NoC@95 大约为 4,而其他方法则超过 10.

3)使用所有 20 次点击,本文的方法仍然在所有数据集上实现了最高的 mIoU.

图3. 评价不同的交互式分割方法.这些图代表了GrabCut、Berkeley和DAVIS在前20次点击中不同方法的mIoU.

交互式分割工具

本文使用所提出的模型开发了一个交互式分割工具,旨在帮助用户高效准确地分割数据集.标注包括三个步骤:数据准备、交互式注释和多边形编辑.在交互式注释过程中,用户分别通过鼠标左键和右键单击添加正点和负点.应用程序运行模型推断并显示用户预测结果,如图4(a)所示.用户可以通过改变阈值来调整目标边界,以区分前景和背景像素,从而获得更准确的分割结果.该工具还支持过滤最大连接区域,如图4(b)所示.完成交互式分割后,该工具将围绕目标边界生成一个多边形框架.用户可以调整多边形顶点以进一步提高分割精度.最后,分割结果可以保存为 segmentation mask、PASCAL VOC、COCO、pseudo colour等.

图4.交互式分割工具的可视化.

结论

分割模型通常需要大量的标记图像数据.由于像素级标注的高成本,交互式分割成为提取感兴趣对象的有效方法.在这项工作中,本文提出了一种新的交互体系结构EdgeFlow,它充分利用了用户交互信息,而无需任何后期处理或迭代优化方案.此外,还开发了一个高效的交互式分割工具,帮助用户通过灵活的选项逐步改进分割结果.

\