如何将SAM优雅地应用于视频内容分割

877 阅读2分钟

之前的文章,分别介绍了 Meta 在图像分割上的最新模型——Segment Anything Model(以下简称 SAM)以及如何在 Huggingface 上使用 SAM,具体见

一个自然而然的想法就是,SAM 是否可以应用于视频分割场景

回答是肯定的,一个最直观的想法就是将视频转换成图片序列,针对每张图片使用 SAM 单独做图像分割

但是这里有一个问题,就是SAM 分割后的图像并没有带标签,也就是说 SAM 不知道不同帧之间分割出来的对象是否一致

还好,之前已经有一些工作来处理视频语义分割,并且 github 上已经有了对应的实现——Segment and Track Anything

大体上就是使用 SAM 做分割,使用 DeAOT 学习视频帧之间目标的关联性,同时支持初始化时进行分割对象的自定义。

关于具体实现细节,可以参考论文原文——Decoupling Features in Hierarchical Propagation for Video Object Segmentation

另外论文作者在知乎上也做了回答,具体见:

最后,我展示下使用作者的开源代码在 Google Colab 上对自己两周前拍摄的一个户外视频进行分割,展示下目前技术在复杂背景下的分割效果。

凤凰岭金刚石塔环绕拍摄与视频分割

可以看出,对于树木、特殊光照条件等复杂情况,SAM 分割效果还有待提升。

更多内容,欢迎关注算法工程笔记微信公众号。