之前的文章,分别介绍了 Meta 在图像分割上的最新模型——Segment Anything Model(以下简称 SAM)以及如何在 Huggingface 上使用 SAM,具体见
一个自然而然的想法就是,SAM 是否可以应用于视频分割场景?
回答是肯定的,一个最直观的想法就是将视频转换成图片序列,针对每张图片使用 SAM 单独做图像分割。
但是这里有一个问题,就是SAM 分割后的图像并没有带标签,也就是说 SAM 不知道不同帧之间分割出来的对象是否一致。
还好,之前已经有一些工作来处理视频语义分割,并且 github 上已经有了对应的实现——Segment and Track Anything。
大体上就是使用 SAM 做分割,使用 DeAOT 学习视频帧之间目标的关联性,同时支持初始化时进行分割对象的自定义。
关于具体实现细节,可以参考论文原文——Decoupling Features in Hierarchical Propagation for Video Object Segmentation。
另外论文作者在知乎上也做了回答,具体见:
- [NIPS21][CVPR21 竞赛冠军] Associating Objects with Transformers for Video Object Segmentation
- 如何评价 Meta/FAIR 最新工作 Segment Anything? - 杨宗鑫的回答 - 知乎
最后,我展示下使用作者的开源代码在 Google Colab 上对自己两周前拍摄的一个户外视频进行分割,展示下目前技术在复杂背景下的分割效果。
可以看出,对于树木、特殊光照条件等复杂情况,SAM 分割效果还有待提升。
更多内容,欢迎关注算法工程笔记微信公众号。