如何将SAM优雅地应用于视频内容分割SAM 是否可以应用于视频分割场景？当然可以，SAM到优雅地分割视频内容的距离，可能

之前的文章，分别介绍了 Meta 在图像分割上的最新模型——Segment Anything Model（以下简称 SAM）以及如何在 Huggingface 上使用 SAM，具体见

一个自然而然的想法就是，SAM 是否可以应用于视频分割场景？

回答是肯定的，一个最直观的想法就是将视频转换成图片序列，针对每张图片使用 SAM 单独做图像分割。

但是这里有一个问题，就是SAM 分割后的图像并没有带标签，也就是说 SAM 不知道不同帧之间分割出来的对象是否一致。

还好，之前已经有一些工作来处理视频语义分割，并且 github 上已经有了对应的实现——Segment and Track Anything。

大体上就是使用 SAM 做分割，使用 DeAOT 学习视频帧之间目标的关联性，同时支持初始化时进行分割对象的自定义。

另外论文作者在知乎上也做了回答，具体见：

最后，我展示下使用作者的开源代码在 Google Colab 上对自己两周前拍摄的一个户外视频进行分割，展示下目前技术在复杂背景下的分割效果。

可以看出，对于树木、特殊光照条件等复杂情况，SAM 分割效果还有待提升。

更多内容，欢迎关注算法工程笔记微信公众号。