如果你曾经想过:「我能不能只用一句话,让电脑在视频里自动找出所有『红色背包』?」或者希望在一张照片里随手点一下,就完成干净利落的分割,那 SAM3 正是为这些需求准备的。
随着图像与视频数据的爆炸式增长,传统分割方法往往需要大量标注或只能识别固定类别,难以应对复杂开放场景。SAM3 则通过统一的多模态输入方式——文本、示例与视觉提示——让模型能主动理解你的意图,并在图像与视频中执行高精度检测、分割与目标跟踪。
更进一步,SAM3 还具备零样本能力,可在未见过的类别上直接工作,并将分割能力延伸到 3D 场景,用于空间预览、结构分析与创意编辑等任务。
对研究者、创作者乃至普通用户来说,SAM3 让「图像理解」第一次变得如此自然、灵活,也让视觉交互的可能性远远超出以往。
教程链接:go.openbayes.com/afNLr
使用云平台: OpenBayes
openbayes.com/console/sig…
首先点击「公共教程」,找到「SAM3:视觉分割模型」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。
数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「API 地址」,即可进入模型界面。
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。
本教程提供 Image Segmentation 、Video Text Prompting、Video Point/Box Prompting 三个示例供测试。模型仅支持英文输入。
使用步骤如下:
Image Segmentation(图像分割)
具体参数:
- Text Prompt:这里可以输入文本文字。
- Detection Threshold:阈值越高,检测到的目标越少。
- Mask Threshold:阈值越高,生成的掩码边界更清晰、更锐利。
Video Text Prompting(视频文本提示)
具体参数:
- Text Prompt(s):这里可以输入文本文字。
- Propagate across video:点击该按钮,对目标进行视频跟踪。
Video Point/Box Prompting(视频点/框提示)
具体参数:
-
Object ID:检测到的目标 ID。
-
Point label:
-
- positive:当点击图片上的某个位置时,如果是 Positive,意思是:这个点属于想分割的目标物体,请把它算进去。
- negative:当点击图片上的某个位置时,如果是 Negative,意思是:这个点不属于目标物体(是背景或其他东西),请把它去掉。
-
Clear old inputs for this object:是否清除之前检测到的目标。
-
Prompt type:
-
- Points:点击视觉提示。
- Boxes:框选视觉提示。