SAM3
github地址:
github.com/facebookres…
Meta AI SAM 3 模型介绍
Meta AI 开源的 SAM 3(Segment Anything Model 3)是一个用于图像与视频分割的最新视觉基础模型,来自 facebookresearch 团队。该模型在前代 SAM / SAM 2 的基础上做了较大升级。
以下是简要但结构化的介绍:
1. SAM 3 是什么?
SAM 3 是一个**可提示(promptable)**的视觉分割模型。其核心逻辑为:用户通过“文字、点、框或示例图片”描述目标,模型自动找出所有对应对象并生成像素级分割结果。
它不仅能够“分割一个物体”,还具备以下能力:
- 图像实例识别:在图像中找出所有符合某个概念的实例。
- 视频跨帧处理:在视频中进行跨帧跟踪与分割。
- 开放词汇支持:支持 open-vocabulary 概念理解。
示例:
- “红色汽车” → 自动分割所有红色汽车。
- “穿白衣的球员” → 找出所有对应人物。
2. 核心升级点(相比 SAM 2)
- Promptable Concept Segmentation (PCS)
- 这是 SAM 3 的核心能力,从“单个物体分割”升级为“概念级分割”。
- 支持文本概念与图像示例联合提示。
- 可以识别“整类实例”。
- 更强的开放词汇能力
- 可处理非常大范围的语义类别。
- Benchmark(SA-Co)覆盖约:
- 27 万 + 评估概念
- 400 万 + 自动标注概念
- 新架构设计 SAM 3 主要由两部分组成,并共享同一个视觉 backbone:
- Detector(检测器):基于 DETR 风格,负责找对象。
- Tracker(跟踪器):用于视频中跨帧一致性。
- 关键创新:
- Presence Token(存在性判断):先判断“这个概念是否存在”,再做定位。
- 解耦检测与跟踪结构:提升稳定性与扩展性。
- 数据规模大幅提升
- 通过自动构建数据引擎,生成 400 万 + 概念标注数据。
- 是目前最大级别的开放词汇分割数据集之一。
- 支持图像 + 视频统一处理
- 图像分割(instance segmentation)。
- 视频分割与对象追踪。
- 交互式 refinement(点选/框选修正)。
3. 模型规模与性能
- 参数量:约 848M。
- 基准表现:在多个 benchmark 上接近或超过传统开放词汇分割模型。
- 人类对齐度:在 SA-Co benchmark 上达到约人类性能的 75–80%。
4. 应用场景
典型应用包括:
- 自动数据标注(减少人工标注成本)
- 视频目标跟踪
- 自动抠图 / 内容编辑
- 医学影像分割
- 自动驾驶感知辅助
- 训练更小的视觉模型(distillation)
5. GitHub 仓库信息
主要提供以下内容:
- 推理代码(image/video segmentation)
- 模型结构实现
- Notebook 示例
- Checkpoint 下载与加载方法
- 微调(fine-tuning)脚本
一句话总结:SAM 3 是一个“用文字描述就能在图片/视频里自动找出所有对应物体”的下一代视觉分割基础模型。
懒人包使用
双击run_nvidia_gpu.bat
等待终端运行
浏览器打开http://127.0.0.1:8188/
输入要分割的提示词描述,比如cup
Tips
点击此处 网盘下载
这个sam3是群友提出的,我尝试用window打包,发现遇到了一个兼容性问题
一直报错提示找不到triton模块之类的,ai提示window上很难解决这个问题
后来找了其他的comfyui工作流,看到这个项目可以解决问题
但是只适用于comfyui
现在AI懒人包分为几个类型
一个是python便携版本,bat或者exe启动
一个是comfyui编写版本,大多数图片和视频工作流都是它
还有一个是docker镜像,目前懒人包越多,遇到不兼容win的就越多,很多只能通过wsl2的linux来解决