SAM3 提示词 图片分割 ComfyUI 懒人整合包

0 阅读3分钟

SAM3

github地址:
github.com/facebookres…

Meta AI SAM 3 模型介绍

Meta AI 开源的 SAM 3(Segment Anything Model 3)是一个用于图像与视频分割的最新视觉基础模型,来自 facebookresearch 团队。该模型在前代 SAM / SAM 2 的基础上做了较大升级。

以下是简要但结构化的介绍:

1. SAM 3 是什么?

SAM 3 是一个**可提示(promptable)**的视觉分割模型。其核心逻辑为:用户通过“文字、点、框或示例图片”描述目标,模型自动找出所有对应对象并生成像素级分割结果。

它不仅能够“分割一个物体”,还具备以下能力:

  • 图像实例识别:在图像中找出所有符合某个概念的实例。
  • 视频跨帧处理:在视频中进行跨帧跟踪与分割。
  • 开放词汇支持:支持 open-vocabulary 概念理解。

示例:

  • “红色汽车” → 自动分割所有红色汽车。
  • “穿白衣的球员” → 找出所有对应人物。

2. 核心升级点(相比 SAM 2)

  1. Promptable Concept Segmentation (PCS)
    • 这是 SAM 3 的核心能力,从“单个物体分割”升级为“概念级分割”。
    • 支持文本概念与图像示例联合提示。
    • 可以识别“整类实例”。
  2. 更强的开放词汇能力
    • 可处理非常大范围的语义类别。
    • Benchmark(SA-Co)覆盖约:
      • 27 万 + 评估概念
      • 400 万 + 自动标注概念
  3. 新架构设计 SAM 3 主要由两部分组成,并共享同一个视觉 backbone:
    • Detector(检测器):基于 DETR 风格,负责找对象。
    • Tracker(跟踪器):用于视频中跨帧一致性。
    • 关键创新
      • Presence Token(存在性判断):先判断“这个概念是否存在”,再做定位。
      • 解耦检测与跟踪结构:提升稳定性与扩展性。
  4. 数据规模大幅提升
    • 通过自动构建数据引擎,生成 400 万 + 概念标注数据。
    • 是目前最大级别的开放词汇分割数据集之一。
  5. 支持图像 + 视频统一处理
    • 图像分割(instance segmentation)。
    • 视频分割与对象追踪。
    • 交互式 refinement(点选/框选修正)。

3. 模型规模与性能

  • 参数量:约 848M。
  • 基准表现:在多个 benchmark 上接近或超过传统开放词汇分割模型。
  • 人类对齐度:在 SA-Co benchmark 上达到约人类性能的 75–80%。

4. 应用场景

典型应用包括:

  • 自动数据标注(减少人工标注成本)
  • 视频目标跟踪
  • 自动抠图 / 内容编辑
  • 医学影像分割
  • 自动驾驶感知辅助
  • 训练更小的视觉模型(distillation)

5. GitHub 仓库信息

链接: github.com/facebookres…

主要提供以下内容:

  • 推理代码(image/video segmentation)
  • 模型结构实现
  • Notebook 示例
  • Checkpoint 下载与加载方法
  • 微调(fine-tuning)脚本

一句话总结:SAM 3 是一个“用文字描述就能在图片/视频里自动找出所有对应物体”的下一代视觉分割基础模型。

懒人包使用

双击run_nvidia_gpu.bat

等待终端运行

浏览器打开http://127.0.0.1:8188/
输入要分割的提示词描述,比如cup

Tips

点击此处 网盘下载

这个sam3是群友提出的,我尝试用window打包,发现遇到了一个兼容性问题

一直报错提示找不到triton模块之类的,ai提示window上很难解决这个问题

后来找了其他的comfyui工作流,看到这个项目可以解决问题

github.com/DazzleML/co…

但是只适用于comfyui

现在AI懒人包分为几个类型

一个是python便携版本,bat或者exe启动

一个是comfyui编写版本,大多数图片和视频工作流都是它

还有一个是docker镜像,目前懒人包越多,遇到不兼容win的就越多,很多只能通过wsl2的linux来解决