前言:视觉大模型的“ChatGPT 时刻”
2023 年,Meta 用 SAM 1 把“分割一切”做成通用接口;
2024 年,SAM 2 把能力从图像延伸到视频,实现时空一致;
2025 年 10 月,Meta 官方正式披露 SAM3 技术细节(相关研究已提交 ICLR 2026 评审)—— 这一次,它不再满足于‘点、框、mask’这些几何提示,而是直接听懂‘人话’,用自然语言概念驱动分割。近日SAM3模型已在hugging face网站上提供下载。
恰逢近日李飞飞Marbel 3D世界模型获得了广泛的关注,SAM 3D又会给我们带来什么呢?以下是我测试获得的3D模型,并且进行编辑添加背景效果以及下载获得sam3d-splat.ply模型文件的截图,大家可以先睹为快。
一句话总结:
SAM 3 让视觉模型从“分割一切”进化到“理解万物”,标志着视觉大模型正式进入“语义优先”时代。
SAM 3 到底是什么?
| 版本 | 提示方式 | 输出 | 核心亮点 |
|---|---|---|---|
| SAM 1 | 点 / 框 / mask | 单个 object mask | 零样本泛化 |
| SAM 2 | 点 / 框 / mask | 视频 object mask 序列 | 时空跟踪 |
| SAM 3 | 文本短语 / 图像示例 / 组合 | 同一概念所有实例 mask | 可提示概念分割(PCS) |
官方定义:
SAM 3 是面向可提示概念分割(Promptable Concept Segmentation, PCS)的下一代基础模型,能够检测、分割并跟踪由文本或图像示例指定的视觉概念的所有实例。
SAM 3的核心创新在于它解决了AI模型长期存在的难题——将自然语言输入与图像中的特定视觉元素联系起来。 传统图像分割模型通常只能识别预定义类别(如“人”或“车”),而SAM 3支持开放词汇分割,能够理解更复杂的描述。 SAM 3支持多种提示方式,包括:
-
概念提示:简单名词短语(如“运输集装箱”、“太阳能板”)
-
图像范例:通过点击图像中的物体作为示例
-
视觉提示:点、框、掩码等传统SAM提示
-
组合提示:概念与图像范例的组合 这种灵活性大大扩大了模型的应用范围,特别是对于那些难以用文字准确描述的复杂概念。
如果说 SAM3 解决了 2D 场景的 “理解问题”,SAM3D 则直接攻克了 3D 重建的 “效率与精度难题”—— 仅需一张 2D 照片,就能生成带纹理、材质和姿态信息的 3D 模型,彻底降低了 3D 内容创作的门槛。
新成员 SAM 3D
双模型架构:覆盖通用物体与人体重建
SAM3D 包含两个业界领先的子模型,针对性解决不同 3D 场景需求:
-
SAM3D Objects:聚焦通用物体与场景重建,能从单张自然图像中还原详细 3D 形状、纹理和空间布局,支持 AR/VR、机器人感知等场景。
-
SAM3D Body:专注人体姿态与形体重建,即使面对遮挡、异常姿势或多人场景,也能精准输出 3D 骨骼与软组织形态,支持与 Mixamo 等工具一键绑定。
核心技术:突破 3D 数据瓶颈的关键创新
SAM3D 的成功核心在于解决了真实世界 3D 数据稀缺的痛点:
- 高效数据引擎:通过 “模型生成候选 + 标注者评分 + 艺术家修正” 的流程,标注近 100 万张真实图像,生成 314 万个 3D 网格,突破传统 3D 数据采集的效率瓶颈。
- 多阶段训练:先通过合成数据完成预训练,再用真实世界数据进行对齐微调,兼顾泛化性与真实性。
- 空间 - 语义联合编码:预测每个像素的 3D 坐标与表面法线,确保重建结果的物理精确性,避免纯视觉方法的几何失真。
开发者快速上手指南
目前 Meta 已开源 SAM3 和 SAM3D 的模型权重、推理代码及 SA-Co 基准测试集,开发者可通过以下方式快速体验:
1. 快速体验(无需编码)
-
在线测试:访问Segment Anything Playground,直接用文本提示(如 “条纹红色雨伞”)测试 2D 分割,或上传图片生成 3D 模型;
2. 本地部署(基础流程)
(1)环境依赖
# 创建虚拟环境
conda create -n sam3 python=3.12
conda activate sam3
# 安装核心依赖
pip install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# Clone the repository and install the package:
git clone https://github.com/facebookresearch/sam3.git
cd sam3
pip install -e .
(2)下载模型权重
- 社区渠道:Hugging Face facebook/sam3、ModelScope 魔搭社区facebook/sam3(含中文镜像,下载更快)。
(3)核心 API 调用示例(文本提示分割)
import torch
from PIL import Image
from sam3.model_builder import build_sam3_image_model
from sam3.model.sam3_image_processor import Sam3Processor
# Load the model
model = build_sam3_image_model()
processor = Sam3Processor(model)
# Load an image
image = Image.open("<YOUR_IMAGE_PATH.jpg>")
inference_state = processor.set_image(image)
# Prompt the model with text
output = processor.set_text_prompt(state=inference_state, prompt="<YOUR_TEXT_PROMPT>")
# Get the masks, bounding boxes, and scores
masks, boxes, scores = output["masks"], output["boxes"], output["scores"]
3. 生态工具集成
- Ultralytics:已公布 SAM3 集成路线图,关注Ultralytics SAM3 文档获取更新;
- 国内适配:ModelScope 提供模型镜像与中文教程,适合国内开发者快速部署。