跳转至内容

SAM 3:用概念分割任何内容

即将推出 ⚠️

🚧 Meta 公司尚未公开发布SAM 3 模型。以下信息基于提交给 ICLR 2026 的研究论文。 模型下载和最终基准将在 Meta 正式发布后提供。

SAM 3 概述

SAM 3(Segment Anything Model 3)是 Meta 用于可提示概念分割(PCS)的下一代基础模型。在SAM 2 的基础上,SAM 3 引入了一项全新功能:检测、分割和跟踪由文本提示、图像示例或两者指定的视觉概念的所有实例。以前的SAM 版本会根据提示分割单个对象,而SAM 3 则不同,它可以找到并分割出现在图像或视频中任何地方的每一个概念,从而与现代实例分割的开放词汇目标保持一致。

概述

与现有系统相比,SAM 3 在可提示概念分割方面的性能提高了 2 倍,同时保持并改进了SAM 2 的交互式视觉分割功能。该模型擅长开放式词汇分割,允许用户使用简单的名词短语(如 "黄色校车"、"条纹猫")或通过提供目标对象的示例图像来指定概念。这些功能对依赖于简化的预测跟踪工作流的生产就绪流水线起到了补充作用。

SAM 3 分段

什么是 Promptable Concept Segmentation(PCS)?

PCS 任务将概念提示作为输入,并为所有匹配对象实例返回带有唯一标识的分割掩码。概念提示可以是

  • 文本:简单的名词短语,如 "红苹果 "或 "戴帽子的人",类似于零起点学习
  • 图像示例:围绕示例对象(正片或负片)的边界框,实现快速归纳
  • 结合:将文本和图像示例结合在一起,实现精确控制

这有别于传统的视觉提示(点、方框、遮罩),后者只对单个特定对象实例进行分割,这在最初的SAM 系列中得到了推广。

关键绩效指标

指标 SAM 3 成果
LVIS 零射口罩 AP 47.0(与之前最好成绩 38.5 相比,提高了 22)
SA-Co 基准 比现有系统好 2 倍
推理速度(H200GPU 每幅图像30 毫秒,可检测 100 多个物体
视频表演 近乎实时地处理 ~5 个并发对象
MOSEv2 VOS 基准测试 60.1 J&F(比SAM 2.1 增加 25.5%,比之前的 SOTA 增加 17)
交互式优化 +18.6 CGF1在 3 次范例提示后得到改善
人类性能差距 达到 SA-Co/Gold 估计下限的88

有关生产中的模型指标和权衡,请参阅模型评估见解YOLO 性能指标

架构

SAM 3 由检测器跟踪器组成,它们共享一个感知编码器(PE)视觉主干网。这种解耦设计可避免任务冲突,同时实现图像级检测和视频级跟踪,其界面与Ultralytics Python CLI 使用兼容。

核心组件

  • 探测器 基于 DETR 的图像级概念检测架构

    • 用于名词短语提示的文本编码器
    • 基于图像提示的示例编码器
    • 融合编码器根据提示调节图像特征
    • 将识别("是什么")与定位("在哪里")分离开来的新型存在头
    • 用于生成实例分割掩码的掩码头
  • 跟踪器继承自SAM 2的基于内存的视频分割功能

    • 提示编码器、掩码解码器、内存编码器
    • 用于跨帧存储对象外观的存储库
    • 在多对象环境中利用卡尔曼滤波器等技术辅助进行时空消歧
  • 存在标记:学习到的全局标记,可预测目标概念是否出现在图像/帧中,通过将识别与定位分离来改进检测。

SAM 3 架构

主要创新

  1. 识别与定位分离:存在头预测全局概念的存在,而提议查询只关注本地化,避免了目标冲突。
  2. 统一的概念和视觉提示:在一个模型中同时支持 PCS(概念提示)和 PVS(视觉提示,如SAM 2 的点击/方框)。
  3. 交互式范例完善:用户可以添加正片或负片图像示例来迭代改进结果,通过模型对类似对象进行归纳,而不仅仅是纠正单个实例。
  4. 时间消歧:使用小掩码检测得分和定期重新提示来处理视频中的遮挡、拥挤场景和跟踪失败,与实例分割和跟踪最佳实践保持一致。

SA-Co 数据集

SAM 3 是在Segment Anything with Concepts (SA-Co) 上进行训练的,Segment Anything with Concepts (SA-Co) 是 Meta 迄今为止最大、最多样化的细分数据集,它超越了COCOLVIS 等常见基准。

培训数据

数据集组件 描述 规模
SA-Co/HQ 来自 4 相数据引擎的高质量人工标注图像数据 520 万张图片,400 万个独特的名词短语
SA-Co/SYN 人工智能标注的合成数据集,无需人工参与 3 800 万个名词短语,14 亿个掩码
SA-Co/EXT 15 个外部数据集丰富了硬阴性数据 因资料来源而异
SA-Co/VIDEO 具有时间跟踪功能的视频注释 52.5K 个视频,24.8K 个独特的名词短语

基准数据

SA-Co 评估基准包含214K 个独特短语,涉及126K 张图片和视频,提供的概念比现有基准多 50 倍以上。它包括

  • SA-Co/Gold:7 个领域,三重标注,用于测量人类性能界限
  • SA-Co/银:10 个域,单一人类注释
  • SA-Co/BronzeSA- Co/ Bio:9 个现有数据集,用于概念细分
  • SA-Co/VEval:包含 3 个领域(SA-V、YT-Temporal-1B、SmartGlasses)的视频基准测试

数据引擎创新

SAM 3 可扩展的人机交互数据引擎可实现2 倍的注释吞吐量

  1. 人工智能注释器:基于喇嘛的模型可提出包括硬否定在内的各种名词短语
  2. 人工智能验证器:微调多模态 LLM以接近人类的性能验证掩码质量和穷举性
  3. 主动挖掘:将人力集中在人工智能难以解决的具有挑战性的故障案例上
  4. 本体驱动:利用维基数据中的大型本体进行概念覆盖

安装

Ultralytics 软件包发布后,将原生支持SAM 3:

pip install ultralytics

首次使用时,模型将自动下载。然后,您可以使用标准预测模式,随后将模型导出为以下格式 ONNXTensorRT等格式导出模型进行部署。

如何使用SAM 3:概念细分的多样性

预览 API - 可能会有更改

下面的代码示例展示了基于研究论文的预期使用模式。实际的应用程序接口将在之后提供:

  1. Meta 开源SAM 3 模型权重
  2. Ultralytics 将SAM 3 集成到软件包中

最终实现的语法和参数可能会有所不同。这些示例可作为预期功能的预览。

支持的任务和模型

SAM 3 支持可提示概念分割 (PCS) 和可提示视觉分割 (PVS) 任务:

任务类型 提示类型 输出
概念细分 (PCS) 文本(名词短语)、图像示例 与概念匹配的所有实例
视觉分割 (PVS) 点、盒、面罩 单一对象实例SAM 2 风格)
交互式优化 反复添加/删除示例或点击 细化分段,提高准确性

概念细分示例

带文本提示的片段

基于文本的概念分割

使用文本描述查找和分割概念的所有实例。

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

应用程序接口预览

本示例展示了预期用途。实际应用有待 Meta 的发布和Ultralytics 的整合。

带图像示例的分段

基于范例的图像分割

使用一个或多个示例对象来查找所有类似的实例。

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

应用程序接口预览

本示例展示了预期用途。实际应用有待 Meta 的发布和Ultralytics 的整合。

交互式优化

利用范例进行迭代改进

在初始输出的基础上增加示例提示,逐步改善结果。

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

应用程序接口预览

本示例展示了预期用途。实际应用有待 Meta 的发布和Ultralytics 的整合。

视频概念分割

在视频中跟踪概念

检测并跟踪整个视频中某个概念的所有实例。

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

应用程序接口预览

本示例展示了预期用途。实际应用有待 Meta 的发布和Ultralytics 的整合。

有关更广泛的流媒体和生产设置,请参阅对象跟踪在终端中查看结果

视觉提示SAM 与SAM 2 兼容)

SAM 3 与SAM 2 的视觉提示保持完全向后兼容:

SAM 2 风格视觉提示

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

应用程序接口预览

本示例展示了预期用途。实际应用有待 Meta 的发布和Ultralytics 的整合。

性能基准

图像分割

SAM 3 在多个基准测试(包括LVISCOCO用于分割的真实数据集)中取得了最先进的结果:

基准测试 指标 SAM 3 上一个最佳 改进
LVIS(零镜头) 面具 AP 47.0 38.5 +22.1%
SA-Co/Gold CGF1 65.0 34.3(OWLv2) +89.5%
COCO (零发) 框 AP 53.5 52.2 (T-Rex2) +2.5%
ADE-847 (semantic seg) mIoU 14.7 9.2 (APE-D) +59.8%
PascalConcept-59 mIoU 59.4 58.5 (APE-D) +1.5%
城市景观 mIoU 65.1 44.2 (APE-D) +47.3%

探索数据集选项,以便在Ultralytics 数据集中进行快速实验。

视频分割性能

DAVIS 2017YouTube-VOS 等视频基准测试中,SAM 3 与SAM 2 和之前的先进技术相比有了明显改善:

基准测试 指标 SAM 3 SAM 2.1 L 改进
MOSEv2 J&F 60.1 47.9 +25.5%
DAVIS 2017 J&F 92.0 90.7 +1.4%
LVOSv2 J&F 88.2 79.6 +10.8%
SA-V J&F 84.6 78.4 +7.9%
YTVOS19 J&F 89.6 89.3 +0.3%

少镜头改编

SAM 3 擅长以最少的示例适应新领域,这与以数据为中心的人工智能工作流程息息相关:

基准测试 0 发 AP 10 发 AP 上届最佳(10 次)
ODinW13 59.9 71.6 67.9 (gDino1.5-Pro)
RF100-VL 14.3 35.7 33.7 (gDino-T)

互动式改进效果

SAM 3 基于概念的示例提示比视觉提示收敛得更快:

添加提示 CGF1 分数 增益与纯文本 增益与 PVS 基线对比
仅限文本 46.4 底线 底线
+1 示例 57.6 +11.2 +6.7
+2 示例 62.2 +15.8 +9.7
+3 示例 65.0 +18.6 +11.2
+4 典范 65.7 +19.3 +11.5(高原)

物体计数精度

SAM 3 通过分割所有实例来提供精确的计数,这也是物体计数的一个共同要求:

基准测试 准确性 MAE vs 最佳 MLLM
计数本 95.6% 0.11 92.4%(双子座 2.5)
PixMo-Count 87.3% 0.22 88.8%(Molmo-72B)

SAM 3 vsSAM 2 vsYOLO 比较

在此,我们将SAM 3 的功能与SAM 2 和 YOLO11模型的能力进行比较:

能力 SAM 3 SAM 2 YOLO11n-seg
概念细分 ✅ 文本/示例中的所有实例 不支持 不支持
视觉分割 ✅ 单实例SAM 与SAM 2 兼容) ✅ 单一实例 ✅ 所有实例
零发射能力 开放词汇 ✅ 几何提示 封闭集
交互式优化 ✅ 范例 + 点击 ✅ 仅点击 不支持
视频跟踪 ✅ 具有身份的多对象 ✅ 多对象 ✅ 多对象
LVIS 掩膜 AP(零射程) 47.0 N/A N/A
MOSEv2 J&F 60.1 47.9 N/A
推理速度(H200) 30 毫秒(100 多个对象) ~23 毫秒(每个对象) 2-3 毫秒(图像)
模型尺寸 大(预计 ~400+ MB) 162 MB(基本) 5.9 MB

主要收获

  • SAM 3:最适用于开放词汇概念分割,根据文本或示例提示查找概念的所有实例
  • SAM 2:最适合在图像和视频中使用几何提示进行交互式单体分割
  • YOLO11:最适合在资源有限的部署中使用高效的导出管道(如 ONNXTensorRT

评估指标

SAM 3 引入了专为 PCS 任务设计的新指标,对F1 分数精确度召回率等常用指标进行了补充。

分类门控 F1 (CGF1)

定位与分类相结合的主要指标:

CGF1 = 100 × pmF1 × IL_MCC

其中:

  • pmF1(正面宏 F1):测量正面示例的定位质量
  • IL_MCC(图像级马修斯相关系数):测量二元分类的准确性("概念是否存在?)

为什么采用这些指标?

传统的 AP 指标不考虑校准,使得模型在实际中难以使用。通过只评估置信度高于 0.5 的预测值,SAM 3 的度量标准执行了良好的校准,并在交互式预测跟踪循环中模拟了真实世界的使用模式。

关键消融和见解

存在的影响

存在头将识别与定位分离开来,大大提高了识别率:

配置 CGF1 IL_MCC pmF1
没有存在 57.6 0.77 74.7
有了存在感 63.3 0.82 77.1

存在头可提升 5.7 个 CGF1(+9.9%),主要是提高识别能力(IL_MCC +6.5%)。

硬底片的效果

硬底片/图像 CGF1 IL_MCC pmF1
0 31.8 0.44 70.2
5 44.8 0.62 71.9
30 49.2 0.68 72.3

硬否定词对开放词汇识别至关重要,可将 IL_MCC 提高54.5%(0.44 → 0.68)。

训练数据缩放

数据来源 CGF1 IL_MCC pmF1
仅限外部 30.9 0.46 66.3
外部 + 合成 39.7 0.57 70.6
外部 + 总部 51.8 0.71 73.2
所有三个 54.3 0.74 73.5

高质量的人工标注比单纯的合成数据或外部数据有更大的优势。有关数据质量实践的背景,请参阅数据收集和注释

应用

SAM 3 的概念细分功能可实现新的使用案例:

  • 内容管理:在媒体库中查找特定内容类型的所有实例
  • 电子商务:对目录图片中某一类型的所有产品进行分类,支持自动标注
  • 医学影像:识别所有出现的特定组织类型或异常情况
  • 自主系统:按类别追踪交通标志、行人或车辆的所有情况
  • 视频分析:统计并跟踪所有穿着特定服装或执行特定动作的人
  • 数据集注释:快速注释稀有对象类别的所有实例
  • 科学研究:量化和分析所有符合特定标准的标本

SAM 3 代理:扩展语言推理

SAM 3 可与多模态大语言模型 (MLLM) 结合使用,以处理需要推理的复杂查询,其精神类似于OWLv2T-Rex 等开放词汇系统。

推理任务成绩

基准测试 指标 SAM 3 代理(双子座 2.5 Pro) 上一个最佳
ReasonSeg(验证) gIoU 76.0 65.0 (SoTA)
ReasonSeg(测试) gIoU 73.8 61.3 (SoTA)
全方位标签(验证) 美联社 46.7 36.5 (REAL)
RefCOCO+ Acc 91.2 89.3 (LISA)

复杂查询示例

SAM 3 代理可处理需要推理的查询:

  • "人们坐下来,但手里没有拿礼盒"
  • "离镜头最近且没有戴项圈的狗"
  • "比手大的红色物体"

MLLM 向SAM 3 提出简单的名词短语查询,分析返回的掩码,并不断重复,直到满意为止。

局限性

虽然SAM 3 是一项重大进步,但也有一定的局限性:

  • 短语复杂性:最适合简单的名词短语;长指代表达或复杂推理可能需要 MLLM 集成
  • 模糊处理:有些概念本身就含糊不清(如 "小窗户"、"舒适的房间 "等)
  • 计算要求:比专门的检测模型(如 YOLO
  • 词汇范围:侧重于原子视觉概念;在没有 MLLM 辅助的情况下,组合推理能力有限
  • 罕见概念:对于训练数据中未充分反映的极其罕见或细粒度概念,性能可能会下降

引用

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

常见问题

SAM 3 什么时候发布?

SAM 3 目前正在 2026 年 ICLR 会议上接受审查(2026 年会议,2025 年审查)。正式模型、权重和基准将在审核结束后公开发布,可能在 2026 年。Ultralytics 将在 Meta 发布后立即为SAM 3 集成提供支持,并记录预测模式跟踪模式的使用情况。

SAM 3 将被整合到Ultralytics 中吗?

是的。Ultralytics Python 软件包将支持SAM 3,包括概念分割、SAM 2风格的可视化提示和多对象视频跟踪。您将可以导出为以下格式 ONNXTensorRT等格式导出,并使用简化的 PythonCLI工作流程。

实施时间表

本文档中的代码示例为预览版本,展示了预期的使用模式。实际实施将在 Meta 发布SAM 3 weights 和Ultralytics 完成集成后提供。

什么是 Promptable Concept Segmentation (PCS)?

PCS 是SAM 3 中引入的一项新任务,用于分割图像或视频中视觉概念的所有实例。与针对特定对象实例的传统分割不同,PCS 可以找到一个类别中出现的每一个实例。例如

  • 文字提示:"黄色校车"→分段显示场景中的所有黄色校车
  • 图像示例:一只狗周围的方框 → 分割图像中的所有狗
  • 组合:"条纹猫 "+示例框 → 分割与示例匹配的所有条纹猫

请参阅对象检测实例分割的相关背景。

SAM 3 与SAM 2 有何不同?

特点 SAM 2 SAM 3
任务 每个提示单个对象 概念的所有实例
提示类型 点、盒、面罩 + 文本短语、图像示例
检测能力 需要外部探测器 内置开放词汇检测器
认可 仅基于几何图形 文本和视觉识别
架构 仅跟踪器 探测器 + 跟踪器(带存在头
零点射击性能 不适用(需要视觉提示) LVIS 的 AP 为 47.0,SA-Co 的 AP 高 2 倍
交互式优化 仅点击 点击 + 范例推广

SAM 3 与SAM 2视觉提示保持向后兼容,同时增加了基于概念的功能。

哪些数据集用于训练SAM 3?

SAM 3 是在 "有概念的分段"(SA-Co)数据集上进行训练的:

训练数据

  • 520 万张图片400 万个独特的名词短语(SA-Co/HQ)--高质量的人工注释
  • 52.5K 个视频24.8 K 个独特的名词短语(SA-Co/视频)
  • 1.4B 个合成掩码,涉及3800 万个名词短语(SA-Co/SYN)
  • 15 个富含硬阴性的外部数据集(SA-Co/EXT)

基准数据

  • 214K 个独特概念,涉及126K 张图片/视频
  • 比现有基准多 50 倍的概念(例如,LVIS 有 ~4K 个概念)
  • 用于衡量人类性能界限的 SA-Co/Gold 三重注释

这种巨大的规模和多样性使SAM 3 能够对开放词汇概念进行卓越的零点泛化。

在细分方面,SAM 3 与YOLO11 相比如何?

SAM 3 和YOLO11 有着不同的用途:

SAM 3 的优势

  • 开放式词汇:通过文本提示分割任何概念,无需培训
  • 零拍摄:可立即用于新类别
  • 互动:基于范例的细化可推广到类似对象
  • 基于概念:自动查找某个类别的所有实例
  • 准确度: LVIS 零镜头实例分割的 AP 为 47.0

YOLO11 的优势

  • 速度:推理速度提高 10-15 倍(每幅图像 2-3ms 对 30ms)
  • 效率:模型小 70 倍(5.9MB 对预期的 ~400MB)
  • 资源友好型:可在边缘设备和移动设备上运行
  • 实时性:针对生产部署进行了优化

建议

  • 使用SAM 3进行灵活的开放式词汇分割,您需要找到文本或示例中描述的概念的所有实例
  • 使用 YOLO11用于预先知道类别的高速生产部署
  • 使用SAM 2通过几何提示进行交互式单个物体分割

SAM 3 能否处理复杂的语言查询?

SAM 3 适用于简单的名词短语(如 "红苹果"、"戴帽子的人")。对于需要推理的复杂查询,可将SAM 3 与 MLLM 结合起来,成为SAM 3 Agent

简单查询(本地SAM 3)

  • "黄色校车"
  • "条纹猫"
  • "戴红帽子的人"

复杂查询(SAM 3 代理与 MLLM)

  • "人们坐下来,但没有拿着礼盒"
  • "离镜头最近的狗没有项圈
  • "比手大的红色物体"

通过将SAM 3 的分割功能与 MLLM 推理功能相结合,SAM 3 Agent 在 ReasonSeg 验证中获得了76.0 gIoU(与之前的最佳值 65.0 相比,提高了 16.9%)。

与人类表现相比,SAM 3 的准确性如何?

采用三重人类注释的 SA-Co/Gold 基准:

  • 人类下限:74.2 CGF1(最保守的注释者)
  • SAM 3 性能: 65.0 CGF1
  • 成果:估计人类下限的88
  • 人类上限:81.4 CGF1(最自由的注释者)

SAM 3 在开放词汇概念分词方面取得了接近人类准确率的优异成绩,主要差距在于模糊或主观概念(如 "小窗户"、"舒适的房间")。



📅 创建于 0 天前 ✏️ 最近更新 0 天前

评论