跳转至内容

SAM 3:用概念分割任何内容

已发布 -Ultralytics 集成正在进行中

Meta 于2025 年 11 月 20 日发布了SAM。Ultralytics 目前正在整合这些模型,并将在不久后发布支持原生模型的软件包更新。在此期间,你可以按照下面的官方SAM 3 README 步骤试用上游版本。

SAM 3 概述

SAM 3(Segment Anything Model 3)是 Meta 发布的可提示概念分割(PCS)基础模型。在SAM 2 的基础上,SAM 3 引入了一项全新功能:检测、分割和跟踪由文本提示、图像示例或两者指定的视觉概念的所有实例。以前的SAM 版本会根据提示segment 单个对象,而SAM 3 则不同,它可以找到并segment 出现在图像或视频中任何地方的每一个概念,从而与现代实例分割的开放词汇目标保持一致。

Ultralytics 正在积极将SAM 集成到 ultralytics 软件包。在该版本发布之前,您可以使用下面的官方安装和使用步骤,尝试使用上游 Meta 实现。

概述

与现有系统相比,SAM 3 在可提示概念分割方面的性能提高了 2 倍,同时保持并改进了SAM 2 的交互式视觉分割功能。该模型擅长开放式词汇分割,允许用户使用简单的名词短语(如 "黄色校车"、"条纹猫")或通过提供目标对象的示例图像来指定概念。这些功能是对生产就绪流水线的补充,生产就绪流水线依赖于简化的预测track工作流程。

SAM 3 分段

什么是 Promptable Concept Segmentation(PCS)?

PCS 任务将概念提示作为输入,并为所有匹配对象实例返回带有唯一标识的分割掩码。概念提示可以是

  • 文本:简单的名词短语,如 "红苹果 "或 "戴帽子的人",类似于零起点学习
  • 图像示例:围绕示例对象(正片或负片)的边界框,实现快速归纳
  • 结合:将文本和图像示例结合在一起,实现精确控制

这有别于传统的视觉提示(点、方框、遮罩),后者只对单个特定对象实例进行segment ,这在最初的SAM 系列中得到了推广。

关键绩效指标

指标SAM 3 成果
LVIS 零射口罩AP47.0(与之前最好成绩 38.5 相比,提高了 22)
SA-Co 基准比现有系统好 2 倍
推理速度(H200GPU每幅图像30 毫秒,可检测 100 多个物体
视频表演近乎实时地处理 ~5 个并发对象
MOSEv2 VOS 基准测试60.1 J&F(比SAM 2.1 增加 25.5%,比之前的 SOTA 增加 17)
交互式优化+18.6 CGF1在 3 次范例提示后得到改善
人类性能差距达到 SA-Co/Gold 估计下限的88

有关生产中的模型指标和权衡,请参阅模型评估见解YOLO 性能指标

架构

SAM 3 由检测器跟踪器组成,它们共享一个感知编码器(PE)视觉主干网。这种解耦设计可避免任务冲突,同时实现图像级检测和视频级跟踪,其界面与Ultralytics Python CLI 使用兼容。

核心组件

  • 探测器 基于 DETR 的图像级概念检测架构

    • 用于名词短语提示的文本编码器
    • 基于图像提示的示例编码器
    • 融合编码器根据提示调节图像特征
    • 将识别("是什么")与定位("在哪里")分离开来的新型存在头
    • 用于生成实例分割掩码的掩码头
  • 跟踪器继承自SAM 2的基于内存的视频分割功能

    • 提示编码器、掩码解码器、内存编码器
    • 用于跨帧存储对象外观的存储库
    • 在多对象环境中利用卡尔曼滤波器等技术辅助进行时空消歧
  • 存在标记:学习到的全局标记,可预测目标概念是否出现在图像/帧中,通过将识别与定位分离来改进检测。

SAM 3 架构

主要创新

  1. 识别与定位分离:存在头预测全局概念的存在,而提议查询只关注本地化,避免了目标冲突。
  2. 统一的概念和视觉提示:在一个模型中同时支持 PCS(概念提示)和 PVS(视觉提示,如SAM 2 的点击/方框)。
  3. 交互式范例完善:用户可以添加正片或负片图像示例来迭代改进结果,通过模型对类似对象进行归纳,而不仅仅是纠正单个实例。
  4. 时间消歧:使用小掩码检测得分和定期重新提示来处理视频中的遮挡、拥挤场景和跟踪失败,与实例分割和跟踪最佳实践保持一致。

SA-Co 数据集

SAM 3 是在Segment Anything with Concepts (SA-Co) 上进行训练的,Segment Anything with Concepts (SA-Co) 是 Meta 迄今为止最大、最多样化的细分数据集,它超越了普通基准,如 COCOLVIS 等常见基准。

培训数据

数据集组件描述规模
SA-Co/HQ来自 4 相数据引擎的高质量人工标注图像数据520 万张图片,400 万个独特的名词短语
SA-Co/SYN人工智能标注的合成数据集,无需人工参与3 800 万个名词短语,14 亿个掩码
SA-Co/EXT15 个外部数据集丰富了硬阴性数据因资料来源而异
SA-Co/VIDEO具有时间跟踪功能的视频注释52.5K 个视频,24.8K 个独特的名词短语

基准数据

SA-Co 评估基准包含214K 个独特短语,涉及126K 张图片和视频,提供的概念比现有基准多 50 倍以上。它包括

  • SA-Co/Gold:7 个领域,三重标注,用于测量人类性能界限
  • SA-Co/银:10 个域,单一人类注释
  • SA-Co/BronzeSA- Co/ Bio:9 个现有数据集,用于概念细分
  • SA-Co/VEval:包含 3 个领域(SA-V、YT-Temporal-1B、SmartGlasses)的视频基准测试

数据引擎创新

SAM 3 可扩展的人机交互数据引擎可实现2 倍的注释吞吐量

  1. 人工智能注释器:基于喇嘛的模型可提出包括硬否定在内的各种名词短语
  2. 人工智能验证器:微调多模态 LLM以接近人类的性能验证掩码质量和穷举性
  3. 主动挖掘:将人力集中在人工智能难以解决的具有挑战性的故障案例上
  4. 本体驱动:利用维基数据中的大型本体进行概念覆盖

安装

一旦整合完成,SAM 3 将直接在Ultralytics 软件包中提供。安装仍将保留:

pip install ultralytics

首次使用时,模型将自动下载。然后,您可以使用标准预测模式,随后将模型导出为以下格式 ONNXTensorRT等格式导出模型进行部署。敬请期待包含SAM 权重和配置的软件包更新。

如何使用SAM 3:概念细分的多样性

Ultralytics 应用程序接口预览

以下示例展示了SAM 3 软件包中的Ultralytics 应用程序接口。在整合之前,细节可能会发生变化。

支持的任务和模型

SAM 3 支持可提示概念分割 (PCS) 和可提示视觉分割 (PVS) 任务:

任务类型提示类型输出
概念细分 (PCS)文本(名词短语)、图像示例与概念匹配的所有实例
视觉分割 (PVS)点、盒、面罩单一对象实例SAM 2 风格)
交互式优化反复添加/删除示例或点击细化分段,提高准确性

概念细分示例

带文本提示的片段

基于文本的概念分割

使用文本描述查找和segment 概念的所有实例。

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

带图像示例的分段

基于范例的图像分割

使用一个或多个示例对象来查找所有类似的实例。

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

交互式优化

利用范例进行迭代改进

在初始输出的基础上增加示例提示,逐步改善结果。

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

视频概念分割

在视频中跟踪概念

检测并track 整个视频中某个概念的所有实例。

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

有关更广泛的流媒体和生产设置,请参阅对象跟踪在终端中查看结果

视觉提示SAM 与SAM 2 兼容)

SAM 3 与SAM 2 的视觉提示保持完全向后兼容:

SAM 2 风格视觉提示

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

性能基准

图像分割

SAM 3 在多个基准测试(包括LVISCOCO 用于分割的真实数据集)中取得了最先进的结果:

基准测试指标SAM 3上一个最佳改进
LVIS(零镜头)面具AP47.038.5+22.1%
SA-Co/GoldCGF165.034.3(OWLv2)+89.5%
COCO (零发)框AP53.552.2 (T-Rex2)+2.5%
ADE-847 (semantic seg)mIoU14.79.2 (APE-D)+59.8%
PascalConcept-59mIoU59.458.5 (APE-D)+1.5%
城市景观mIoU65.144.2 (APE-D)+47.3%

探索数据集选项,以便在Ultralytics 数据集中进行快速实验。

视频分割性能

DAVIS 2017YouTube-VOS 等视频基准测试中,SAM 3 与SAM 2 和之前的先进技术相比有了明显改善:

基准测试指标SAM 3SAM 2.1 L改进
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

少镜头改编

SAM 3 擅长以最少的示例适应新领域,这与以数据为中心的人工智能工作流程息息相关:

基准测试0 发AP10 发AP上届最佳(10 次)
ODinW1359.971.667.9 (gDino1.5-Pro)
RF100-VL14.335.733.7 (gDino-T)

互动式改进效果

SAM 3 基于概念的示例提示比视觉提示收敛得更快:

添加提示CGF1 分数增益与纯文本增益与 PVS 基线对比
仅限文本46.4底线底线
+1 示例57.6+11.2+6.7
+2 示例62.2+15.8+9.7
+3 示例65.0+18.6+11.2
+4 典范65.7+19.3+11.5(高原)

物体计数精度

SAM 3 通过分割所有实例来提供精确的计数,这也是物体计数的一个共同要求:

基准测试准确性MAEvs 最佳 MLLM
计数本95.6%0.1192.4%(双子座 2.5)
PixMo-Count87.3%0.2288.8%(Molmo-72B)

SAM 3 vsSAM 2 vsYOLO 比较

在此,我们将SAM 3 的功能与SAM 2 和 YOLO11模型的能力进行比较:

能力SAM 3SAM 2YOLO11n-seg
概念细分✅ 文本/示例中的所有实例不支持不支持
视觉分割✅ 单实例SAM 与SAM 2 兼容)✅ 单一实例✅ 所有实例
零发射能力开放词汇✅ 几何提示封闭集
交互式优化✅ 范例 + 点击✅ 仅点击不支持
视频跟踪✅ 具有身份的多对象✅ 多对象✅ 多对象
LVIS 掩膜AP (零射程)47.0N/AN/A
MOSEv2 J&F60.147.9N/A
推理速度(H200)30 毫秒(100 多个对象)~23 毫秒(每个对象)2-3 毫秒(图像)
模型尺寸大(预计 ~400+ MB)162 MB(基本)5.9 MB

主要收获

  • SAM 3:最适用于开放词汇概念分割,根据文本或示例提示查找概念的所有实例
  • SAM 2:最适合在图像和视频中使用几何提示进行交互式单体分割
  • YOLO11:最适合在资源有限的部署中使用高效的导出管道(如 ONNXTensorRT

评估指标

SAM 3 引入了专为 PCS 任务设计的新指标,对F1 分数精确度召回率等常用指标进行了补充。

分类门控 F1 (CGF1)

定位与分类相结合的主要指标:

CGF1 = 100 × pmF1 × IL_MCC

其中:

  • pmF1(正面宏 F1):测量正面示例的定位质量
  • IL_MCC(图像级马修斯相关系数):测量二元分类的准确性("概念是否存在?)

为什么采用这些指标?

传统的AP 指标不考虑校准,使得模型在实际中难以使用。通过只评估置信度高于 0.5 的预测值,SAM 3 的指标可执行良好的校准,并在交互式预测track循环。

关键消融和见解

存在的影响

存在头将识别与定位分离开来,大大提高了识别率:

配置CGF1IL_MCCpmF1
没有存在57.60.7774.7
有了存在感63.30.8277.1

存在头可提升 5.7 个 CGF1(+9.9%),主要是提高识别能力(IL_MCC +6.5%)。

硬底片的效果

硬底片/图像CGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

硬否定词对开放词汇识别至关重要,可将 IL_MCC 提高54.5%(0.44 → 0.68)。

训练数据缩放

数据来源CGF1IL_MCCpmF1
仅限外部30.90.4666.3
外部 + 合成39.70.5770.6
外部 + 总部51.80.7173.2
所有三个54.30.7473.5

高质量的人工标注比单纯的合成数据或外部数据有更大的优势。有关数据质量实践的背景,请参阅数据收集和注释

应用

SAM 3 的概念细分功能可实现新的使用案例:

  • 内容管理:在媒体库中查找特定内容类型的所有实例
  • 电子商务:对目录图片中某一类型的所有产品进行分类,支持自动标注
  • 医学影像:识别所有出现的特定组织类型或异常情况
  • 自主系统:按类别追踪交通标志、行人或车辆的所有情况
  • 视频分析:统计并track 所有穿着特定服装或执行特定动作的人
  • 数据集注释:快速注释稀有对象类别的所有实例
  • 科学研究:量化和分析所有符合特定标准的标本

SAM 3 代理:扩展语言推理

SAM 3 可与多模态大语言模型 (MLLM) 结合使用,以处理需要推理的复杂查询,其精神类似于OWLv2T-Rex 等开放词汇系统。

推理任务成绩

基准测试指标SAM 3 代理(双子座 2.5 Pro)上一个最佳
ReasonSeg(验证)gIoU76.065.0 (SoTA)
ReasonSeg(测试)gIoU73.861.3 (SoTA)
全方位标签(验证)AP46.736.5 (REAL)
RefCOCO+Acc91.289.3 (LISA)

复杂查询示例

SAM 3 代理可处理需要推理的查询:

  • "人们坐下来,但手里没有拿礼盒"
  • "离镜头最近且没有戴项圈的狗"
  • "比手大的红色物体"

MLLM 向SAM 3 提出简单的名词短语查询,分析返回的掩码,并不断重复,直到满意为止。

局限性

虽然SAM 3 是一项重大进步,但也有一定的局限性:

  • 短语复杂性:最适合简单的名词短语;长指代表达或复杂推理可能需要 MLLM 集成
  • 模糊处理:有些概念本身就含糊不清(如 "小窗户"、"舒适的房间 "等)
  • 计算要求:比专门的检测模型(如 YOLO
  • 词汇范围:侧重于原子视觉概念;在没有 MLLM 辅助的情况下,组合推理能力有限
  • 罕见概念:对于训练数据中未充分反映的极其罕见或细粒度概念,性能可能会下降

引用

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

常见问题

SAM 3 什么时候发布?

Meta 于2025 年 11 月 20 日发布了SAM 3。对Ultralytics 的支持正在进行中,并将在即将发布的软件包更新中提供预测模式track 模式的完整文档。

SAM 3 将被整合到Ultralytics 中吗?

是的。Ultralytics Python 软件包将支持SAM 3,包括概念分割、SAM 2风格的可视化提示和多对象视频跟踪。您将可以导出为以下格式 ONNXTensorRT等格式导出,并使用简化的 PythonCLI工作流程。

实施时间表

本文档中的代码示例为预览版本,展示了预期的使用模式。实际实施将在Ultralytics 完成集成后提供。

什么是 Promptable Concept Segmentation (PCS)?

PCS 是SAM 3 中引入的一项新任务,用于分割图像或视频中视觉概念的所有实例。与针对特定对象实例的传统分割不同,PCS 可以找到一个类别中出现的每一个实例。例如

  • 文字提示:"黄色校车"→分段显示场景中的所有黄色校车
  • 图像示例:一只狗周围的方框 → 分割图像中的所有狗
  • 组合:"条纹猫 "+示例框 → 分割与示例匹配的所有条纹猫

请参阅对象检测实例分割的相关背景。

SAM 3 与SAM 2 有何不同?

特点SAM 2SAM 3
任务每个提示单个对象概念的所有实例
提示类型点、盒、面罩+ 文本短语、图像示例
检测能力需要外部探测器内置开放词汇检测器
认可仅基于几何图形文本和视觉识别
架构仅跟踪器探测器 + 跟踪器(带存在头
零点射击性能不适用(需要视觉提示)LVIS 的AP 为 47.0,SA-Co 的AP 高 2 倍
交互式优化仅点击点击 + 范例推广

SAM 3 与SAM 2视觉提示保持向后兼容,同时增加了基于概念的功能。

哪些数据集用于训练SAM 3?

SAM 3 是在 "有概念的分段"(SA-Co)数据集上进行训练的:

训练数据

  • 520 万张图片400 万个独特的名词短语(SA-Co/HQ)--高质量的人工注释
  • 52.5K 个视频24.8 K 个独特的名词短语(SA-Co/视频)
  • 1.4B 个合成掩码,涉及3800 万个名词短语(SA-Co/SYN)
  • 15 个富含硬阴性的外部数据集(SA-Co/EXT)

基准数据

  • 214K 个独特概念,涉及126K 张图片/视频
  • 比现有基准多 50 倍的概念(例如,LVIS 有 ~4K 个概念)
  • 用于衡量人类性能界限的 SA-Co/Gold 三重注释

这种巨大的规模和多样性使SAM 3 能够对开放词汇概念进行卓越的零点泛化。

在细分方面,SAM 3 与YOLO11 相比如何?

SAM 3 和YOLO11 有着不同的用途:

SAM 3 的优势

  • 开放式词汇:通过文本提示分割任何概念,无需培训
  • 零拍摄:可立即用于新类别
  • 互动:基于范例的细化可推广到类似对象
  • 基于概念:自动查找某个类别的所有实例
  • 准确度: LVIS 零镜头实例分割的AP 为 47.0

YOLO11 的优势

  • 速度:推理速度提高 10-15 倍(每幅图像 2-3ms 对 30ms)
  • 效率:模型小 70 倍(5.9MB 对预期的 ~400MB)
  • 资源友好型:可在边缘设备和移动设备上运行
  • 实时性:针对生产部署进行了优化

建议

  • 使用SAM 3进行灵活的开放式词汇分割,您需要找到文本或示例中描述的概念的所有实例
  • 使用 YOLO11用于预先知道类别的高速生产部署
  • 使用SAM 2通过几何提示进行交互式单个物体分割

SAM 3 能否处理复杂的语言查询?

SAM 3 适用于简单的名词短语(如 "红苹果"、"戴帽子的人")。对于需要推理的复杂查询,可将SAM 3 与 MLLM 结合起来,成为SAM 3 Agent

简单查询(本地SAM 3)

  • "黄色校车"
  • "条纹猫"
  • "戴红帽子的人"

复杂查询(SAM 3 代理与 MLLM)

  • "人们坐下来,但没有拿着礼盒"
  • "离镜头最近的狗没有项圈
  • "比手大的红色物体"

通过将SAM 3 的分割功能与 MLLM 推理功能相结合,SAM 3 Agent 在 ReasonSeg 验证中获得了76.0 gIoU(与之前的最佳值 65.0 相比,提高了 16.9%)。

与人类表现相比,SAM 3 的准确性如何?

采用三重人类注释的 SA-Co/Gold 基准:

  • 人类下限:74.2 CGF1(最保守的注释者)
  • SAM 3 性能: 65.0 CGF1
  • 成果:估计人类下限的88
  • 人类上限:81.4 CGF1(最自由的注释者)

SAM 3 在开放词汇概念分词方面取得了接近人类准确率的优异成绩,主要差距在于模糊或主观概念(如 "小窗户"、"舒适的房间")。



📅创建 1 个月前 ✏️已更新 1 天前
glenn-jocherY-T-G

评论