Segment Anything Model (SAM)
欢迎来到 Segment Anything Model (SAM) 的图像分割前沿领域。这一革命性模型通过引入具有实时性能的可提示图像分割,改变了游戏规则,并在该领域树立了新标准。
SAM 简介:Segment Anything Model
Segment Anything Model (SAM) 是一款尖端的图像分割模型,支持可提示的分割,在图像分析任务中提供了无与伦比的多功能性。SAM 是 Segment Anything 计划的核心,这是一项开创性的项目,引入了用于图像分割的新颖模型、任务和数据集。
SAM 的先进设计使其无需先验知识即可适应新的图像分布和任务,这一特性被称为零样本迁移。在庞大的 SA-1B 数据集上进行训练(该数据集包含超过 1100 万张精心挑选的图像上的 10 亿多个掩码),SAM 展示了令人印象深刻的零样本性能,在许多情况下超过了之前的全监督结果。
SA-1B 示例图像。 数据集图像叠加了来自新引入的 SA-1B 数据集的掩码。SA-1B 包含 1100 万张多样化、高分辨率、已授权且保护隐私的图像以及 11 亿个高质量分割掩码。这些掩码由 SAM 全自动标注,经人工评估和大量实验验证,具有高质量和多样性。图像按每张图像的掩码数量进行分组以进行可视化(平均每张图像约有 100 个掩码)。
Segment Anything Model (SAM) 的主要功能
- 可提示分割任务: SAM 在设计时就考虑了可提示分割任务,使其能够根据任何给定的提示(例如标识对象的空间或文本线索)生成有效的分割掩码。
- 先进架构: Segment Anything Model 采用强大的图像编码器、提示编码器和轻量级掩码解码器。这种独特的架构支持灵活的提示、实时掩码计算以及分割任务中的歧义感知。
- SA-1B 数据集: 由 Segment Anything 项目引入的 SA-1B 数据集在 1100 万张图像上拥有超过 10 亿个掩码。作为迄今为止最大的分割数据集,它为 SAM 提供了多样化且大规模的训练数据源。
- 零样本性能: SAM 在各种分割任务中表现出出色的零样本性能,使其成为一种现成的工具,只需极少的提示工程即可应用于多样化的应用程序。
有关 Segment Anything Model 和 SA-1B 数据集的深入了解,请访问 Segment Anything GitHub 并查看研究论文 Segment Anything。
SAM powers the smart annotation feature on Ultralytics Platform, enabling click-based intelligent masking for fast dataset labeling. See the annotation guide for details.
可用模型、支持的任务和操作模式
此表列出了可用模型及其特定的预训练权重、它们支持的任务,以及它们与推理、验证、训练和导出等不同操作模式的兼容性,其中 ✅ 表情符号表示支持,❌ 表情符号表示不支持。
如何使用 SAM:图像分割的多功能性和强大功能
Segment Anything Model 可用于许多超出其训练数据的下游任务。这包括边缘检测、对象候选生成、实例分割和初步的文本到掩码预测。通过提示工程,SAM 可以以零样本方式快速适应新的任务和数据分布,使其成为满足你所有图像分割需求的多功能且强大的工具。
SAM 预测示例
使用给定的提示分割图像。
from ultralytics import SAM
# Load a model
model = SAM("sam_b.pt")
# Display model information (optional)
model.info()
# Run inference with bboxes prompt
results = model("ultralytics/assets/zidane.jpg", bboxes=[439, 437, 524, 709])
# Run inference with single point
results = model(points=[900, 370], labels=[1])
# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])分割整个图像。
from ultralytics import SAM
# Load a model
model = SAM("sam_b.pt")
# Display model information (optional)
model.info()
# Run inference
model("path/to/image.jpg")- 这里的逻辑是,如果你不传递任何提示(bbox/点/掩码),就分割整个图像。
通过这种方式,你可以设置一次图像并多次运行提示推理,而无需多次运行图像编码器。
from ultralytics.models.sam import Predictor as SAMPredictor
# Create SAMPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="mobile_sam.pt")
predictor = SAMPredictor(overrides=overrides)
# Set image
predictor.set_image("ultralytics/assets/zidane.jpg") # set with image file
predictor.set_image(cv2.imread("ultralytics/assets/zidane.jpg")) # set with np.ndarray
results = predictor(bboxes=[439, 437, 524, 709])
# Run inference with single point prompt
results = predictor(points=[900, 370], labels=[1])
# Run inference with multiple points prompt
results = predictor(points=[[400, 370], [900, 370]], labels=[1, 1])
# Run inference with negative points prompt
results = predictor(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])
# Reset image
predictor.reset_image()使用附加参数分割一切。
from ultralytics.models.sam import Predictor as SAMPredictor
# Create SAMPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="mobile_sam.pt")
predictor = SAMPredictor(overrides=overrides)
# Segment with additional args
results = predictor(source="ultralytics/assets/zidane.jpg", crop_n_layers=1, points_stride=64)上述所有示例中返回的 results 都是 Results 对象,它们允许轻松访问预测的掩码和源图像。
- More additional args for
Segment everythingseePredictor/generateReference.
SAM 与 YOLO 的对比
在此我们对比 Meta 的 SAM-b 模型与包括 YOLO26n-seg 在内的 Ultralytics 分割模型:
| 模型 | 大小 (MB) | 参数 (M) | 速度 (CPU) (ms/im) |
|---|---|---|---|
| Meta SAM-b | 375 | 93.7 | 41703 |
| MobileSAM | 40.7 | 10.1 | 23802 |
| FastSAM-s 使用 YOLOv8 骨干网络 | 23.9 | 11.8 | 58.0 |
| Ultralytics YOLOv8n-seg | 7.1 (52.8倍更小) | 3.4 (27.6倍更少) | 24.8 (1682倍更快) |
| Ultralytics YOLO11n-seg | 6.2 (60.5倍更小) | 2.9 (32.3倍更少) | 24.3 (1716倍更快) |
| Ultralytics YOLO26n-seg | 6.7 (56.0倍更小) | 2.7 (34.7倍更少) | 25.2 (1655倍更快) |
此对比展示了 SAM 变体与 YOLO 分割模型之间在模型大小和速度上的巨大差异。虽然 SAM 提供了独特的自动分割能力,但 YOLO 模型,尤其是 YOLOv8n-seg、YOLO11n-seg 和 YOLO26n-seg,在体积上明显更小、速度更快,计算效率也更高。
SAM 速度使用 PyTorch 测量,YOLO 速度使用 ONNX Runtime 测量。测试在 2025 年的 Apple M4 Air(16GB 内存)上运行,使用 torch==2.10.0、ultralytics==8.4.31 和 onnxruntime==1.24.4。要重现此测试:
from ultralytics import ASSETS, SAM, YOLO, FastSAM
# Profile SAM-b, MobileSAM
for file in ["sam_b.pt", "mobile_sam.pt"]:
model = SAM(file)
model.info()
model(ASSETS)
# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)
# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
model = YOLO(file_name)
model.info()
onnx_path = model.export(format="onnx", dynamic=True)
model = YOLO(onnx_path)
model(ASSETS)自动标注:分割数据集的快捷途径
自动标注是 SAM 的一项关键功能,允许用户使用预训练的检测模型生成分割数据集。此功能能够快速、准确地标注大量图像,无需耗时的手动标注。
使用检测模型生成你的分割数据集
要使用 Ultralytics 框架自动标注你的数据集,请使用如下所示的 auto_annotate 函数:
from ultralytics.data.annotator import auto_annotate
auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam_b.pt")| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
data | str | 必需 | 包含用于标注或分割的目标图像的目录路径。 |
det_model | str | 'yolo26x.pt' | 用于初始对象检测的 YOLO 检测模型路径。 |
sam_model | str | 'sam_b.pt' | 用于分割的 SAM 模型路径(支持 SAM、SAM2 变体和 MobileSAM 模型)。 |
device | str | '' | 计算设备(例如 'cuda:0'、'cpu',或 '' 用于自动设备检测)。 |
conf | float | 0.25 | 用于过滤弱检测的 YOLO 检测置信度阈值。 |
iou | float | 0.45 | 用于非极大值抑制(NMS)以过滤重叠框的 IoU 阈值。 |
imgsz | int | 640 | 调整图像大小的输入尺寸(必须是 32 的倍数)。 |
max_det | int | 300 | 每张图像的最大检测数量,用于提高内存效率。 |
classes | list[int] | None | 要检测的类索引列表(例如 [0, 1] 代表人和自行车)。 |
output_dir | str | None | 标注的保存目录(默认相对于数据路径为 './labels')。 |
auto_annotate 函数接收图像路径,并具有用于指定预训练检测和 SAM 分割模型、运行模型的设备以及用于保存标注结果的输出目录的可选参数。
使用预训练模型进行自动标注可以显著减少创建高质量分割数据集所需的时间和工作量。此功能对于处理大型图像集合的研究人员和开发者特别有益,因为它使他们能够专注于模型开发和评估,而不是手动标注。
引文与致谢
如果你觉得 SAM 对你的研究或开发工作有所帮助,请考虑引用我们的论文:
@misc{kirillov2023segment,
title={Segment Anything},
author={Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C. Berg and Wan-Yen Lo and Piotr Dollár and Ross Girshick},
year={2023},
eprint={2304.02643},
archivePrefix={arXiv},
primaryClass={cs.CV}
}我们要向 Meta AI 表示感谢,感谢他们为计算机视觉社区创建并维护了这一宝贵资源。
常见问题 (FAQ)
什么是 Ultralytics 的 Segment Anything Model (SAM)?
Ultralytics 的 Segment Anything Model (SAM) 是一款革命性的图像分割模型,专为可提示分割任务而设计。它利用先进的架构(包括图像编码器和提示编码器以及轻量级掩码解码器),能够根据各种提示(如空间或文本线索)生成高质量的分割掩码。SAM 在庞大的 SA-1B 数据集上进行训练,在零样本性能方面表现出色,无需先验知识即可适应新的图像分布和任务。
我该如何使用 Segment Anything Model (SAM) 进行图像分割?
你可以通过使用各种提示(如边界框或点)运行推理来使用 Segment Anything Model (SAM) 进行图像分割。以下是使用 Python 的示例:
from ultralytics import SAM
# Load a model
model = SAM("sam_b.pt")
# Segment with bounding box prompt
model("ultralytics/assets/zidane.jpg", bboxes=[439, 437, 524, 709])
# Segment with points prompt
model("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])
# Segment with multiple points prompt
model("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[[1, 1]])
# Segment with multiple points prompt per object
model("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])
# Segment with negative points prompt.
model("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])或者,你可以在命令行界面 (CLI) 中使用 SAM 运行推理:
yolo predict model=sam_b.pt source=path/to/image.jpg有关更详细的使用说明,请访问 分割部分。
SAM 和 YOLO 模型在性能方面如何对比?
与 YOLO 模型相比,SAM 变体(如 SAM-b、MobileSAM 和 FastSAM-s)通常体积更大且速度较慢,但提供了独特的零样本分割能力。例如,YOLO26n-seg 在 CPU 上比 Meta 的原始 SAM-b 模型小 56 倍且速度快 1650 倍以上。这使得 YOLO 模型非常适合需要快速、轻量级和高计算效率分割的应用,而 SAM 模型则在灵活、可提示和零样本分割任务中表现出色。
如何使用 SAM 对我的数据集进行自动标注?
Ultralytics 的 SAM 提供了一项自动标注功能,允许使用预训练的检测模型生成分割数据集。以下是 Python 中的一个示例:
from ultralytics.data.annotator import auto_annotate
auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam_b.pt")此函数接收你的图像路径以及预训练检测模型和 SAM 分割模型的可选参数,同时还包括设备和输出目录的指定。如需完整指南,请参阅 Auto-Annotation。
哪些数据集被用于训练 Segment Anything Model (SAM)?
SAM 是在庞大的 SA-1B dataset 上训练的,该数据集包含超过 1100 万张图像中的 10 亿多个掩码。SA-1B 是迄今为止最大的分割数据集,提供了高质量且多样的 training data,确保了在各种分割任务中具有出色的零样本性能。有关更多详细信息,请访问 Dataset section。