SAM 3：用概念分割任何内容

Q: When Will SAM 3 Be Released?

Meta 于 2025 年 11 月 20 日发布了SAM 3。对Ultralytics 的支持正在进行中，并将在即将发布的软件包更新中提供预测模式和track 模式的完整文档。

Q: Will SAM 3 Be Integrated Into Ultralytics?

是的。Ultralytics Python 软件包将支持SAM 3，包括概念分割、SAM 2 风格的可视化提示和多对象视频跟踪。您将能够导出到ONNX 和TensorRT 等格式，以便部署，并简化Python 和CLI 工作流程。

Q: What Is Promptable Concept Segmentation (PCS)?

PCS 是SAM 3 中引入的一项新任务，用于分割图像或视频中视觉概念的所有实例。与针对特定对象实例的传统分割不同，PCS 可找到一个类别中出现的每一个实例。例如查看对象检测和实例分割的相关背景。

Q: How Does SAM 3 Differ From SAM 2?

SAM 3 与SAM 2 视觉提示保持向后兼容，同时增加了基于概念的功能。

Q: What datasets are used to train SAM 3?

SAM 3 是在 "有概念的任何事物"（SA-Co）数据集上进行训练的：训练数据基准数据：这种大规模和多样性使SAM 3 能够在开放词汇概念中实现卓越的零误差泛化。

Q: How does SAM 3 compare to YOLO11 for segmentation?

SAM 3 和YOLO11 服务于不同的用例：SAM 3 的优势：YOLO11 优势：建议

Q: Can SAM 3 handle complex language queries?

SAM 3 适用于简单的名词短语（如 "红苹果"、"戴帽子的人"）。对于需要推理的复杂查询，可将SAM 3 与作为SAM 3 Agent 的 MLLM 结合使用：简单查询（本地SAM 3）：复杂查询SAM 3 Agent 与 MLLM）：通过将SAM 3 的分段功能与 MLLM 的推理功能相结合，SAM 3 Agent 在 ReasonSeg 验证中获得了 76.0 gIoU（与之前的最佳值 65.0 相比，提高了 16.9%）。

Q: How accurate is SAM 3 compared to human performance?

在有三重人类注释的 SA-Co/Gold 基准测试中：SAM 3 在开放词汇概念分割方面取得了接近人类准确率的优异表现，差距主要体现在模糊或主观概念上（如 "小窗户"、"舒适的房间"）。

已发布 -Ultralytics 集成正在进行中

Meta 于2025 年 11 月 20 日发布了SAM。Ultralytics 目前正在整合这些模型，并将在不久后发布支持原生模型的软件包更新。在此期间，你可以按照下面的官方SAM 3 README 步骤试用上游版本。

SAM 3 概述

SAM 3（Segment Anything Model 3）是 Meta 发布的可提示概念分割（PCS）基础模型。在SAM 2 的基础上，SAM 3 引入了一项全新功能：检测、分割和跟踪由文本提示、图像示例或两者指定的视觉概念的所有实例。以前的SAM 版本会根据提示segment 单个对象，而SAM 3 则不同，它可以找到并segment 出现在图像或视频中任何地方的每一个概念，从而与现代实例分割的开放词汇目标保持一致。

Ultralytics 正在积极将SAM 集成到 ultralytics 软件包。在该版本发布之前，您可以使用下面的官方安装和使用步骤，尝试使用上游 Meta 实现。

概述

与现有系统相比，SAM 3 在可提示概念分割方面的性能提高了 2 倍，同时保持并改进了SAM 2 的交互式视觉分割功能。该模型擅长开放式词汇分割，允许用户使用简单的名词短语（如 "黄色校车"、"条纹猫"）或通过提供目标对象的示例图像来指定概念。这些功能是对生产就绪流水线的补充，生产就绪流水线依赖于简化的预测和 track工作流程。

SAM 3 分段

什么是 Promptable Concept Segmentation（PCS）？

PCS 任务将概念提示作为输入，并为所有匹配对象实例返回带有唯一标识的分割掩码。概念提示可以是

文本：简单的名词短语，如 "红苹果 "或 "戴帽子的人"，类似于零起点学习
图像示例：围绕示例对象（正片或负片）的边界框，实现快速归纳
结合：将文本和图像示例结合在一起，实现精确控制

这有别于传统的视觉提示（点、方框、遮罩），后者只对单个特定对象实例进行segment ，这在最初的SAM 系列中得到了推广。

关键绩效指标

指标	SAM 3 成果
LVIS 零射口罩AP	47.0（与之前最好成绩 38.5 相比，提高了 22）
SA-Co 基准	比现有系统好 2 倍
推理速度（H200GPU	每幅图像30 毫秒，可检测 100 多个物体
视频表演	近乎实时地处理 ~5 个并发对象
MOSEv2 VOS 基准测试	60.1 J&F（比SAM 2.1 增加 25.5%，比之前的 SOTA 增加 17）
交互式优化	+18.6 CGF1在 3 次范例提示后得到改善
人类性能差距	达到 SA-Co/Gold 估计下限的88

有关生产中的模型指标和权衡，请参阅模型评估见解和YOLO 性能指标。

架构

SAM 3 由检测器和跟踪器组成，它们共享一个感知编码器（PE）视觉主干网。这种解耦设计可避免任务冲突，同时实现图像级检测和视频级跟踪，其界面与Ultralytics Python 和CLI 使用兼容。

核心组件

探测器 基于 DETR 的图像级概念检测架构
- 用于名词短语提示的文本编码器
- 基于图像提示的示例编码器
- 融合编码器根据提示调节图像特征
- 将识别（"是什么"）与定位（"在哪里"）分离开来的新型存在头
- 用于生成实例分割掩码的掩码头
跟踪器继承自SAM 2的基于内存的视频分割功能
- 提示编码器、掩码解码器、内存编码器
- 用于跨帧存储对象外观的存储库
- 在多对象环境中利用卡尔曼滤波器等技术辅助进行时空消歧
存在标记：学习到的全局标记，可预测目标概念是否出现在图像/帧中，通过将识别与定位分离来改进检测。

SAM 3 架构

主要创新

识别与定位分离：存在头预测全局概念的存在，而提议查询只关注本地化，避免了目标冲突。
统一的概念和视觉提示：在一个模型中同时支持 PCS（概念提示）和 PVS（视觉提示，如SAM 2 的点击/方框）。
交互式范例完善：用户可以添加正片或负片图像示例来迭代改进结果，通过模型对类似对象进行归纳，而不仅仅是纠正单个实例。
时间消歧：使用小掩码检测得分和定期重新提示来处理视频中的遮挡、拥挤场景和跟踪失败，与实例分割和跟踪最佳实践保持一致。

SA-Co 数据集

SAM 3 是在Segment Anything with Concepts (SA-Co) 上进行训练的，Segment Anything with Concepts (SA-Co) 是 Meta 迄今为止最大、最多样化的细分数据集，它超越了普通基准，如 COCO和LVIS 等常见基准。

培训数据

数据集组件	描述	规模
SA-Co/HQ	来自 4 相数据引擎的高质量人工标注图像数据	520 万张图片，400 万个独特的名词短语
SA-Co/SYN	人工智能标注的合成数据集，无需人工参与	3 800 万个名词短语，14 亿个掩码
SA-Co/EXT	15 个外部数据集丰富了硬阴性数据	因资料来源而异
SA-Co/VIDEO	具有时间跟踪功能的视频注释	52.5K 个视频，24.8K 个独特的名词短语

基准数据

SA-Co 评估基准包含214K 个独特短语，涉及126K 张图片和视频，提供的概念比现有基准多 50 倍以上。它包括

SA-Co/Gold：7 个领域，三重标注，用于测量人类性能界限
SA-Co/银：10 个域，单一人类注释
SA-Co/Bronze和SA- Co/ Bio：9 个现有数据集，用于概念细分
SA-Co/VEval：包含 3 个领域（SA-V、YT-Temporal-1B、SmartGlasses）的视频基准测试

数据引擎创新

SAM 3 可扩展的人机交互数据引擎可实现2 倍的注释吞吐量：

人工智能注释器：基于喇嘛的模型可提出包括硬否定在内的各种名词短语
人工智能验证器：微调多模态 LLM以接近人类的性能验证掩码质量和穷举性
主动挖掘：将人力集中在人工智能难以解决的具有挑战性的故障案例上
本体驱动：利用维基数据中的大型本体进行概念覆盖

安装

一旦整合完成，SAM 3 将直接在Ultralytics 软件包中提供。安装仍将保留：

pip install ultralytics

首次使用时，模型将自动下载。然后，您可以使用标准预测模式，随后将模型导出为以下格式 ONNX和 TensorRT等格式导出模型进行部署。敬请期待包含SAM 权重和配置的软件包更新。

如何使用SAM 3：概念细分的多样性

Ultralytics 应用程序接口预览

以下示例展示了SAM 3 软件包中的Ultralytics 应用程序接口。在整合之前，细节可能会发生变化。

支持的任务和模型

SAM 3 支持可提示概念分割 (PCS) 和可提示视觉分割 (PVS) 任务：

任务类型	提示类型	输出
概念细分 (PCS)	文本（名词短语）、图像示例	与概念匹配的所有实例
视觉分割 (PVS)	点、盒、面罩	单一对象实例SAM 2 风格）
交互式优化	反复添加/删除示例或点击	细化分段，提高准确性

概念细分示例

带文本提示的片段

基于文本的概念分割

使用文本描述查找和segment 概念的所有实例。

PythonCLI

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")

# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

带图像示例的分段

基于范例的图像分割

使用一个或多个示例对象来查找所有类似的实例。

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

利用范例进行迭代改进

在初始输出的基础上增加示例提示，逐步改善结果。

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

视频概念分割

在视频中跟踪概念

检测并track 整个视频中某个概念的所有实例。

Python

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

有关更广泛的流媒体和生产设置，请参阅对象跟踪和在终端中查看结果。

视觉提示SAM 与SAM 2 兼容）

SAM 3 与SAM 2 的视觉提示保持完全向后兼容：

SAM 2 风格视觉提示

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

应用程序接口预览

本示例展示了预期用途。实际实施有待Ultralytics 集成。

性能基准

图像分割

SAM 3 在多个基准测试（包括LVIS和COCO 等用于分割的真实数据集）中取得了最先进的结果：

基准测试	指标	SAM 3	上一个最佳	改进
LVIS（零镜头）	面具AP	47.0	38.5	+22.1%
SA-Co/Gold	CGF1	65.0	34.3（OWLv2）	+89.5%
COCO （零发）	框AP	53.5	52.2 (T-Rex2)	+2.5%
ADE-847 (semantic seg)	mIoU	14.7	9.2 (APE-D)	+59.8%
PascalConcept-59	mIoU	59.4	58.5 (APE-D)	+1.5%
城市景观	mIoU	65.1	44.2 (APE-D)	+47.3%

探索数据集选项，以便在Ultralytics 数据集中进行快速实验。

视频分割性能

在DAVIS 2017和YouTube-VOS 等视频基准测试中，SAM 3 与SAM 2 和之前的先进技术相比有了明显改善：

基准测试	指标	SAM 3	SAM 2.1 L	改进
MOSEv2	J&F	60.1	47.9	+25.5%
DAVIS 2017	J&F	92.0	90.7	+1.4%
LVOSv2	J&F	88.2	79.6	+10.8%
SA-V	J&F	84.6	78.4	+7.9%
YTVOS19	J&F	89.6	89.3	+0.3%

少镜头改编

SAM 3 擅长以最少的示例适应新领域，这与以数据为中心的人工智能工作流程息息相关：

基准测试	0 发AP	10 发AP	上届最佳（10 次）
ODinW13	59.9	71.6	67.9 (gDino1.5-Pro)
RF100-VL	14.3	35.7	33.7 (gDino-T)

SAM 3 基于概念的示例提示比视觉提示收敛得更快：

添加提示	CGF1 分数	增益与纯文本	增益与 PVS 基线对比
仅限文本	46.4	底线	底线
+1 示例	57.6	+11.2	+6.7
+2 示例	62.2	+15.8	+9.7
+3 示例	65.0	+18.6	+11.2
+4 典范	65.7	+19.3	+11.5（高原）

物体计数精度

SAM 3 通过分割所有实例来提供精确的计数，这也是物体计数的一个共同要求：

基准测试	准确性	MAE	vs 最佳 MLLM
计数本	95.6%	0.11	92.4%（双子座 2.5）
PixMo-Count	87.3%	0.22	88.8%（Molmo-72B）

SAM 3 vsSAM 2 vsYOLO 比较

在此，我们将SAM 3 的功能与SAM 2 和 YOLO11模型的能力进行比较：

能力	SAM 3	SAM 2	YOLO11n-seg
概念细分	✅ 文本/示例中的所有实例	不支持	不支持
视觉分割	✅ 单实例SAM 与SAM 2 兼容）	✅ 单一实例	✅ 所有实例
零发射能力	开放词汇	✅ 几何提示	封闭集
交互式优化	✅ 范例 + 点击	✅ 仅点击	不支持
视频跟踪	✅ 具有身份的多对象	✅ 多对象	✅ 多对象
LVIS 掩膜AP （零射程）	47.0	N/A	N/A
MOSEv2 J&F	60.1	47.9	N/A
推理速度（H200）	30 毫秒（100 多个对象）	~23 毫秒（每个对象）	2-3 毫秒（图像）
模型尺寸	大（预计 ~400+ MB）	162 MB（基本）	5.9 MB

主要收获：

SAM 3：最适用于开放词汇概念分割，根据文本或示例提示查找概念的所有实例
SAM 2：最适合在图像和视频中使用几何提示进行交互式单体分割
YOLO11:最适合在资源有限的部署中使用高效的导出管道（如 ONNX和 TensorRT

评估指标

SAM 3 引入了专为 PCS 任务设计的新指标，对F1 分数、精确度和召回率等常用指标进行了补充。

分类门控 F1 (CGF1)

定位与分类相结合的主要指标：

CGF1 = 100 × pmF1 × IL_MCC

其中：

pmF1（正面宏 F1）：测量正面示例的定位质量
IL_MCC（图像级马修斯相关系数）：测量二元分类的准确性（"概念是否存在？）

为什么采用这些指标？

传统的AP 指标不考虑校准，使得模型在实际中难以使用。通过只评估置信度高于 0.5 的预测值，SAM 3 的指标可执行良好的校准，并在交互式预测和 track循环。

关键消融和见解

存在的影响

存在头将识别与定位分离开来，大大提高了识别率：

配置	CGF1	IL_MCC	pmF1
没有存在	57.6	0.77	74.7
有了存在感	63.3	0.82	77.1

存在头可提升 5.7 个 CGF1（+9.9%），主要是提高识别能力（IL_MCC +6.5%）。

硬底片的效果

硬底片/图像	CGF1	IL_MCC	pmF1
0	31.8	0.44	70.2
5	44.8	0.62	71.9
30	49.2	0.68	72.3

硬否定词对开放词汇识别至关重要，可将 IL_MCC 提高54.5%(0.44 → 0.68)。

训练数据缩放

数据来源	CGF1	IL_MCC	pmF1
仅限外部	30.9	0.46	66.3
外部 + 合成	39.7	0.57	70.6
外部 + 总部	51.8	0.71	73.2
所有三个	54.3	0.74	73.5

高质量的人工标注比单纯的合成数据或外部数据有更大的优势。有关数据质量实践的背景，请参阅数据收集和注释。

应用

SAM 3 的概念细分功能可实现新的使用案例：

内容管理：在媒体库中查找特定内容类型的所有实例
电子商务：对目录图片中某一类型的所有产品进行分类，支持自动标注
医学影像：识别所有出现的特定组织类型或异常情况
自主系统：按类别追踪交通标志、行人或车辆的所有情况
视频分析：统计并track 所有穿着特定服装或执行特定动作的人
数据集注释：快速注释稀有对象类别的所有实例
科学研究：量化和分析所有符合特定标准的标本

SAM 3 代理：扩展语言推理

SAM 3 可与多模态大语言模型 (MLLM) 结合使用，以处理需要推理的复杂查询，其精神类似于OWLv2和T-Rex 等开放词汇系统。

推理任务成绩

基准测试	指标	SAM 3 代理（双子座 2.5 Pro）	上一个最佳
ReasonSeg（验证）	gIoU	76.0	65.0 (SoTA)
ReasonSeg（测试）	gIoU	73.8	61.3 (SoTA)
全方位标签（验证）	AP	46.7	36.5 (REAL)
RefCOCO+	Acc	91.2	89.3 (LISA)

复杂查询示例

SAM 3 代理可处理需要推理的查询：

"人们坐下来，但手里没有拿礼盒"
"离镜头最近且没有戴项圈的狗"
"比手大的红色物体"

MLLM 向SAM 3 提出简单的名词短语查询，分析返回的掩码，并不断重复，直到满意为止。

局限性

虽然SAM 3 是一项重大进步，但也有一定的局限性：

短语复杂性：最适合简单的名词短语；长指代表达或复杂推理可能需要 MLLM 集成
模糊处理：有些概念本身就含糊不清（如 "小窗户"、"舒适的房间 "等）
计算要求：比专门的检测模型（如 YOLO
词汇范围：侧重于原子视觉概念；在没有 MLLM 辅助的情况下，组合推理能力有限
罕见概念：对于训练数据中未充分反映的极其罕见或细粒度概念，性能可能会下降

引用

BibTeX

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

常见问题

SAM 3 什么时候发布？

Meta 于2025 年 11 月 20 日发布了SAM 3。对Ultralytics 的支持正在进行中，并将在即将发布的软件包更新中提供预测模式和track 模式的完整文档。

SAM 3 将被整合到Ultralytics 中吗？

是的。Ultralytics Python 软件包将支持SAM 3，包括概念分割、SAM 2风格的可视化提示和多对象视频跟踪。您将可以导出为以下格式 ONNX和 TensorRT等格式导出，并使用简化的 Python和 CLI工作流程。

实施时间表

本文档中的代码示例为预览版本，展示了预期的使用模式。实际实施将在Ultralytics 完成集成后提供。

什么是 Promptable Concept Segmentation (PCS)？

PCS 是SAM 3 中引入的一项新任务，用于分割图像或视频中视觉概念的所有实例。与针对特定对象实例的传统分割不同，PCS 可以找到一个类别中出现的每一个实例。例如

文字提示："黄色校车"→分段显示场景中的所有黄色校车
图像示例：一只狗周围的方框 → 分割图像中的所有狗
组合："条纹猫 "+示例框 → 分割与示例匹配的所有条纹猫

请参阅对象检测和实例分割的相关背景。

SAM 3 与SAM 2 有何不同？

特点	SAM 2	SAM 3
任务	每个提示单个对象	概念的所有实例
提示类型	点、盒、面罩	+ 文本短语、图像示例
检测能力	需要外部探测器	内置开放词汇检测器
认可	仅基于几何图形	文本和视觉识别
架构	仅跟踪器	探测器 + 跟踪器（带存在头
零点射击性能	不适用（需要视觉提示）	LVIS 的AP 为 47.0，SA-Co 的AP 高 2 倍
交互式优化	仅点击	点击 + 范例推广

SAM 3 与SAM 2视觉提示保持向后兼容，同时增加了基于概念的功能。

哪些数据集用于训练SAM 3？

SAM 3 是在 "有概念的分段"（SA-Co）数据集上进行训练的：

训练数据：

520 万张图片，400 万个独特的名词短语（SA-Co/HQ）--高质量的人工注释
52.5K 个视频，24.8 K 个独特的名词短语（SA-Co/视频）
1.4B 个合成掩码，涉及3800 万个名词短语（SA-Co/SYN）
15 个富含硬阴性的外部数据集（SA-Co/EXT）

基准数据：

214K 个独特概念，涉及126K 张图片/视频
比现有基准多 50 倍的概念（例如，LVIS 有 ~4K 个概念）
用于衡量人类性能界限的 SA-Co/Gold 三重注释

这种巨大的规模和多样性使SAM 3 能够对开放词汇概念进行卓越的零点泛化。

在细分方面，SAM 3 与YOLO11 相比如何？

SAM 3 和YOLO11 有着不同的用途：

SAM 3 的优势：

开放式词汇：通过文本提示分割任何概念，无需培训
零拍摄：可立即用于新类别
互动：基于范例的细化可推广到类似对象
基于概念：自动查找某个类别的所有实例
准确度： LVIS 零镜头实例分割的AP 为 47.0

YOLO11 的优势：

速度：推理速度提高 10-15 倍（每幅图像 2-3ms 对 30ms）
效率：模型小 70 倍（5.9MB 对预期的 ~400MB）
资源友好型：可在边缘设备和移动设备上运行
实时性：针对生产部署进行了优化

建议

使用SAM 3进行灵活的开放式词汇分割，您需要找到文本或示例中描述的概念的所有实例
使用 YOLO11用于预先知道类别的高速生产部署
使用SAM 2通过几何提示进行交互式单个物体分割

SAM 3 能否处理复杂的语言查询？

SAM 3 适用于简单的名词短语（如 "红苹果"、"戴帽子的人"）。对于需要推理的复杂查询，可将SAM 3 与 MLLM 结合起来，成为SAM 3 Agent：

简单查询（本地SAM 3）：

"黄色校车"
"条纹猫"
"戴红帽子的人"

复杂查询（SAM 3 代理与 MLLM）：

"人们坐下来，但没有拿着礼盒"
"离镜头最近的狗没有项圈
"比手大的红色物体"

通过将SAM 3 的分割功能与 MLLM 推理功能相结合，SAM 3 Agent 在 ReasonSeg 验证中获得了76.0 gIoU（与之前的最佳值 65.0 相比，提高了 16.9%）。

与人类表现相比，SAM 3 的准确性如何？

采用三重人类注释的 SA-Co/Gold 基准：

人类下限：74.2 CGF1（最保守的注释者）
SAM 3 性能： 65.0 CGF1
成果：估计人类下限的88
人类上限：81.4 CGF1（最自由的注释者）

SAM 3 在开放词汇概念分词方面取得了接近人类准确率的优异成绩，主要差距在于模糊或主观概念（如 "小窗户"、"舒适的房间"）。

📅创建 1 个月前 ✏️已更新 1 天前

SAM 3：用概念分割任何内容

概述

什么是 Promptable Concept Segmentation（PCS）？

关键绩效指标

架构

核心组件

主要创新

SA-Co 数据集

培训数据

基准数据

数据引擎创新

安装

如何使用SAM 3：概念细分的多样性

支持的任务和模型

概念细分示例

带文本提示的片段

带图像示例的分段

交互式优化

视频概念分割

视觉提示SAM 与SAM 2 兼容）

性能基准

图像分割

视频分割性能

少镜头改编

互动式改进效果

物体计数精度

SAM 3 vsSAM 2 vsYOLO 比较

评估指标

分类门控 F1 (CGF1)

为什么采用这些指标？

关键消融和见解

存在的影响

硬底片的效果

训练数据缩放

应用

SAM 3 代理：扩展语言推理

推理任务成绩

复杂查询示例

局限性

引用

常见问题

SAM 3 什么时候发布？

SAM 3 将被整合到Ultralytics 中吗？

什么是 Promptable Concept Segmentation (PCS)？

SAM 3 与SAM 2 有何不同？

哪些数据集用于训练SAM 3？

在细分方面，SAM 3 与YOLO11 相比如何？

SAM 3 能否处理复杂的语言查询？

与人类表现相比，SAM 3 的准确性如何？

评论