SAM 3: Alles mit Konzepten segmentieren

Q: When Will SAM 3 Be Released?

SAM 3 wurde am 20. November 2025 von Meta veröffentlicht. Die Unterstützung von Ultralytics ist in Arbeit und wird in einem kommenden Paket-Update mit vollständiger Dokumentation für den Vorhersage- und den track bereitgestellt.

Q: Will SAM 3 Be Integrated Into Ultralytics?

Ja. SAM 3 wird bei der Veröffentlichung im Ultralytics Python unterstützt, einschließlich Konzept-Segmentierung, visuelle Aufforderungen im Stil von SAM 2 und Multi-Objekt-Video-Tracking. Sie werden in der Lage sein, für die Bereitstellung in Formate wie ONNX und TensorRT zu exportieren, mit optimierten Python und CLI .

Q: What datasets are used to train SAM 3?

SAM 3 wird mit dem Datensatz Segment Anything with Concepts (SA-Co) trainiert: Trainingsdaten: Benchmark-Daten: Diese enorme Größe und Vielfalt ermöglicht SAM 3 eine überragende Generalisierung über Konzepte mit offenem Vokabular hinweg.

Q: How does SAM 3 compare to YOLO11 for segmentation?

SAM 3 und YOLO11 dienen unterschiedlichen Zwecken: SAM 3 Vorteile: YOLO11 Vorteile: Empfehlung:

Freigegeben - Ultralytics in Arbeit

Meta hat SAM am 20. November 2025 veröffentlicht. Ultralytics integriert die Modelle jetzt und wird bald ein Paket-Update mit nativer Unterstützung bereitstellen. In der Zwischenzeit können Sie die offiziellen SAM 3 README-Schritte unten befolgen, um die Upstream-Version zu testen.

SAM 3 Überblick

SAM 3 (Segment Anything Model 3) ist Metas neues Grundmodell für Promptable Concept Segmentation (PCS). SAM 3 baut auf SAM 2 auf und führt eine grundlegend neue Fähigkeit ein: das Erkennen, Segmentieren und Verfolgen aller Instanzen eines visuellen Konzepts, das durch Textaufforderungen, Bildbeispiele oder beides spezifiziert wird. Im Gegensatz zu früheren SAM , die einzelne Objekte pro Eingabeaufforderung segment , kann SAM 3 jedes Vorkommen eines Konzepts, das an beliebiger Stelle in Bildern oder Videos auftaucht, finden und segment , was den Zielen eines offenen Vokabulars in der modernen Instanzsegmentierung entspricht.

Ultralytics arbeitet aktiv an der Integration von SAM in das ultralytics Paket. Bis zu dieser Veröffentlichung können Sie mit der Upstream-Meta-Implementierung experimentieren, indem Sie die offiziellen Installations- und Verwendungsschritte unten verwenden.

Überblick

SAM 3 erreicht einen zweifachen Leistungszuwachs gegenüber bestehenden Systemen bei der abfragbaren Begriffssegmentierung, während die Fähigkeiten von SAM 2 zur interaktiven visuellen Segmentierung beibehalten und verbessert werden. Das Modell zeichnet sich durch eine Segmentierung mit offenem Vokabular aus, die es den Benutzern ermöglicht, Konzepte durch einfache Substantivphrasen (z. B. "gelber Schulbus", "gestreifte Katze") oder durch die Bereitstellung von Beispielbildern des Zielobjekts zu spezifizieren. Diese Fähigkeiten ergänzen produktionsreife Pipelines, die sich auf optimierte Vorhersage- und track Arbeitsabläufen beruhen.

SAM 3 Segmentierung

Was ist Promptable Concept Segmentation (PCS)?

Die PCS-Aufgabe nimmt einen Concept Prompt als Eingabe und liefert Segmentierungsmasken mit eindeutigen Identitäten für alle passenden Objektinstanzen. Concept Prompts können sein:

Text: Einfache Substantivsätze wie "roter Apfel" oder "Person, die einen Hut trägt", ähnlich wie beim Zero-Shot-Lernen
Bildbeispiele: Bounding Boxes um Beispielobjekte (positiv oder negativ) für eine schnelle Generalisierung
Kombiniert: Text- und Bildvorlagen zusammen für eine präzise Kontrolle

Dies unterscheidet sich von den traditionellen visuellen Aufforderungen (Punkte, Kästchen, Masken), die nur ein einziges spezifisches Objekt segment , wie sie von der ursprünglichen SAM verwendet wurden.

Wichtige Leistungskennzahlen

Metrik	SAM 3 Errungenschaft
LVIS Zero-Shot Maske AP	47,0 (gegenüber der vorherigen Bestmarke von 38,5, Verbesserung um 22 %)
SA-Co Benchmark	2× besser als bestehende Systeme
Inferenzgeschwindigkeit (H200 GPU)	30 ms pro Bild mit 100+ erkannten Objekten
Video Leistung	Nahezu Echtzeit für ~5 gleichzeitige Objekte
MOSEv2 VOS-Benchmark	60,1 J&F (+25,5% gegenüber SAM 2.1, +17% gegenüber früherer SOTA)
Interaktive Verfeinerung	+18,6 CGF1-Verbesserung nach 3 beispielhaften Aufforderungen
Menschliche Leistungslücke	Erreicht 88% der geschätzten Untergrenze für SA-Co/Gold

Weitere Informationen zu Modellmetriken und Kompromissen in der Produktion finden Sie unter Erkenntnisse aus der Modellbewertung und YOLO .

Architektur

SAM 3 besteht aus einem Detektor und einem Tracker, die sich ein Perception Encoder (PE) Vision-Backbone teilen. Dieses entkoppelte Design vermeidet Aufgabenkonflikte und ermöglicht sowohl die Erkennung auf Bildebene als auch die Verfolgung auf Videoebene mit einer Schnittstelle, die mit derVerwendung von Ultralytics Python und CLI kompatibel ist.

Kernkomponenten

Detektor: DETR-basierte Architektur zur Erkennung von Konzepten auf Bildebene
- Textkodierer für Nomenphrasen-Eingabeaufforderungen
- Exemplarischer Kodierer für bildbasierte Eingabeaufforderungen
- Fusionskodierer zur Konditionierung von Bildmerkmalen bei Aufforderungen
- Neuartiger Präsenzkopf, der die Erkennung ("was") von der Lokalisierung ("wo") entkoppelt
- Maskenkopf zur Erzeugung von Instanzsegmentierungsmasken
Tracker: Speicherbasierte Videosegmentierung, übernommen von SAM 2
- Aufforderungscodierer, Maskendecodierer, Speichercodierer
- Speicherbank zur Speicherung des Erscheinungsbildes von Objekten über mehrere Bilder hinweg
- Zeitliche Disambiguierung mit Hilfe von Techniken wie einem Kalman-Filter in einer Umgebung mit mehreren Objekten
Anwesenheits-Token: Ein erlerntes globales Token, das vorhersagt, ob das Zielkonzept im Bild/Bildausschnitt vorhanden ist, und das die Erkennung durch Trennung von Erkennung und Lokalisierung verbessert.

SAM 3 Architektur

Wichtige Innovationen

Entkoppelte Erkennung und Lokalisierung: Der Präsenzkopf sagt das Vorhandensein von Konzepten global voraus, während sich die Vorschlagsanfragen nur auf die Lokalisierung konzentrieren, wodurch Zielkonflikte vermieden werden.
Vereinheitlichte Konzept- und visuelle Prompts: Unterstützt sowohl PCS (Concept Prompts) als auch PVS (Visual Prompts wie die Clicks/Boxes von SAM 2) in einem einzigen Modell.
Interaktive Verfeinerung von Exemplaren: Benutzer können positive oder negative Bildbeispiele hinzufügen, um die Ergebnisse iterativ zu verfeinern, wobei das Modell auf ähnliche Objekte verallgemeinert, anstatt nur einzelne Instanzen zu korrigieren.
Zeitliche Disambiguierung: Verwendet Masklet-Erkennungsergebnisse und regelmäßige Wiederholungsaufforderungen, um Verdeckungen, überfüllte Szenen und Verfolgungsfehler in Videos zu behandeln und sich an bewährten Verfahren zur Instanzsegmentierung und Verfolgung zu orientieren.

SA-Co-Datensatz

SAM 3 wird auf Segment Anything with Concepts (SA-Co) trainiert, dem bisher größten und vielfältigsten Segmentierungsdatensatz von Meta, der über die üblichen Benchmarks wie COCO und LVIS.

Ausbildungsdaten

Datensatz Komponente	Beschreibung	Skala
SA-Co/HQ	Hochwertige, von Menschen kommentierte Bilddaten aus einer 4-Phasen-Datenmaschine	5,2 Mio. Bilder, 4 Mio. einzigartige Substantivphrasen
SA-Co/SYN	Synthetischer Datensatz, der von KI ohne menschliche Beteiligung beschriftet wird	38M Substantivsätze, 1,4B Masken
SA-Ko/EXT	15 mit harten Negativen angereicherte externe Datensätze	Variiert je nach Quelle
SA-Co/VIDEO	Videoanmerkungen mit zeitlicher Verfolgung	52,5K Videos, 24,8K einzigartige Substantivsätze

Benchmark-Daten

Der SA-Co-Benchmark enthält 214.000 einzigartige Phrasen in 126.000 Bildern und Videos und bietet damit mehr als 50 Mal mehr Konzepte als bestehende Benchmarks. Er umfasst:

SA-Co/Gold: 7 Bereiche, dreifach annotiert für die Messung menschlicher Leistungsgrenzen
SA-Co/Silver: 10 Domänen, einzelne menschliche Annotation
SA-Co/Bronze und SA-Co/Bio: 9 bestehende Datensätze, die für die Konzept-Segmentierung angepasst wurden
SA-Co/VEval: Video-Benchmark mit 3 Domänen (SA-V, YT-Temporal-1B, SmartGlasses)

Innovationen bei der Datenverarbeitung

Die skalierbare Human- und Model-in-the-Loop-Daten-Engine von SAM 3 erreicht einen 2fachen Annotationsdurchsatz:

KI-Bemerker: Lama-basierte Modelle schlagen verschiedene Substantiv-Phrasen vor, einschließlich harter Negative
KI-Prüfer: Feinabgestimmte multimodale LLMs überprüfen die Qualität und Vollständigkeit von Masken mit nahezu menschlicher Leistung
Aktives Mining: Konzentriert menschliche Bemühungen auf schwierige Fehlerfälle, bei denen die KI Schwierigkeiten hat
Ontologie-gesteuert: Nutzung einer umfangreichen Ontologie auf der Grundlage von Wikidata zur Erfassung von Konzepten

Installation

SAM 3 wird direkt im Ultralytics verfügbar sein, sobald die Integration erfolgt ist. Die Installation wird beibehalten:

pip install ultralytics

Die Modelle werden bei der ersten Verwendung automatisch heruntergeladen. Sie können dann den Standard-Vorhersagemodus verwenden und die Modelle später in Formate wie ONNX und exportieren. TensorRT für den Einsatz exportieren. Achten Sie auf ein baldiges Paket-Update mit SAM Gewichten und Konfigurationen.

Verwendung von SAM 3: Vielseitigkeit bei der Konzept-Segmentierung

Ultralytics API-Vorschau

Die folgenden Beispiele zeigen die geplante Ultralytics , sobald SAM 3 im Paket geliefert wird. Bis zur Integration können sich die Details noch ändern.

Unterstützte Aufgaben und Modelle

SAM 3 unterstützt sowohl Promptable Concept Segmentation (PCS) als auch Promptable Visual Segmentation (PVS) Aufgaben:

Aufgaben-Typ	Aufforderungstypen	Ausgabe
Konzept-Segmentierung (PCS)	Text (Substantivphrasen), Bildbeispiele	Alle Instanzen, die dem Konzept
Visuelle Segmentierung (PVS)	Punkte, Boxen, Masken	Einzelne ObjektinstanzSAM 2-Stil)
Interaktive Verfeinerung	Beispiele oder Klicks iterativ hinzufügen/entfernen	Verfeinerte Segmentierung mit verbesserter Genauigkeit

Beispiele für Konzept-Segmentierung

Segment mit Textaufforderungen

Textbasierte Konzept-Segmentierung

Finden und segment Sie alle Instanzen eines Konzepts anhand einer Textbeschreibung.

PythonCLI

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")

# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Segment mit Bildbeispielen

Exemplarische Segmentierung von Bildern

Verwenden Sie ein oder mehrere Beispielobjekte, um alle ähnlichen Instanzen zu finden.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Iterative Verfeinerung mit Exemplaren

Verbessern Sie die Ergebnisse schrittweise, indem Sie auf der Grundlage der anfänglichen Ergebnisse beispielhafte Aufforderungen hinzufügen.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Segmentierung von Videokonzepten

Konzepte im Video verfolgen

Erkennen und track alle Instanzen eines Konzepts in einem Video.

Python

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Für umfassendere Streaming- und Produktions-Setups siehe Objektverfolgung und Ergebnisanzeige im Terminal.

Visuelle EingabeaufforderungenSAM 2-Kompatibilität)

SAM 3 ist vollständig abwärtskompatibel mit der visuellen Eingabeaufforderung von SAM 2:

Visuelle Aufforderungen im Stil von SAM 2

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Leistungsbenchmarks

Bildsegmentierung

SAM 3 erzielt bei mehreren Benchmarks, einschließlich realer Datensätze wie LVIS und COCO für die Segmentierung, die besten Ergebnisse:

Benchmark	Metrik	SAM 3	Vorheriges Bestes	Verbesserung
LVIS (Null-Schuss)	Maske AP	47.0	38.5	+22.1%
SA-Ko/Gold	CGF1	65.0	34,3 (OWLv2)	+89.5%
COCO (Null-Schuss)	Box AP	53.5	52,2 (T-Rex2)	+2.5%
ADE-847 (semantische Seg)	mIoU	14.7	9.2 (APE-D)	+59.8%
PascalKonzept-59	mIoU	59.4	58,5 (APE-D)	+1.5%
Stadtlandschaften (semantische Seg)	mIoU	65.1	44,2 (APE-D)	+47.3%

Erkunden Sie Datensatzoptionen für schnelle Experimente in Ultralytics .

Video-Segmentierungsleistung

SAM 3 zeigt bei Video-Benchmarks wie DAVIS 2017 und YouTube-VOS deutliche Verbesserungen gegenüber SAM 2 und dem vorherigen Stand der Technik:

Benchmark	Metrik	SAM 3	SAM 2.1 L	Verbesserung
MOSEv2	J&F	60.1	47.9	+25.5%
DAVIS 2017	J&F	92.0	90.7	+1.4%
LVOSv2	J&F	88.2	79.6	+10.8%
SA-V	J&F	84.6	78.4	+7.9%
YTVOS19	J&F	89.6	89.3	+0.3%

Few-Shot-Anpassung

SAM 3 zeichnet sich dadurch aus, dass es sich mit wenigen Beispielen an neue Bereiche anpassen lässt, die für datenzentrierte KI-Workflows relevant sind:

Benchmark	0-Schuss AP	AP	Bisherige Bestleistung (10-Schuss)
ODinW13	59.9	71.6	67,9 (gDino1.5-Pro)
RF100-VL	14.3	35.7	33,7 (gDino-T)

Das konzeptbasierte Prompting von SAM 3 mit Beispielen konvergiert viel schneller als das visuelle Prompting:

Prompts hinzugefügt	CGF1-Ergebnis	Verstärkung vs. Nur-Text	Gewinn im Vergleich zur PVS-Basislinie
Nur Text	46.4	Grundlinie	Grundlinie
+1 Exemplar	57.6	+11.2	+6.7
+2 Exemplare	62.2	+15.8	+9.7
+3 Exemplare	65.0	+18.6	+11.2
+4 Exemplare	65.7	+19.3	+11,5 (Plateau)

Genauigkeit der Objektzählung

SAM 3 ermöglicht eine genaue Zählung, indem es alle Instanzen segmentiert, eine übliche Anforderung bei der Objektzählung:

Benchmark	Genauigkeit	MAE	gegen beste MLLM
CountBench	95.6%	0.11	92,4% (Zwilling 2,5)
PixMo-Count	87.3%	0.22	88,8% (Molmo-72B)

SAM 3 vs. SAM 2 vs. YOLO Vergleich

Hier vergleichen wir die Fähigkeiten von SAM 3 mit SAM 2 und YOLO11 Modellen:

Fähigkeit	SAM 3	SAM 2	YOLO11n-seg
Konzept Segmentierung	✅ Alle Instanzen aus Text/Mustern	❌ Nicht unterstützt	❌ Nicht unterstützt
Visuelle Segmentierung	✅ Einzelne InstanzSAM 2 kompatibel)	✅ Einzelne Instanz	✅ Alle Instanzen
Null-Schuss-Fähigkeit	✅ Offener Wortschatz	✅ Geometrische Eingabeaufforderungen	❌ Geschlossener Satz
Interaktive Verfeinerung	✅ Exemplare + Klicks	✅ Nur Klicks	❌ Nicht unterstützt
Video-Verfolgung	✅ Multi-Objekt mit Identitäten	✅ Multi-Objekt	✅ Multi-Objekt
LVIS-Maske AP (Null-Schuss)	47.0	N/A	N/A
MOSEv2 J&F	60.1	47.9	N/A
Inferenzgeschwindigkeit (H200)	30 ms (100+ Objekte)	~23 ms (pro Objekt)	2-3 ms (Bild)
Modell Größe	Groß (~400+ MB erwartet)	162 MB (Basis)	5,9 MB

Wichtigste Erkenntnisse:

SAM 3: Am besten geeignet für die Segmentierung von Konzepten mit offenem Wortschatz, um alle Instanzen eines Konzepts mit Text oder Beispielen zu finden
SAM 2: Am besten geeignet für die interaktive Segmentierung von Einzelobjekten in Bildern und Videos mit geometrischen Eingabeaufforderungen
YOLO11: Bestens geeignet für Echtzeit-Hochgeschwindigkeits-Segmentierung in ressourcenbeschränkten Einsätzen unter Verwendung effizienter Export-Pipelines wie ONNX und TensorRT

Bewertungsmetriken

SAM 3 führt neue Metriken ein, die für die PCS-Aufgabe entwickelt wurden und die bekannten Maße wie F1-Score, Präzision und Recall ergänzen.

Klassifikationsgesteuerte F1 (CGF1)

Die primäre Metrik, die Lokalisierung und Klassifizierung kombiniert:

CGF1 = 100 × pmF1 × IL_MCC

Wobei:

pmF1 (Positives Makro F1): Misst die Lokalisierungsqualität bei positiven Beispielen
IL_MCC (Matthews-Korrelationskoeffizient auf Bildebene): Misst die binäre Klassifizierungsgenauigkeit ("ist das Konzept vorhanden?")

Warum diese Metriken?

Herkömmliche AP berücksichtigen die Kalibrierung nicht, was die Verwendung der Modelle in der Praxis erschwert. Indem nur Vorhersagen über 0,5 Konfidenz bewertet werden, erzwingen die Metriken von SAM 3 eine gute Kalibrierung und imitieren reale Nutzungsmuster in der interaktiven Vorhersage und track Schleifen.

Wichtige Ablationen und Einsichten

Auswirkungen der Anwesenheit Kopf

Der Anwesenheitskopf entkoppelt die Erkennung von der Lokalisierung, was zu erheblichen Verbesserungen führt:

Konfiguration	CGF1	IL_MCC	pmF1
Ohne Anwesenheit	57.6	0.77	74.7
Mit Präsenz	63.3	0.82	77.1

Der Anwesenheitskopf erhöht den CGF1-Wert um +5,7 (+9,9 %) und verbessert vor allem die Erkennungsfähigkeit (IL_MCC +6,5 %).

Wirkung von harten Negativen

Harte Negative/Bild	CGF1	IL_MCC	pmF1
0	31.8	0.44	70.2
5	44.8	0.62	71.9
30	49.2	0.68	72.3

Harte Negative sind entscheidend für die Erkennung von offenem Wortschatz und verbessern IL_MCC um 54,5% (0,44 → 0,68).

Skalierung der Trainingsdaten

Datenquellen	CGF1	IL_MCC	pmF1
Nur extern	30.9	0.46	66.3
Extern + Synthetisch	39.7	0.57	70.6
Extern + HQ	51.8	0.71	73.2
Alle drei	54.3	0.74	73.5

Qualitativ hochwertige menschliche Annotationen bieten einen großen Vorteil gegenüber synthetischen oder externen Daten allein. Hintergrundinformationen zu Datenqualitätspraktiken finden Sie unter Datenerfassung und Annotation.

Anwendungen

Die Konzeptsegmentierungsfunktion von SAM 3 ermöglicht neue Anwendungsfälle:

Inhaltsmoderation: Finden Sie alle Instanzen bestimmter Inhaltstypen in Medienbibliotheken
Elektronischer Handel: Segmentieren Sie alle Produkte eines bestimmten Typs in Katalogbildern und unterstützen Sie die automatische Kommentierung.
Medizinische Bildgebung: Identifizieren Sie alle Vorkommen bestimmter Gewebetypen oder Anomalien
Autonome Systeme: Verfolgen Sie alle Vorkommnisse von Verkehrszeichen, Fußgängern oder Fahrzeugen nach Kategorien
Videoanalyse: Zählen und track alle Personen, die bestimmte Kleidung tragen oder bestimmte Aktionen ausführen
Datensatz-Anmerkung: Schnelles Beschriften aller Instanzen seltener Objektkategorien
Wissenschaftliche Forschung: Quantifizierung und Analyse aller Proben, die bestimmte Kriterien erfüllen

SAM 3 Agent: Erweitertes sprachliches Reasoning

SAM 3 kann mit multimodalen großen Sprachmodellen (MLLMs) kombiniert werden, um komplexe Abfragen zu bearbeiten, die Schlussfolgerungen erfordern, ähnlich wie bei Systemen mit offenem Vokabular wie OWLv2 und T-Rex.

Leistung bei logischen Aufgaben

Benchmark	Metrik	SAM 3 Agent (Gemini 2.5 Pro)	Vorheriges Bestes
ReasonSeg (Validierung)	gIoU	76.0	65,0 (SoTA)
ReasonSeg (test)	gIoU	73.8	61,3 (SoTA)
OmniLabel (Validierung)	AP	46.7	36,5 (REAL)
RefCOCO+	Acc	91.2	89,3 (LISA)

Beispiel: Komplexe Abfragen

SAM 3 Agent kann Abfragen bearbeiten, die logisches Denken erfordern:

"Menschen, die sich hinsetzen, aber kein Geschenkpaket in den Händen halten"
"Der Hund, der der Kamera am nächsten ist und kein Halsband trägt"
"Rote Gegenstände, die größer sind als die Hand der Person"

Das MLLM schlägt SAM 3 einfache Substantivphrasen-Abfragen vor, analysiert die zurückgegebenen Masken und iteriert, bis die Anfragen zufriedenstellend sind.

Einschränkungen

SAM 3 stellt zwar einen großen Fortschritt dar, hat aber auch gewisse Einschränkungen:

Komplexität der Phrase: Am besten geeignet für einfache Substantivphrasen; lange verweisende Ausdrücke oder komplexe Argumentationen erfordern möglicherweise die Integration von MLLM
Umgang mit Mehrdeutigkeit: Einige Begriffe bleiben von Natur aus mehrdeutig (z. B. "kleines Fenster", "gemütliches Zimmer")
Rechnerische Anforderungen: Größer und langsamer als spezialisierte Erkennungsmodelle wie YOLO
Umfang des Vokabulars: Konzentriert auf atomare visuelle Konzepte; kompositorisches Denken ist ohne MLLM-Unterstützung begrenzt
Seltene Konzepte: Die Leistung kann sich bei extrem seltenen oder feinkörnigen Konzepten verschlechtern, die in den Trainingsdaten nicht gut repräsentiert sind.

Zitat

BibTeX

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Wann wird SAM 3 veröffentlicht?

SAM 3 wurde am 20. November 2025 von Meta veröffentlicht. Die Unterstützung von Ultralytics ist in Arbeit und wird in einem kommenden Paket-Update mit vollständiger Dokumentation für den Vorhersage- und den track bereitgestellt.

Wird SAM 3 in Ultralytics integriert werden?

Ja, SAM 3 wird bei der Veröffentlichung im Ultralytics Python unterstützt, einschließlich Konzept-Segmentierung, visuelle Aufforderungen im Stil von SAM 2 und Video-Tracking mit mehreren Objekten. Sie werden in Formate exportieren können wie ONNX und exportieren. TensorRT zu exportieren, um sie einzusetzen, mit optimierten Python und CLI Arbeitsabläufen.

Zeitplan für die Umsetzung

Bei den Codebeispielen in dieser Dokumentation handelt es sich um Vorabversionen, die die beabsichtigten Verwendungsmuster zeigen. Die tatsächliche Implementierung wird verfügbar sein, sobald Ultralytics die Integration abgeschlossen hat.

Was ist Promptable Concept Segmentation (PCS)?

PCS ist eine neue Aufgabe, die in SAM 3 eingeführt wurde und alle Instanzen eines visuellen Konzepts in einem Bild oder Video segmentiert. Im Gegensatz zur traditionellen Segmentierung, die auf eine bestimmte Objektinstanz abzielt, findet PCS jedes Vorkommen einer Kategorie. Zum Beispiel:

Textaufforderung: "Gelber Schulbus" → Segmente aller gelben Schulbusse in der Szene
Bildbeispiel: Kasten um einen Hund → Segmente für alle Hunde im Bild
Kombiniert: "gestreifte Katze" + Beispielbox → Segmente aller gestreiften Katzen, die dem Beispiel entsprechen

Siehe Hintergrundinformationen zur Objekterkennung und Instanzsegmentierung.

Wie unterscheidet sich SAM 3 von SAM 2?

Merkmal	SAM 2	SAM 3
Aufgabe	Einzelnes Objekt pro Eingabeaufforderung	Alle Instanzen eines Konzepts
Aufforderungstypen	Punkte, Boxen, Masken	+ Textphrasen, Bildbeispiele
Aufdeckungsfähigkeit	Erfordert externen Detektor	Integrierter Detektor für offenes Vokabular
Anerkennungen	Nur Geometrie-basiert	Text und visuelle Erkennung
Architektur	Nur Tracker	Detektor + Tracker mit Anwesenheitskopf
Zero-Shot Leistung	Nicht zutreffend (erfordert visuelle Eingabeaufforderungen)	47,0 AP auf LVIS, 2× besser auf SA-Co
Interaktive Verfeinerung	Nur Klicks	Klicks + Generalisierung von Beispielen

SAM 3 behält die Abwärtskompatibilität mit der visuellen Eingabeaufforderung von SAM 2 bei und fügt gleichzeitig konzeptbasierte Funktionen hinzu.

Welche Datensätze werden für das Training von SAM 3 verwendet?

SAM 3 wird mit dem Datensatz Segment Anything with Concepts (SA-Co) trainiert:

Trainingsdaten:

5,2 Mio. Bilder mit 4 Mio. eindeutigen Substantivphrasen (SA-Co/HQ) - hochwertige menschliche Annotationen
52,5K Videos mit 24,8K einzigartigen Substantivierungen (SA-Co/VIDEO)
1.4B synthetische Masken über 38M Substantivphrasen (SA-Co/SYN)
15 mit harten Negativen angereicherte externe Datensätze (SA-Co/EXT)

Benchmark-Daten:

214K einzigartige Konzepte in 126K Bildern/Videos
50x mehr Konzepte als bestehende Benchmarks (z.B. hat LVIS ~4K Konzepte)
Triple Annotation auf SA-Co/Gold zur Messung menschlicher Leistungsgrenzen

Diese enorme Bandbreite und Vielfalt ermöglicht die überragende Generalisierung von SAM 3 über Konzepte mit offenem Wortschatz hinweg.

Wie schneidet SAM 3 im Vergleich zu YOLO11 bei der Segmentierung ab?

SAM 3 und YOLO11 dienen unterschiedlichen Zwecken:

SAM 3 Vorteile:

Offener Wortschatz: Segmentiert jedes Konzept über Textaufforderungen ohne Training
Null-Fehler: Funktioniert bei neuen Kategorien sofort
Interaktiv: Exemplar-basierte Verfeinerung verallgemeinert auf ähnliche Objekte
Konzeptbasiert: Findet automatisch alle Instanzen einer Kategorie
Genauigkeit: 47,0 AP bei der LVIS-Segmentierung von Nullschüssen

YOLO11 Vorteile:

Geschwindigkeit: 10-15x schnellere Schlussfolgerungen (2-3ms gegenüber 30ms pro Bild)
Effizienz: 70× kleinere Modelle (5,9MB gegenüber ~400MB erwartet)
Ressourcenschonend: Läuft auf Edge-Geräten und Mobilgeräten
In Echtzeit: Optimiert für Produktionseinsätze

Empfehlung:

Verwenden Sie SAM 3 für die flexible Segmentierung eines offenen Vokabulars, wenn Sie alle Instanzen von Konzepten finden müssen, die durch Text oder Beispiele beschrieben werden.
Verwenden Sie YOLO11 für Hochgeschwindigkeits- und Produktionseinsätze, bei denen die Kategorien im Voraus bekannt sind
Verwenden Sie SAM 2 für die interaktive Segmentierung von Einzelobjekten mit geometrischen Eingabeaufforderungen

Kann SAM 3 komplexe Sprachabfragen verarbeiten?

SAM 3 ist für einfache Substantivphrasen konzipiert (z. B. "roter Apfel", "Person mit Hut"). Für komplexe Abfragen, die logisches Denken erfordern, kombinieren Sie SAM 3 mit einer MLLM als SAM 3 Agent:

Einfache Abfragen (natives SAM 3):

"Gelber Schulbus"
"Gestreifte Katze"
"Person mit rotem Hut"

Komplexe Abfragen (SAM 3 Agent mit MLLM):

"Menschen, die sich hinsetzen, aber kein Geschenkpaket in der Hand halten"
"Der Hund, der der Kamera am nächsten ist, ohne Halsband"
"Rote Gegenstände, die größer sind als die Hand der Person"

Der SAM 3 Agent erreicht bei der ReasonSeg-Validierung 76,0 gIoU (gegenüber 65,0, eine Verbesserung um 16,9 %), indem er die Segmentierung von SAM 3 mit den MLLM-Fähigkeiten kombiniert.

Wie genau ist SAM 3 im Vergleich zur menschlichen Leistung?

Beim SA-Co/Gold-Benchmark mit dreifacher menschlicher Annotation:

Menschliche Untergrenze: 74,2 CGF1 (konservativster Annotator)
SAM 3 Leistung: 65,0 CGF1
Leistung: 88 % der geschätzten menschlichen Untergrenze
Menschliche Obergrenze: 81,4 CGF1 (liberalster Annotator)

SAM 3 erreicht bei der Segmentierung von Konzepten mit offenem Vokabular eine starke Leistung, die sich der menschlichen Genauigkeit annähert, wobei die Lücke hauptsächlich bei mehrdeutigen oder subjektiven Konzepten (z. B. "kleines Fenster", "gemütliches Zimmer") besteht.

📅 Erstellt vor 1 Monat ✏️ Aktualisiert vor 1 Tag

SAM 3: Alles mit Konzepten segmentieren

Überblick

Was ist Promptable Concept Segmentation (PCS)?

Wichtige Leistungskennzahlen

Architektur

Kernkomponenten

Wichtige Innovationen

SA-Co-Datensatz

Ausbildungsdaten

Benchmark-Daten

Innovationen bei der Datenverarbeitung

Installation

Verwendung von SAM 3: Vielseitigkeit bei der Konzept-Segmentierung

Unterstützte Aufgaben und Modelle

Beispiele für Konzept-Segmentierung

Segment mit Textaufforderungen

Segment mit Bildbeispielen

Interaktive Verfeinerung

Segmentierung von Videokonzepten

Visuelle EingabeaufforderungenSAM 2-Kompatibilität)

Leistungsbenchmarks

Bildsegmentierung

Video-Segmentierungsleistung

Few-Shot-Anpassung

Interaktive Verfeinerung der Effektivität

Genauigkeit der Objektzählung

SAM 3 vs. SAM 2 vs. YOLO Vergleich

Bewertungsmetriken

Klassifikationsgesteuerte F1 (CGF1)

Warum diese Metriken?

Wichtige Ablationen und Einsichten

Auswirkungen der Anwesenheit Kopf

Wirkung von harten Negativen

Skalierung der Trainingsdaten

Anwendungen

SAM 3 Agent: Erweitertes sprachliches Reasoning

Leistung bei logischen Aufgaben

Beispiel: Komplexe Abfragen

Einschränkungen

Zitat

FAQ

Wann wird SAM 3 veröffentlicht?

Wird SAM 3 in Ultralytics integriert werden?

Was ist Promptable Concept Segmentation (PCS)?

Wie unterscheidet sich SAM 3 von SAM 2?

Welche Datensätze werden für das Training von SAM 3 verwendet?

Wie schneidet SAM 3 im Vergleich zu YOLO11 bei der Segmentierung ab?

Kann SAM 3 komplexe Sprachabfragen verarbeiten?

Wie genau ist SAM 3 im Vergleich zur menschlichen Leistung?

Kommentare