Zum Inhalt springen

SAM 3: Alles mit Konzepten segmentieren

Freigegeben - Ultralytics in Arbeit

Meta hat SAM am 20. November 2025 veröffentlicht. Ultralytics integriert die Modelle jetzt und wird bald ein Paket-Update mit nativer Unterstützung bereitstellen. In der Zwischenzeit können Sie die offiziellen SAM 3 README-Schritte unten befolgen, um die Upstream-Version zu testen.

SAM 3 Überblick

SAM 3 (Segment Anything Model 3) ist Metas neues Grundmodell für Promptable Concept Segmentation (PCS). SAM 3 baut auf SAM 2 auf und führt eine grundlegend neue Fähigkeit ein: das Erkennen, Segmentieren und Verfolgen aller Instanzen eines visuellen Konzepts, das durch Textaufforderungen, Bildbeispiele oder beides spezifiziert wird. Im Gegensatz zu früheren SAM , die einzelne Objekte pro Eingabeaufforderung segment , kann SAM 3 jedes Vorkommen eines Konzepts, das an beliebiger Stelle in Bildern oder Videos auftaucht, finden und segment , was den Zielen eines offenen Vokabulars in der modernen Instanzsegmentierung entspricht.

Ultralytics arbeitet aktiv an der Integration von SAM in das ultralytics Paket. Bis zu dieser Veröffentlichung können Sie mit der Upstream-Meta-Implementierung experimentieren, indem Sie die offiziellen Installations- und Verwendungsschritte unten verwenden.

Überblick

SAM 3 erreicht einen zweifachen Leistungszuwachs gegenüber bestehenden Systemen bei der abfragbaren Begriffssegmentierung, während die Fähigkeiten von SAM 2 zur interaktiven visuellen Segmentierung beibehalten und verbessert werden. Das Modell zeichnet sich durch eine Segmentierung mit offenem Vokabular aus, die es den Benutzern ermöglicht, Konzepte durch einfache Substantivphrasen (z. B. "gelber Schulbus", "gestreifte Katze") oder durch die Bereitstellung von Beispielbildern des Zielobjekts zu spezifizieren. Diese Fähigkeiten ergänzen produktionsreife Pipelines, die sich auf optimierte Vorhersage- und track Arbeitsabläufen beruhen.

SAM 3 Segmentierung

Was ist Promptable Concept Segmentation (PCS)?

Die PCS-Aufgabe nimmt einen Concept Prompt als Eingabe und liefert Segmentierungsmasken mit eindeutigen Identitäten für alle passenden Objektinstanzen. Concept Prompts können sein:

  • Text: Einfache Substantivsätze wie "roter Apfel" oder "Person, die einen Hut trägt", ähnlich wie beim Zero-Shot-Lernen
  • Bildbeispiele: Bounding Boxes um Beispielobjekte (positiv oder negativ) für eine schnelle Generalisierung
  • Kombiniert: Text- und Bildvorlagen zusammen für eine präzise Kontrolle

Dies unterscheidet sich von den traditionellen visuellen Aufforderungen (Punkte, Kästchen, Masken), die nur ein einziges spezifisches Objekt segment , wie sie von der ursprünglichen SAM verwendet wurden.

Wichtige Leistungskennzahlen

MetrikSAM 3 Errungenschaft
LVIS Zero-Shot Maske AP47,0 (gegenüber der vorherigen Bestmarke von 38,5, Verbesserung um 22 %)
SA-Co Benchmark2× besser als bestehende Systeme
Inferenzgeschwindigkeit (H200 GPU)30 ms pro Bild mit 100+ erkannten Objekten
Video LeistungNahezu Echtzeit für ~5 gleichzeitige Objekte
MOSEv2 VOS-Benchmark60,1 J&F (+25,5% gegenüber SAM 2.1, +17% gegenüber früherer SOTA)
Interaktive Verfeinerung+18,6 CGF1-Verbesserung nach 3 beispielhaften Aufforderungen
Menschliche LeistungslückeErreicht 88% der geschätzten Untergrenze für SA-Co/Gold

Weitere Informationen zu Modellmetriken und Kompromissen in der Produktion finden Sie unter Erkenntnisse aus der Modellbewertung und YOLO .

Architektur

SAM 3 besteht aus einem Detektor und einem Tracker, die sich ein Perception Encoder (PE) Vision-Backbone teilen. Dieses entkoppelte Design vermeidet Aufgabenkonflikte und ermöglicht sowohl die Erkennung auf Bildebene als auch die Verfolgung auf Videoebene mit einer Schnittstelle, die mit derVerwendung von Ultralytics Python und CLI kompatibel ist.

Kernkomponenten

  • Detektor: DETR-basierte Architektur zur Erkennung von Konzepten auf Bildebene

    • Textkodierer für Nomenphrasen-Eingabeaufforderungen
    • Exemplarischer Kodierer für bildbasierte Eingabeaufforderungen
    • Fusionskodierer zur Konditionierung von Bildmerkmalen bei Aufforderungen
    • Neuartiger Präsenzkopf, der die Erkennung ("was") von der Lokalisierung ("wo") entkoppelt
    • Maskenkopf zur Erzeugung von Instanzsegmentierungsmasken
  • Tracker: Speicherbasierte Videosegmentierung, übernommen von SAM 2

    • Aufforderungscodierer, Maskendecodierer, Speichercodierer
    • Speicherbank zur Speicherung des Erscheinungsbildes von Objekten über mehrere Bilder hinweg
    • Zeitliche Disambiguierung mit Hilfe von Techniken wie einem Kalman-Filter in einer Umgebung mit mehreren Objekten
  • Anwesenheits-Token: Ein erlerntes globales Token, das vorhersagt, ob das Zielkonzept im Bild/Bildausschnitt vorhanden ist, und das die Erkennung durch Trennung von Erkennung und Lokalisierung verbessert.

SAM 3 Architektur

Wichtige Innovationen

  1. Entkoppelte Erkennung und Lokalisierung: Der Präsenzkopf sagt das Vorhandensein von Konzepten global voraus, während sich die Vorschlagsanfragen nur auf die Lokalisierung konzentrieren, wodurch Zielkonflikte vermieden werden.
  2. Vereinheitlichte Konzept- und visuelle Prompts: Unterstützt sowohl PCS (Concept Prompts) als auch PVS (Visual Prompts wie die Clicks/Boxes von SAM 2) in einem einzigen Modell.
  3. Interaktive Verfeinerung von Exemplaren: Benutzer können positive oder negative Bildbeispiele hinzufügen, um die Ergebnisse iterativ zu verfeinern, wobei das Modell auf ähnliche Objekte verallgemeinert, anstatt nur einzelne Instanzen zu korrigieren.
  4. Zeitliche Disambiguierung: Verwendet Masklet-Erkennungsergebnisse und regelmäßige Wiederholungsaufforderungen, um Verdeckungen, überfüllte Szenen und Verfolgungsfehler in Videos zu behandeln und sich an bewährten Verfahren zur Instanzsegmentierung und Verfolgung zu orientieren.

SA-Co-Datensatz

SAM 3 wird auf Segment Anything with Concepts (SA-Co) trainiert, dem bisher größten und vielfältigsten Segmentierungsdatensatz von Meta, der über die üblichen Benchmarks wie COCO und LVIS.

Ausbildungsdaten

Datensatz KomponenteBeschreibungSkala
SA-Co/HQHochwertige, von Menschen kommentierte Bilddaten aus einer 4-Phasen-Datenmaschine5,2 Mio. Bilder, 4 Mio. einzigartige Substantivphrasen
SA-Co/SYNSynthetischer Datensatz, der von KI ohne menschliche Beteiligung beschriftet wird38M Substantivsätze, 1,4B Masken
SA-Ko/EXT15 mit harten Negativen angereicherte externe DatensätzeVariiert je nach Quelle
SA-Co/VIDEOVideoanmerkungen mit zeitlicher Verfolgung52,5K Videos, 24,8K einzigartige Substantivsätze

Benchmark-Daten

Der SA-Co-Benchmark enthält 214.000 einzigartige Phrasen in 126.000 Bildern und Videos und bietet damit mehr als 50 Mal mehr Konzepte als bestehende Benchmarks. Er umfasst:

  • SA-Co/Gold: 7 Bereiche, dreifach annotiert für die Messung menschlicher Leistungsgrenzen
  • SA-Co/Silver: 10 Domänen, einzelne menschliche Annotation
  • SA-Co/Bronze und SA-Co/Bio: 9 bestehende Datensätze, die für die Konzept-Segmentierung angepasst wurden
  • SA-Co/VEval: Video-Benchmark mit 3 Domänen (SA-V, YT-Temporal-1B, SmartGlasses)

Innovationen bei der Datenverarbeitung

Die skalierbare Human- und Model-in-the-Loop-Daten-Engine von SAM 3 erreicht einen 2fachen Annotationsdurchsatz:

  1. KI-Bemerker: Lama-basierte Modelle schlagen verschiedene Substantiv-Phrasen vor, einschließlich harter Negative
  2. KI-Prüfer: Feinabgestimmte multimodale LLMs überprüfen die Qualität und Vollständigkeit von Masken mit nahezu menschlicher Leistung
  3. Aktives Mining: Konzentriert menschliche Bemühungen auf schwierige Fehlerfälle, bei denen die KI Schwierigkeiten hat
  4. Ontologie-gesteuert: Nutzung einer umfangreichen Ontologie auf der Grundlage von Wikidata zur Erfassung von Konzepten

Installation

SAM 3 wird direkt im Ultralytics verfügbar sein, sobald die Integration erfolgt ist. Die Installation wird beibehalten:

pip install ultralytics

Die Modelle werden bei der ersten Verwendung automatisch heruntergeladen. Sie können dann den Standard-Vorhersagemodus verwenden und die Modelle später in Formate wie ONNX und exportieren. TensorRT für den Einsatz exportieren. Achten Sie auf ein baldiges Paket-Update mit SAM Gewichten und Konfigurationen.

Verwendung von SAM 3: Vielseitigkeit bei der Konzept-Segmentierung

Ultralytics API-Vorschau

Die folgenden Beispiele zeigen die geplante Ultralytics , sobald SAM 3 im Paket geliefert wird. Bis zur Integration können sich die Details noch ändern.

Unterstützte Aufgaben und Modelle

SAM 3 unterstützt sowohl Promptable Concept Segmentation (PCS) als auch Promptable Visual Segmentation (PVS) Aufgaben:

Aufgaben-TypAufforderungstypenAusgabe
Konzept-Segmentierung (PCS)Text (Substantivphrasen), BildbeispieleAlle Instanzen, die dem Konzept
Visuelle Segmentierung (PVS)Punkte, Boxen, MaskenEinzelne ObjektinstanzSAM 2-Stil)
Interaktive VerfeinerungBeispiele oder Klicks iterativ hinzufügen/entfernenVerfeinerte Segmentierung mit verbesserter Genauigkeit

Beispiele für Konzept-Segmentierung

Segment mit Textaufforderungen

Textbasierte Konzept-Segmentierung

Finden und segment Sie alle Instanzen eines Konzepts anhand einer Textbeschreibung.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Segment mit Bildbeispielen

Exemplarische Segmentierung von Bildern

Verwenden Sie ein oder mehrere Beispielobjekte, um alle ähnlichen Instanzen zu finden.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Interaktive Verfeinerung

Iterative Verfeinerung mit Exemplaren

Verbessern Sie die Ergebnisse schrittweise, indem Sie auf der Grundlage der anfänglichen Ergebnisse beispielhafte Aufforderungen hinzufügen.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Segmentierung von Videokonzepten

Konzepte im Video verfolgen

Erkennen und track alle Instanzen eines Konzepts in einem Video.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Für umfassendere Streaming- und Produktions-Setups siehe Objektverfolgung und Ergebnisanzeige im Terminal.

Visuelle EingabeaufforderungenSAM 2-Kompatibilität)

SAM 3 ist vollständig abwärtskompatibel mit der visuellen Eingabeaufforderung von SAM 2:

Visuelle Aufforderungen im Stil von SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

API-Vorschau

Dieses Beispiel zeigt die beabsichtigte Verwendung. Die tatsächliche Umsetzung hängt von der Integration von Ultralytics ab.

Leistungsbenchmarks

Bildsegmentierung

SAM 3 erzielt bei mehreren Benchmarks, einschließlich realer Datensätze wie LVIS und COCO für die Segmentierung, die besten Ergebnisse:

BenchmarkMetrikSAM 3Vorheriges BestesVerbesserung
LVIS (Null-Schuss)Maske AP47.038.5+22.1%
SA-Ko/GoldCGF165.034,3 (OWLv2)+89.5%
COCO (Null-Schuss)Box AP53.552,2 (T-Rex2)+2.5%
ADE-847 (semantische Seg)mIoU14.79.2 (APE-D)+59.8%
PascalKonzept-59mIoU59.458,5 (APE-D)+1.5%
Stadtlandschaften (semantische Seg)mIoU65.144,2 (APE-D)+47.3%

Erkunden Sie Datensatzoptionen für schnelle Experimente in Ultralytics .

Video-Segmentierungsleistung

SAM 3 zeigt bei Video-Benchmarks wie DAVIS 2017 und YouTube-VOS deutliche Verbesserungen gegenüber SAM 2 und dem vorherigen Stand der Technik:

BenchmarkMetrikSAM 3SAM 2.1 LVerbesserung
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

Few-Shot-Anpassung

SAM 3 zeichnet sich dadurch aus, dass es sich mit wenigen Beispielen an neue Bereiche anpassen lässt, die für datenzentrierte KI-Workflows relevant sind:

Benchmark0-Schuss APAPBisherige Bestleistung (10-Schuss)
ODinW1359.971.667,9 (gDino1.5-Pro)
RF100-VL14.335.733,7 (gDino-T)

Interaktive Verfeinerung der Effektivität

Das konzeptbasierte Prompting von SAM 3 mit Beispielen konvergiert viel schneller als das visuelle Prompting:

Prompts hinzugefügtCGF1-ErgebnisVerstärkung vs. Nur-TextGewinn im Vergleich zur PVS-Basislinie
Nur Text46.4GrundlinieGrundlinie
+1 Exemplar57.6+11.2+6.7
+2 Exemplare62.2+15.8+9.7
+3 Exemplare65.0+18.6+11.2
+4 Exemplare65.7+19.3+11,5 (Plateau)

Genauigkeit der Objektzählung

SAM 3 ermöglicht eine genaue Zählung, indem es alle Instanzen segmentiert, eine übliche Anforderung bei der Objektzählung:

BenchmarkGenauigkeitMAEgegen beste MLLM
CountBench95.6%0.1192,4% (Zwilling 2,5)
PixMo-Count87.3%0.2288,8% (Molmo-72B)

SAM 3 vs. SAM 2 vs. YOLO Vergleich

Hier vergleichen wir die Fähigkeiten von SAM 3 mit SAM 2 und YOLO11 Modellen:

FähigkeitSAM 3SAM 2YOLO11n-seg
Konzept Segmentierung✅ Alle Instanzen aus Text/Mustern❌ Nicht unterstützt❌ Nicht unterstützt
Visuelle Segmentierung✅ Einzelne InstanzSAM 2 kompatibel)✅ Einzelne Instanz✅ Alle Instanzen
Null-Schuss-Fähigkeit✅ Offener Wortschatz✅ Geometrische Eingabeaufforderungen❌ Geschlossener Satz
Interaktive Verfeinerung✅ Exemplare + Klicks✅ Nur Klicks❌ Nicht unterstützt
Video-Verfolgung✅ Multi-Objekt mit Identitäten✅ Multi-Objekt✅ Multi-Objekt
LVIS-Maske AP (Null-Schuss)47.0N/AN/A
MOSEv2 J&F60.147.9N/A
Inferenzgeschwindigkeit (H200)30 ms (100+ Objekte)~23 ms (pro Objekt)2-3 ms (Bild)
Modell GrößeGroß (~400+ MB erwartet)162 MB (Basis)5,9 MB

Wichtigste Erkenntnisse:

  • SAM 3: Am besten geeignet für die Segmentierung von Konzepten mit offenem Wortschatz, um alle Instanzen eines Konzepts mit Text oder Beispielen zu finden
  • SAM 2: Am besten geeignet für die interaktive Segmentierung von Einzelobjekten in Bildern und Videos mit geometrischen Eingabeaufforderungen
  • YOLO11: Bestens geeignet für Echtzeit-Hochgeschwindigkeits-Segmentierung in ressourcenbeschränkten Einsätzen unter Verwendung effizienter Export-Pipelines wie ONNX und TensorRT

Bewertungsmetriken

SAM 3 führt neue Metriken ein, die für die PCS-Aufgabe entwickelt wurden und die bekannten Maße wie F1-Score, Präzision und Recall ergänzen.

Klassifikationsgesteuerte F1 (CGF1)

Die primäre Metrik, die Lokalisierung und Klassifizierung kombiniert:

CGF1 = 100 × pmF1 × IL_MCC

Wobei:

  • pmF1 (Positives Makro F1): Misst die Lokalisierungsqualität bei positiven Beispielen
  • IL_MCC (Matthews-Korrelationskoeffizient auf Bildebene): Misst die binäre Klassifizierungsgenauigkeit ("ist das Konzept vorhanden?")

Warum diese Metriken?

Herkömmliche AP berücksichtigen die Kalibrierung nicht, was die Verwendung der Modelle in der Praxis erschwert. Indem nur Vorhersagen über 0,5 Konfidenz bewertet werden, erzwingen die Metriken von SAM 3 eine gute Kalibrierung und imitieren reale Nutzungsmuster in der interaktiven Vorhersage und track Schleifen.

Wichtige Ablationen und Einsichten

Auswirkungen der Anwesenheit Kopf

Der Anwesenheitskopf entkoppelt die Erkennung von der Lokalisierung, was zu erheblichen Verbesserungen führt:

KonfigurationCGF1IL_MCCpmF1
Ohne Anwesenheit57.60.7774.7
Mit Präsenz63.30.8277.1

Der Anwesenheitskopf erhöht den CGF1-Wert um +5,7 (+9,9 %) und verbessert vor allem die Erkennungsfähigkeit (IL_MCC +6,5 %).

Wirkung von harten Negativen

Harte Negative/BildCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

Harte Negative sind entscheidend für die Erkennung von offenem Wortschatz und verbessern IL_MCC um 54,5% (0,44 → 0,68).

Skalierung der Trainingsdaten

DatenquellenCGF1IL_MCCpmF1
Nur extern30.90.4666.3
Extern + Synthetisch39.70.5770.6
Extern + HQ51.80.7173.2
Alle drei54.30.7473.5

Qualitativ hochwertige menschliche Annotationen bieten einen großen Vorteil gegenüber synthetischen oder externen Daten allein. Hintergrundinformationen zu Datenqualitätspraktiken finden Sie unter Datenerfassung und Annotation.

Anwendungen

Die Konzeptsegmentierungsfunktion von SAM 3 ermöglicht neue Anwendungsfälle:

  • Inhaltsmoderation: Finden Sie alle Instanzen bestimmter Inhaltstypen in Medienbibliotheken
  • Elektronischer Handel: Segmentieren Sie alle Produkte eines bestimmten Typs in Katalogbildern und unterstützen Sie die automatische Kommentierung.
  • Medizinische Bildgebung: Identifizieren Sie alle Vorkommen bestimmter Gewebetypen oder Anomalien
  • Autonome Systeme: Verfolgen Sie alle Vorkommnisse von Verkehrszeichen, Fußgängern oder Fahrzeugen nach Kategorien
  • Videoanalyse: Zählen und track alle Personen, die bestimmte Kleidung tragen oder bestimmte Aktionen ausführen
  • Datensatz-Anmerkung: Schnelles Beschriften aller Instanzen seltener Objektkategorien
  • Wissenschaftliche Forschung: Quantifizierung und Analyse aller Proben, die bestimmte Kriterien erfüllen

SAM 3 Agent: Erweitertes sprachliches Reasoning

SAM 3 kann mit multimodalen großen Sprachmodellen (MLLMs) kombiniert werden, um komplexe Abfragen zu bearbeiten, die Schlussfolgerungen erfordern, ähnlich wie bei Systemen mit offenem Vokabular wie OWLv2 und T-Rex.

Leistung bei logischen Aufgaben

BenchmarkMetrikSAM 3 Agent (Gemini 2.5 Pro)Vorheriges Bestes
ReasonSeg (Validierung)gIoU76.065,0 (SoTA)
ReasonSeg (test)gIoU73.861,3 (SoTA)
OmniLabel (Validierung)AP46.736,5 (REAL)
RefCOCO+Acc91.289,3 (LISA)

Beispiel: Komplexe Abfragen

SAM 3 Agent kann Abfragen bearbeiten, die logisches Denken erfordern:

  • "Menschen, die sich hinsetzen, aber kein Geschenkpaket in den Händen halten"
  • "Der Hund, der der Kamera am nächsten ist und kein Halsband trägt"
  • "Rote Gegenstände, die größer sind als die Hand der Person"

Das MLLM schlägt SAM 3 einfache Substantivphrasen-Abfragen vor, analysiert die zurückgegebenen Masken und iteriert, bis die Anfragen zufriedenstellend sind.

Einschränkungen

SAM 3 stellt zwar einen großen Fortschritt dar, hat aber auch gewisse Einschränkungen:

  • Komplexität der Phrase: Am besten geeignet für einfache Substantivphrasen; lange verweisende Ausdrücke oder komplexe Argumentationen erfordern möglicherweise die Integration von MLLM
  • Umgang mit Mehrdeutigkeit: Einige Begriffe bleiben von Natur aus mehrdeutig (z. B. "kleines Fenster", "gemütliches Zimmer")
  • Rechnerische Anforderungen: Größer und langsamer als spezialisierte Erkennungsmodelle wie YOLO
  • Umfang des Vokabulars: Konzentriert auf atomare visuelle Konzepte; kompositorisches Denken ist ohne MLLM-Unterstützung begrenzt
  • Seltene Konzepte: Die Leistung kann sich bei extrem seltenen oder feinkörnigen Konzepten verschlechtern, die in den Trainingsdaten nicht gut repräsentiert sind.

Zitat

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Wann wird SAM 3 veröffentlicht?

SAM 3 wurde am 20. November 2025 von Meta veröffentlicht. Die Unterstützung von Ultralytics ist in Arbeit und wird in einem kommenden Paket-Update mit vollständiger Dokumentation für den Vorhersage- und den track bereitgestellt.

Wird SAM 3 in Ultralytics integriert werden?

Ja, SAM 3 wird bei der Veröffentlichung im Ultralytics Python unterstützt, einschließlich Konzept-Segmentierung, visuelle Aufforderungen im Stil von SAM 2 und Video-Tracking mit mehreren Objekten. Sie werden in Formate exportieren können wie ONNX und exportieren. TensorRT zu exportieren, um sie einzusetzen, mit optimierten Python und CLI Arbeitsabläufen.

Zeitplan für die Umsetzung

Bei den Codebeispielen in dieser Dokumentation handelt es sich um Vorabversionen, die die beabsichtigten Verwendungsmuster zeigen. Die tatsächliche Implementierung wird verfügbar sein, sobald Ultralytics die Integration abgeschlossen hat.

Was ist Promptable Concept Segmentation (PCS)?

PCS ist eine neue Aufgabe, die in SAM 3 eingeführt wurde und alle Instanzen eines visuellen Konzepts in einem Bild oder Video segmentiert. Im Gegensatz zur traditionellen Segmentierung, die auf eine bestimmte Objektinstanz abzielt, findet PCS jedes Vorkommen einer Kategorie. Zum Beispiel:

  • Textaufforderung: "Gelber Schulbus" → Segmente aller gelben Schulbusse in der Szene
  • Bildbeispiel: Kasten um einen Hund → Segmente für alle Hunde im Bild
  • Kombiniert: "gestreifte Katze" + Beispielbox → Segmente aller gestreiften Katzen, die dem Beispiel entsprechen

Siehe Hintergrundinformationen zur Objekterkennung und Instanzsegmentierung.

Wie unterscheidet sich SAM 3 von SAM 2?

MerkmalSAM 2SAM 3
AufgabeEinzelnes Objekt pro EingabeaufforderungAlle Instanzen eines Konzepts
AufforderungstypenPunkte, Boxen, Masken+ Textphrasen, Bildbeispiele
AufdeckungsfähigkeitErfordert externen DetektorIntegrierter Detektor für offenes Vokabular
AnerkennungenNur Geometrie-basiertText und visuelle Erkennung
ArchitekturNur TrackerDetektor + Tracker mit Anwesenheitskopf
Zero-Shot LeistungNicht zutreffend (erfordert visuelle Eingabeaufforderungen)47,0 AP auf LVIS, 2× besser auf SA-Co
Interaktive VerfeinerungNur KlicksKlicks + Generalisierung von Beispielen

SAM 3 behält die Abwärtskompatibilität mit der visuellen Eingabeaufforderung von SAM 2 bei und fügt gleichzeitig konzeptbasierte Funktionen hinzu.

Welche Datensätze werden für das Training von SAM 3 verwendet?

SAM 3 wird mit dem Datensatz Segment Anything with Concepts (SA-Co) trainiert:

Trainingsdaten:

  • 5,2 Mio. Bilder mit 4 Mio. eindeutigen Substantivphrasen (SA-Co/HQ) - hochwertige menschliche Annotationen
  • 52,5K Videos mit 24,8K einzigartigen Substantivierungen (SA-Co/VIDEO)
  • 1.4B synthetische Masken über 38M Substantivphrasen (SA-Co/SYN)
  • 15 mit harten Negativen angereicherte externe Datensätze (SA-Co/EXT)

Benchmark-Daten:

  • 214K einzigartige Konzepte in 126K Bildern/Videos
  • 50x mehr Konzepte als bestehende Benchmarks (z.B. hat LVIS ~4K Konzepte)
  • Triple Annotation auf SA-Co/Gold zur Messung menschlicher Leistungsgrenzen

Diese enorme Bandbreite und Vielfalt ermöglicht die überragende Generalisierung von SAM 3 über Konzepte mit offenem Wortschatz hinweg.

Wie schneidet SAM 3 im Vergleich zu YOLO11 bei der Segmentierung ab?

SAM 3 und YOLO11 dienen unterschiedlichen Zwecken:

SAM 3 Vorteile:

  • Offener Wortschatz: Segmentiert jedes Konzept über Textaufforderungen ohne Training
  • Null-Fehler: Funktioniert bei neuen Kategorien sofort
  • Interaktiv: Exemplar-basierte Verfeinerung verallgemeinert auf ähnliche Objekte
  • Konzeptbasiert: Findet automatisch alle Instanzen einer Kategorie
  • Genauigkeit: 47,0 AP bei der LVIS-Segmentierung von Nullschüssen

YOLO11 Vorteile:

  • Geschwindigkeit: 10-15x schnellere Schlussfolgerungen (2-3ms gegenüber 30ms pro Bild)
  • Effizienz: 70× kleinere Modelle (5,9MB gegenüber ~400MB erwartet)
  • Ressourcenschonend: Läuft auf Edge-Geräten und Mobilgeräten
  • In Echtzeit: Optimiert für Produktionseinsätze

Empfehlung:

  • Verwenden Sie SAM 3 für die flexible Segmentierung eines offenen Vokabulars, wenn Sie alle Instanzen von Konzepten finden müssen, die durch Text oder Beispiele beschrieben werden.
  • Verwenden Sie YOLO11 für Hochgeschwindigkeits- und Produktionseinsätze, bei denen die Kategorien im Voraus bekannt sind
  • Verwenden Sie SAM 2 für die interaktive Segmentierung von Einzelobjekten mit geometrischen Eingabeaufforderungen

Kann SAM 3 komplexe Sprachabfragen verarbeiten?

SAM 3 ist für einfache Substantivphrasen konzipiert (z. B. "roter Apfel", "Person mit Hut"). Für komplexe Abfragen, die logisches Denken erfordern, kombinieren Sie SAM 3 mit einer MLLM als SAM 3 Agent:

Einfache Abfragen (natives SAM 3):

  • "Gelber Schulbus"
  • "Gestreifte Katze"
  • "Person mit rotem Hut"

Komplexe Abfragen (SAM 3 Agent mit MLLM):

  • "Menschen, die sich hinsetzen, aber kein Geschenkpaket in der Hand halten"
  • "Der Hund, der der Kamera am nächsten ist, ohne Halsband"
  • "Rote Gegenstände, die größer sind als die Hand der Person"

Der SAM 3 Agent erreicht bei der ReasonSeg-Validierung 76,0 gIoU (gegenüber 65,0, eine Verbesserung um 16,9 %), indem er die Segmentierung von SAM 3 mit den MLLM-Fähigkeiten kombiniert.

Wie genau ist SAM 3 im Vergleich zur menschlichen Leistung?

Beim SA-Co/Gold-Benchmark mit dreifacher menschlicher Annotation:

  • Menschliche Untergrenze: 74,2 CGF1 (konservativster Annotator)
  • SAM 3 Leistung: 65,0 CGF1
  • Leistung: 88 % der geschätzten menschlichen Untergrenze
  • Menschliche Obergrenze: 81,4 CGF1 (liberalster Annotator)

SAM 3 erreicht bei der Segmentierung von Konzepten mit offenem Vokabular eine starke Leistung, die sich der menschlichen Genauigkeit annähert, wobei die Lücke hauptsächlich bei mehrdeutigen oder subjektiven Konzepten (z. B. "kleines Fenster", "gemütliches Zimmer") besteht.



📅 Erstellt vor 1 Monat ✏️ Aktualisiert vor 1 Tag
glenn-jocherY-T-G

Kommentare