Zum Inhalt springen

SAM 3: Alles mit Konzepten segmentieren

Demnächst ⚠️

Die SAM 3-Modelle wurden von Meta noch nicht öffentlich freigegeben. Die nachstehenden Informationen beruhen auf dem Forschungspapier, das beim ICLR 2026 eingereicht wurde. Modell-Downloads und endgültige Benchmarks werden nach der offiziellen Freigabe durch Meta verfügbar sein.

SAM 3 Überblick

SAM 3 (Segment Anything Model 3) ist das Meta-Grundlagenmodell der nächsten Generation für Promptable Concept Segmentation (PCS). SAM 3 baut auf SAM 2 auf und führt eine grundlegend neue Fähigkeit ein: das Erkennen, Segmentieren und Verfolgen aller Instanzen eines visuellen Konzepts, das durch Textaufforderungen, Bildbeispiele oder beides spezifiziert wird. Im Gegensatz zu früheren SAM , die einzelne Objekte pro Eingabeaufforderung segmentieren, kann SAM 3 jedes Vorkommen eines Konzepts, das an beliebiger Stelle in Bildern oder Videos auftaucht, finden und segmentieren, was den Zielen eines offenen Vokabulars in der modernen Instanzsegmentierung entspricht.

Überblick

SAM 3 erreicht einen zweifachen Leistungszuwachs gegenüber bestehenden Systemen bei der abfragbaren Begriffssegmentierung, während die Fähigkeiten von SAM 2 zur interaktiven visuellen Segmentierung beibehalten und verbessert werden. Das Modell zeichnet sich durch eine Segmentierung mit offenem Vokabular aus, die es den Benutzern ermöglicht, Konzepte durch einfache Substantivphrasen (z. B. "gelber Schulbus", "gestreifte Katze") oder durch die Bereitstellung von Beispielbildern des Zielobjekts zu spezifizieren. Diese Fähigkeiten ergänzen produktionsreife Pipelines, die sich auf optimierte Vorhersage- und Verfolgungsworkflows stützen.

SAM 3 Segmentierung

Was ist Promptable Concept Segmentation (PCS)?

Die PCS-Aufgabe nimmt einen Concept Prompt als Eingabe und liefert Segmentierungsmasken mit eindeutigen Identitäten für alle passenden Objektinstanzen. Concept Prompts können sein:

  • Text: Einfache Substantivsätze wie "roter Apfel" oder "Person, die einen Hut trägt", ähnlich wie beim Zero-Shot-Lernen
  • Bildbeispiele: Bounding Boxes um Beispielobjekte (positiv oder negativ) für eine schnelle Generalisierung
  • Kombiniert: Text- und Bildvorlagen zusammen für eine präzise Kontrolle

Dies unterscheidet sich von den traditionellen visuellen Aufforderungen (Punkte, Kästchen, Masken), die nur ein einziges spezifisches Objekt segmentieren, wie sie von der ursprünglichen SAM verwendet wurden.

Wichtige Leistungskennzahlen

Metrik SAM 3 Errungenschaft
LVIS Zero-Shot Maske AP 47,0 (gegenüber der vorherigen Bestmarke von 38,5, Verbesserung um 22 %)
SA-Co Benchmark 2× besser als bestehende Systeme
Inferenzgeschwindigkeit (H200 GPU) 30 ms pro Bild mit 100+ erkannten Objekten
Video Leistung Nahezu Echtzeit für ~5 gleichzeitige Objekte
MOSEv2 VOS-Benchmark 60,1 J&F (+25,5% gegenüber SAM 2.1, +17% gegenüber früherer SOTA)
Interaktive Verfeinerung +18,6 CGF1-Verbesserung nach 3 beispielhaften Aufforderungen
Menschliche Leistungslücke Erreicht 88% der geschätzten Untergrenze für SA-Co/Gold

Weitere Informationen zu Modellmetriken und Kompromissen in der Produktion finden Sie unter Erkenntnisse aus der Modellbewertung und YOLO .

Architektur

SAM 3 besteht aus einem Detektor und einem Tracker, die sich ein Perception Encoder (PE) Vision-Backbone teilen. Dieses entkoppelte Design vermeidet Aufgabenkonflikte und ermöglicht sowohl die Erkennung auf Bildebene als auch die Verfolgung auf Videoebene mit einer Schnittstelle, die mit derVerwendung von Ultralytics Python und CLI kompatibel ist.

Kernkomponenten

  • Detektor: DETR-basierte Architektur zur Erkennung von Konzepten auf Bildebene

    • Textkodierer für Nomenphrasen-Eingabeaufforderungen
    • Exemplarischer Kodierer für bildbasierte Eingabeaufforderungen
    • Fusionskodierer zur Konditionierung von Bildmerkmalen bei Aufforderungen
    • Neuartiger Präsenzkopf, der die Erkennung ("was") von der Lokalisierung ("wo") entkoppelt
    • Maskenkopf zur Erzeugung von Instanzsegmentierungsmasken
  • Tracker: Speicherbasierte Videosegmentierung, übernommen von SAM 2

    • Aufforderungscodierer, Maskendecodierer, Speichercodierer
    • Speicherbank zur Speicherung des Erscheinungsbildes von Objekten über mehrere Bilder hinweg
    • Zeitliche Disambiguierung mit Hilfe von Techniken wie einem Kalman-Filter in einer Umgebung mit mehreren Objekten
  • Anwesenheits-Token: Ein erlerntes globales Token, das vorhersagt, ob das Zielkonzept im Bild/Bildausschnitt vorhanden ist, und das die Erkennung durch Trennung von Erkennung und Lokalisierung verbessert.

SAM 3 Architektur

Wichtige Innovationen

  1. Entkoppelte Erkennung und Lokalisierung: Der Präsenzkopf sagt das Vorhandensein von Konzepten global voraus, während sich die Vorschlagsanfragen nur auf die Lokalisierung konzentrieren, wodurch Zielkonflikte vermieden werden.
  2. Vereinheitlichte Konzept- und visuelle Prompts: Unterstützt sowohl PCS (Concept Prompts) als auch PVS (Visual Prompts wie die Clicks/Boxes von SAM 2) in einem einzigen Modell.
  3. Interaktive Verfeinerung von Exemplaren: Benutzer können positive oder negative Bildbeispiele hinzufügen, um die Ergebnisse iterativ zu verfeinern, wobei das Modell auf ähnliche Objekte verallgemeinert, anstatt nur einzelne Instanzen zu korrigieren.
  4. Zeitliche Disambiguierung: Verwendet Masklet-Erkennungsergebnisse und regelmäßige Wiederholungsaufforderungen, um Verdeckungen, überfüllte Szenen und Verfolgungsfehler in Videos zu behandeln und sich an bewährten Verfahren zur Instanzsegmentierung und Verfolgung zu orientieren.

SA-Co-Datensatz

SAM 3 wird auf Segment Anything with Concepts (SA-Co) trainiert, dem bisher größten und vielfältigsten Segmentierungsdatensatz von Meta, der über die üblichen Benchmarks wie COCO und LVIS hinausgeht.

Ausbildungsdaten

Datensatz Komponente Beschreibung Skala
SA-Co/HQ Hochwertige, von Menschen kommentierte Bilddaten aus einer 4-Phasen-Datenmaschine 5,2 Mio. Bilder, 4 Mio. einzigartige Substantivphrasen
SA-Co/SYN Synthetischer Datensatz, der von KI ohne menschliche Beteiligung beschriftet wird 38M Substantivsätze, 1,4B Masken
SA-Ko/EXT 15 mit harten Negativen angereicherte externe Datensätze Variiert je nach Quelle
SA-Co/VIDEO Videoanmerkungen mit zeitlicher Verfolgung 52,5K Videos, 24,8K einzigartige Substantivsätze

Benchmark-Daten

Der SA-Co-Benchmark enthält 214.000 einzigartige Phrasen in 126.000 Bildern und Videos und bietet damit mehr als 50 Mal mehr Konzepte als bestehende Benchmarks. Er umfasst:

  • SA-Co/Gold: 7 Bereiche, dreifach annotiert für die Messung menschlicher Leistungsgrenzen
  • SA-Co/Silver: 10 Domänen, einzelne menschliche Annotation
  • SA-Co/Bronze und SA-Co/Bio: 9 bestehende Datensätze, die für die Konzept-Segmentierung angepasst wurden
  • SA-Co/VEval: Video-Benchmark mit 3 Domänen (SA-V, YT-Temporal-1B, SmartGlasses)

Innovationen bei der Datenverarbeitung

Die skalierbare Human- und Model-in-the-Loop-Daten-Engine von SAM 3 erreicht einen 2fachen Annotationsdurchsatz:

  1. KI-Bemerker: Lama-basierte Modelle schlagen verschiedene Substantiv-Phrasen vor, einschließlich harter Negative
  2. KI-Prüfer: Feinabgestimmte multimodale LLMs überprüfen die Qualität und Vollständigkeit von Masken mit nahezu menschlicher Leistung
  3. Aktives Mining: Konzentriert menschliche Bemühungen auf schwierige Fehlerfälle, bei denen die KI Schwierigkeiten hat
  4. Ontologie-gesteuert: Nutzung einer umfangreichen Ontologie auf der Grundlage von Wikidata zur Erfassung von Konzepten

Installation

SAM 3 wird ab der Veröffentlichung nativ im Ultralytics unterstützt werden:

pip install ultralytics

Die Modelle werden bei der ersten Verwendung automatisch heruntergeladen. Sie können dann den Standard-Vorhersagemodus verwenden und die Modelle später in Formate wie ONNX und exportieren. TensorRT für den Einsatz exportieren.

Verwendung von SAM 3: Vielseitigkeit bei der Konzept-Segmentierung

Vorschau API - Änderungen vorbehalten

Die nachstehenden Code-Beispiele zeigen die beabsichtigten Nutzungsmuster auf der Grundlage des Forschungspapiers. Die eigentliche API wird später verfügbar sein:

  1. Meta öffnet SAM 3-Modellgewichte als Quelle
  2. Ultralytics integriert SAM 3 in das Paket

Syntax und Parameter können in der endgültigen Implementierung abweichen. Diese Beispiele dienen als Vorschau auf die erwartete Funktionalität.

Unterstützte Aufgaben und Modelle

SAM 3 unterstützt sowohl Promptable Concept Segmentation (PCS) als auch Promptable Visual Segmentation (PVS) Aufgaben:

Aufgaben-Typ Aufforderungstypen Ausgabe
Konzept-Segmentierung (PCS) Text (Substantivphrasen), Bildbeispiele Alle Instanzen, die dem Konzept
Visuelle Segmentierung (PVS) Punkte, Boxen, Masken Einzelne ObjektinstanzSAM 2-Stil)
Interaktive Verfeinerung Beispiele oder Klicks iterativ hinzufügen/entfernen Verfeinerte Segmentierung mit verbesserter Genauigkeit

Beispiele für Konzept-Segmentierung

Segment mit Textaufforderungen

Textbasierte Konzept-Segmentierung

Finden und segmentieren Sie alle Instanzen eines Konzepts anhand einer Textbeschreibung.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

API-Vorschau

Dieses Beispiel zeigt die geplante Verwendung. Die tatsächliche Umsetzung hängt von der Veröffentlichung von Meta und der Integration von Ultralytics ab.

Segment mit Bildbeispielen

Exemplarische Segmentierung von Bildern

Verwenden Sie ein oder mehrere Beispielobjekte, um alle ähnlichen Instanzen zu finden.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

API-Vorschau

Dieses Beispiel zeigt die geplante Verwendung. Die tatsächliche Umsetzung hängt von der Veröffentlichung von Meta und der Integration von Ultralytics ab.

Interaktive Verfeinerung

Iterative Verfeinerung mit Exemplaren

Verbessern Sie die Ergebnisse schrittweise, indem Sie auf der Grundlage der anfänglichen Ergebnisse beispielhafte Aufforderungen hinzufügen.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

API-Vorschau

Dieses Beispiel zeigt die geplante Verwendung. Die tatsächliche Umsetzung hängt von der Veröffentlichung von Meta und der Integration von Ultralytics ab.

Segmentierung von Videokonzepten

Konzepte im Video verfolgen

Erkennen und verfolgen Sie alle Instanzen eines Konzepts in einem Video.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

API-Vorschau

Dieses Beispiel zeigt die geplante Verwendung. Die tatsächliche Umsetzung hängt von der Veröffentlichung von Meta und der Integration von Ultralytics ab.

Für umfassendere Streaming- und Produktions-Setups siehe Objektverfolgung und Ergebnisanzeige im Terminal.

Visuelle EingabeaufforderungenSAM 2-Kompatibilität)

SAM 3 ist vollständig abwärtskompatibel mit der visuellen Eingabeaufforderung von SAM 2:

Visuelle Aufforderungen im Stil von SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

API-Vorschau

Dieses Beispiel zeigt die geplante Verwendung. Die tatsächliche Umsetzung hängt von der Veröffentlichung von Meta und der Integration von Ultralytics ab.

Leistungsbenchmarks

Bildsegmentierung

SAM 3 erzielt bei mehreren Benchmarks, einschließlich realer Datensätze wie LVIS und COCO für die Segmentierung, die besten Ergebnisse:

Benchmark Metrik SAM 3 Vorheriges Bestes Verbesserung
LVIS (Null-Schuss) Maske AP 47.0 38.5 +22.1%
SA-Ko/Gold CGF1 65.0 34,3 (OWLv2) +89.5%
COCO (Null-Schuss) Box AP 53.5 52,2 (T-Rex2) +2.5%
ADE-847 (semantische Seg) mIoU 14.7 9.2 (APE-D) +59.8%
PascalKonzept-59 mIoU 59.4 58,5 (APE-D) +1.5%
Stadtlandschaften (semantische Seg) mIoU 65.1 44,2 (APE-D) +47.3%

Erkunden Sie Datensatzoptionen für schnelle Experimente in Ultralytics .

Video-Segmentierungsleistung

SAM 3 zeigt bei Video-Benchmarks wie DAVIS 2017 und YouTube-VOS deutliche Verbesserungen gegenüber SAM 2 und dem vorherigen Stand der Technik:

Benchmark Metrik SAM 3 SAM 2.1 L Verbesserung
MOSEv2 J&F 60.1 47.9 +25.5%
DAVIS 2017 J&F 92.0 90.7 +1.4%
LVOSv2 J&F 88.2 79.6 +10.8%
SA-V J&F 84.6 78.4 +7.9%
YTVOS19 J&F 89.6 89.3 +0.3%

Few-Shot-Anpassung

SAM 3 zeichnet sich dadurch aus, dass es sich mit wenigen Beispielen an neue Bereiche anpassen lässt, die für datenzentrierte KI-Workflows relevant sind:

Benchmark 0-Schuss AP 10-Schuss-AP Bisherige Bestleistung (10-Schuss)
ODinW13 59.9 71.6 67,9 (gDino1.5-Pro)
RF100-VL 14.3 35.7 33,7 (gDino-T)

Interaktive Verfeinerung der Effektivität

Das konzeptbasierte Prompting von SAM 3 mit Beispielen konvergiert viel schneller als das visuelle Prompting:

Prompts hinzugefügt CGF1-Ergebnis Verstärkung vs. Nur-Text Gewinn im Vergleich zur PVS-Basislinie
Nur Text 46.4 Grundlinie Grundlinie
+1 Exemplar 57.6 +11.2 +6.7
+2 Exemplare 62.2 +15.8 +9.7
+3 Exemplare 65.0 +18.6 +11.2
+4 Exemplare 65.7 +19.3 +11,5 (Plateau)

Genauigkeit der Objektzählung

SAM 3 ermöglicht eine genaue Zählung, indem es alle Instanzen segmentiert, eine übliche Anforderung bei der Objektzählung:

Benchmark Genauigkeit MAE gegen beste MLLM
CountBench 95.6% 0.11 92,4% (Zwilling 2,5)
PixMo-Count 87.3% 0.22 88,8% (Molmo-72B)

SAM 3 vs. SAM 2 vs. YOLO Vergleich

Hier vergleichen wir die Fähigkeiten von SAM 3 mit SAM 2 und YOLO11 Modellen:

Fähigkeit SAM 3 SAM 2 YOLO11n-seg
Konzept Segmentierung ✅ Alle Instanzen aus Text/Mustern ❌ Nicht unterstützt ❌ Nicht unterstützt
Visuelle Segmentierung ✅ Einzelne InstanzSAM 2 kompatibel) ✅ Einzelne Instanz ✅ Alle Instanzen
Null-Schuss-Fähigkeit ✅ Offener Wortschatz ✅ Geometrische Eingabeaufforderungen ❌ Geschlossener Satz
Interaktive Verfeinerung ✅ Exemplare + Klicks ✅ Nur Klicks ❌ Nicht unterstützt
Video-Verfolgung ✅ Multi-Objekt mit Identitäten ✅ Multi-Objekt ✅ Multi-Objekt
LVIS-Maske AP (Null-Schuss) 47.0 N/A N/A
MOSEv2 J&F 60.1 47.9 N/A
Inferenzgeschwindigkeit (H200) 30 ms (100+ Objekte) ~23 ms (pro Objekt) 2-3 ms (Bild)
Modell Größe Groß (~400+ MB erwartet) 162 MB (Basis) 5,9 MB

Wichtigste Erkenntnisse:

  • SAM 3: Am besten geeignet für die Segmentierung von Konzepten mit offenem Wortschatz, um alle Instanzen eines Konzepts mit Text oder Beispielen zu finden
  • SAM 2: Am besten geeignet für die interaktive Segmentierung von Einzelobjekten in Bildern und Videos mit geometrischen Eingabeaufforderungen
  • YOLO11: Bestens geeignet für Echtzeit-Hochgeschwindigkeits-Segmentierung in ressourcenbeschränkten Einsätzen unter Verwendung effizienter Export-Pipelines wie ONNX und TensorRT

Bewertungsmetriken

SAM 3 führt neue Metriken ein, die für die PCS-Aufgabe entwickelt wurden und die bekannten Maße wie F1-Score, Präzision und Recall ergänzen.

Klassifikationsgesteuerte F1 (CGF1)

Die primäre Metrik, die Lokalisierung und Klassifizierung kombiniert:

CGF1 = 100 × pmF1 × IL_MCC

Wobei:

  • pmF1 (Positives Makro F1): Misst die Lokalisierungsqualität bei positiven Beispielen
  • IL_MCC (Matthews-Korrelationskoeffizient auf Bildebene): Misst die binäre Klassifizierungsgenauigkeit ("ist das Konzept vorhanden?")

Warum diese Metriken?

Herkömmliche AP-Metriken berücksichtigen die Kalibrierung nicht, was den Einsatz der Modelle in der Praxis erschwert. Indem nur Vorhersagen über 0,5 Konfidenz bewertet werden, erzwingen die Metriken von SAM 3 eine gute Kalibrierung und imitieren reale Nutzungsmuster in interaktiven Vorhersage- und Verfolgungsschleifen.

Wichtige Ablationen und Einsichten

Auswirkungen der Anwesenheit Kopf

Der Anwesenheitskopf entkoppelt die Erkennung von der Lokalisierung, was zu erheblichen Verbesserungen führt:

Konfiguration CGF1 IL_MCC pmF1
Ohne Anwesenheit 57.6 0.77 74.7
Mit Präsenz 63.3 0.82 77.1

Der Anwesenheitskopf erhöht den CGF1-Wert um +5,7 (+9,9 %) und verbessert vor allem die Erkennungsfähigkeit (IL_MCC +6,5 %).

Wirkung von harten Negativen

Harte Negative/Bild CGF1 IL_MCC pmF1
0 31.8 0.44 70.2
5 44.8 0.62 71.9
30 49.2 0.68 72.3

Harte Negative sind entscheidend für die Erkennung von offenem Wortschatz und verbessern IL_MCC um 54,5% (0,44 → 0,68).

Skalierung der Trainingsdaten

Datenquellen CGF1 IL_MCC pmF1
Nur extern 30.9 0.46 66.3
Extern + Synthetisch 39.7 0.57 70.6
Extern + HQ 51.8 0.71 73.2
Alle drei 54.3 0.74 73.5

Qualitativ hochwertige menschliche Annotationen bieten einen großen Vorteil gegenüber synthetischen oder externen Daten allein. Hintergrundinformationen zu Datenqualitätspraktiken finden Sie unter Datenerfassung und Annotation.

Anwendungen

Die Konzeptsegmentierungsfunktion von SAM 3 ermöglicht neue Anwendungsfälle:

  • Inhaltsmoderation: Finden Sie alle Instanzen bestimmter Inhaltstypen in Medienbibliotheken
  • Elektronischer Handel: Segmentieren Sie alle Produkte eines bestimmten Typs in Katalogbildern und unterstützen Sie die automatische Kommentierung.
  • Medizinische Bildgebung: Identifizieren Sie alle Vorkommen bestimmter Gewebetypen oder Anomalien
  • Autonome Systeme: Verfolgen Sie alle Vorkommnisse von Verkehrszeichen, Fußgängern oder Fahrzeugen nach Kategorien
  • Videoanalyse: Zählen und verfolgen Sie alle Personen, die bestimmte Kleidung tragen oder bestimmte Aktionen ausführen
  • Datensatz-Anmerkung: Schnelles Beschriften aller Instanzen seltener Objektkategorien
  • Wissenschaftliche Forschung: Quantifizierung und Analyse aller Proben, die bestimmte Kriterien erfüllen

SAM 3 Agent: Erweitertes sprachliches Reasoning

SAM 3 kann mit multimodalen großen Sprachmodellen (MLLMs) kombiniert werden, um komplexe Abfragen zu bearbeiten, die Schlussfolgerungen erfordern, ähnlich wie bei Systemen mit offenem Vokabular wie OWLv2 und T-Rex.

Leistung bei logischen Aufgaben

Benchmark Metrik SAM 3 Agent (Gemini 2.5 Pro) Vorheriges Bestes
ReasonSeg (Validierung) gIoU 76.0 65,0 (SoTA)
ReasonSeg (test) gIoU 73.8 61,3 (SoTA)
OmniLabel (Validierung) AP 46.7 36,5 (REAL)
RefCOCO+ Acc 91.2 89,3 (LISA)

Beispiel: Komplexe Abfragen

SAM 3 Agent kann Abfragen bearbeiten, die logisches Denken erfordern:

  • "Menschen, die sich hinsetzen, aber kein Geschenkpaket in den Händen halten"
  • "Der Hund, der der Kamera am nächsten ist und kein Halsband trägt"
  • "Rote Gegenstände, die größer sind als die Hand der Person"

Das MLLM schlägt SAM 3 einfache Substantivphrasen-Abfragen vor, analysiert die zurückgegebenen Masken und iteriert, bis die Anfragen zufriedenstellend sind.

Einschränkungen

SAM 3 stellt zwar einen großen Fortschritt dar, hat aber auch gewisse Einschränkungen:

  • Komplexität der Phrase: Am besten geeignet für einfache Substantivphrasen; lange verweisende Ausdrücke oder komplexe Argumentationen erfordern möglicherweise die Integration von MLLM
  • Umgang mit Mehrdeutigkeit: Einige Begriffe bleiben von Natur aus mehrdeutig (z. B. "kleines Fenster", "gemütliches Zimmer")
  • Rechnerische Anforderungen: Größer und langsamer als spezialisierte Erkennungsmodelle wie YOLO
  • Umfang des Vokabulars: Konzentriert auf atomare visuelle Konzepte; kompositorisches Denken ist ohne MLLM-Unterstützung begrenzt
  • Seltene Konzepte: Die Leistung kann sich bei extrem seltenen oder feinkörnigen Konzepten verschlechtern, die in den Trainingsdaten nicht gut repräsentiert sind.

Zitat

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Wann wird SAM 3 veröffentlicht?

SAM 3 wird derzeit auf der ICLR 2026 geprüft (Konferenz im Jahr 2026, Prüfung im Jahr 2025). Offizielle Modelle, Gewichtungen und Benchmarks werden nach dem Überprüfungsprozess, voraussichtlich im Jahr 2026, veröffentlicht. Ultralytics wird die Integration von SAM 3 unmittelbar nach der Veröffentlichung von Meta unterstützen und die Verwendung im Vorhersage- und im Verfolgungsmodus dokumentieren.

Wird SAM 3 in Ultralytics integriert werden?

Ja, SAM 3 wird bei der Veröffentlichung im Ultralytics Python unterstützt, einschließlich Konzept-Segmentierung, visuelle Aufforderungen im Stil von SAM 2 und Video-Tracking mit mehreren Objekten. Sie werden in Formate exportieren können wie ONNX und exportieren. TensorRT zu exportieren, um sie einzusetzen, mit optimierten Python und CLI Arbeitsabläufen.

Zeitplan für die Umsetzung

Bei den Codebeispielen in dieser Dokumentation handelt es sich um Vorabversionen, die die beabsichtigten Nutzungsmuster zeigen. Die tatsächliche Implementierung wird verfügbar sein, sobald Meta SAM 3 Gewichte veröffentlicht und Ultralytics die Integration abgeschlossen hat.

Was ist Promptable Concept Segmentation (PCS)?

PCS ist eine neue Aufgabe, die in SAM 3 eingeführt wurde und alle Instanzen eines visuellen Konzepts in einem Bild oder Video segmentiert. Im Gegensatz zur traditionellen Segmentierung, die auf eine bestimmte Objektinstanz abzielt, findet PCS jedes Vorkommen einer Kategorie. Zum Beispiel:

  • Textaufforderung: "Gelber Schulbus" → Segmente aller gelben Schulbusse in der Szene
  • Bildbeispiel: Kasten um einen Hund → Segmente für alle Hunde im Bild
  • Kombiniert: "gestreifte Katze" + Beispielbox → Segmente aller gestreiften Katzen, die dem Beispiel entsprechen

Siehe Hintergrundinformationen zur Objekterkennung und Instanzsegmentierung.

Wie unterscheidet sich SAM 3 von SAM 2?

Merkmal SAM 2 SAM 3
Aufgabe Einzelnes Objekt pro Eingabeaufforderung Alle Instanzen eines Konzepts
Aufforderungstypen Punkte, Boxen, Masken + Textphrasen, Bildbeispiele
Aufdeckungsfähigkeit Erfordert externen Detektor Integrierter Detektor für offenes Vokabular
Anerkennungen Nur Geometrie-basiert Text und visuelle Erkennung
Architektur Nur Tracker Detektor + Tracker mit Anwesenheitskopf
Zero-Shot Leistung Nicht zutreffend (erfordert visuelle Eingabeaufforderungen) 47,0 AP auf LVIS, 2× besser auf SA-Co
Interaktive Verfeinerung Nur Klicks Klicks + Generalisierung von Beispielen

SAM 3 behält die Abwärtskompatibilität mit der visuellen Eingabeaufforderung von SAM 2 bei und fügt gleichzeitig konzeptbasierte Funktionen hinzu.

Welche Datensätze werden für das Training von SAM 3 verwendet?

SAM 3 wird mit dem Datensatz Segment Anything with Concepts (SA-Co) trainiert:

Trainingsdaten:

  • 5,2 Mio. Bilder mit 4 Mio. eindeutigen Substantivphrasen (SA-Co/HQ) - hochwertige menschliche Annotationen
  • 52,5K Videos mit 24,8K einzigartigen Substantivierungen (SA-Co/VIDEO)
  • 1.4B synthetische Masken über 38M Substantivphrasen (SA-Co/SYN)
  • 15 mit harten Negativen angereicherte externe Datensätze (SA-Co/EXT)

Benchmark-Daten:

  • 214K einzigartige Konzepte in 126K Bildern/Videos
  • 50x mehr Konzepte als bestehende Benchmarks (z.B. hat LVIS ~4K Konzepte)
  • Triple Annotation auf SA-Co/Gold zur Messung menschlicher Leistungsgrenzen

Diese enorme Bandbreite und Vielfalt ermöglicht die überragende Generalisierung von SAM 3 über Konzepte mit offenem Wortschatz hinweg.

Wie schneidet SAM 3 im Vergleich zu YOLO11 bei der Segmentierung ab?

SAM 3 und YOLO11 dienen unterschiedlichen Zwecken:

SAM 3 Vorteile:

  • Offener Wortschatz: Segmentiert jedes Konzept über Textaufforderungen ohne Training
  • Null-Fehler: Funktioniert bei neuen Kategorien sofort
  • Interaktiv: Exemplar-basierte Verfeinerung verallgemeinert auf ähnliche Objekte
  • Konzeptbasiert: Findet automatisch alle Instanzen einer Kategorie
  • Genauigkeit: 47,0 AP bei der LVIS-Segmentierung von Nullschüssen

YOLO11 Vorteile:

  • Geschwindigkeit: 10-15x schnellere Schlussfolgerungen (2-3ms gegenüber 30ms pro Bild)
  • Effizienz: 70× kleinere Modelle (5,9MB gegenüber ~400MB erwartet)
  • Ressourcenschonend: Läuft auf Edge-Geräten und Mobilgeräten
  • In Echtzeit: Optimiert für Produktionseinsätze

Empfehlung:

  • Verwenden Sie SAM 3 für die flexible Segmentierung eines offenen Vokabulars, wenn Sie alle Instanzen von Konzepten finden müssen, die durch Text oder Beispiele beschrieben werden.
  • Verwenden Sie YOLO11 für Hochgeschwindigkeits- und Produktionseinsätze, bei denen die Kategorien im Voraus bekannt sind
  • Verwenden Sie SAM 2 für die interaktive Segmentierung von Einzelobjekten mit geometrischen Eingabeaufforderungen

Kann SAM 3 komplexe Sprachabfragen verarbeiten?

SAM 3 ist für einfache Substantivphrasen konzipiert (z. B. "roter Apfel", "Person mit Hut"). Für komplexe Abfragen, die logisches Denken erfordern, kombinieren Sie SAM 3 mit einer MLLM als SAM 3 Agent:

Einfache Abfragen (natives SAM 3):

  • "Gelber Schulbus"
  • "Gestreifte Katze"
  • "Person mit rotem Hut"

Komplexe Abfragen (SAM 3 Agent mit MLLM):

  • "Menschen, die sich hinsetzen, aber kein Geschenkpaket in der Hand halten"
  • "Der Hund, der der Kamera am nächsten ist, ohne Halsband"
  • "Rote Gegenstände, die größer sind als die Hand der Person"

Der SAM 3 Agent erreicht bei der ReasonSeg-Validierung 76,0 gIoU (gegenüber 65,0, eine Verbesserung um 16,9 %), indem er die Segmentierung von SAM 3 mit den MLLM-Fähigkeiten kombiniert.

Wie genau ist SAM 3 im Vergleich zur menschlichen Leistung?

Beim SA-Co/Gold-Benchmark mit dreifacher menschlicher Annotation:

  • Menschliche Untergrenze: 74,2 CGF1 (konservativster Annotator)
  • SAM 3 Leistung: 65,0 CGF1
  • Leistung: 88 % der geschätzten menschlichen Untergrenze
  • Menschliche Obergrenze: 81,4 CGF1 (liberalster Annotator)

SAM 3 erreicht bei der Segmentierung von Konzepten mit offenem Vokabular eine starke Leistung, die sich der menschlichen Genauigkeit annähert, wobei die Lücke hauptsächlich bei mehrdeutigen oder subjektiven Konzepten (z. B. "kleines Fenster", "gemütliches Zimmer") besteht.



📅 Erstellt vor 0 Tagen ✏️ Aktualisiert vor 0 Tagen

Kommentare