Zum Inhalt springen

SAM 2.1

Wir haben gerade die Unterstützung für das genauere SAM2.1-Modell hinzugefügt. Bitte probieren Sie es aus!

SAM 2: Segment Beliebiges Modell 2

Inferenz mit Segment Anything 2 in Colab

SAM 2, der Nachfolger von Metas Segment Anything Model (SAM), ist ein hochmodernes Tool für die umfassende Segmentierung von Objekten in Bildern und Videos. Es zeichnet sich bei der Verarbeitung komplexer visueller Daten durch eine einheitliche, abrufbare Modellarchitektur aus, die Echtzeitverarbeitung und Zero-Shot-Generalisierung unterstützt.

SAM 2 Beispielergebnisse

Wesentliche Merkmale



Beobachten: Inferenz mit Metas SAM2 unter Ultralytics | Schritt-für-Schritt-Anleitung 🎉

Einheitliche Modellarchitektur

SAM 2 vereint die Fähigkeiten der Bild- und Videosegmentierung in einem einzigen Modell. Diese Vereinheitlichung vereinfacht die Bereitstellung und ermöglicht eine konsistente Leistung über verschiedene Medientypen hinweg. Es nutzt eine flexible, auf Eingabeaufforderungen basierende Schnittstelle, die es den Benutzern ermöglicht, Objekte von Interesse durch verschiedene Eingabeaufforderungstypen wie Punkte, Begrenzungsrahmen oder Masken anzugeben.

Leistung in Echtzeit

Das Modell erreicht eine Echtzeit-Inferenzgeschwindigkeit und verarbeitet etwa 44 Bilder pro Sekunde. Damit eignet sich SAM 2 für Anwendungen, die ein unmittelbares Feedback erfordern, wie z. B. Videobearbeitung und Augmented Reality.

Null-Schuss-Verallgemeinerung

SAM 2 ist in der Lage, Objekte zu segmentieren, denen es noch nie zuvor begegnet ist, und zeigt damit eine starke Generalisierung bei Nullschüssen. Dies ist besonders nützlich in vielfältigen oder sich entwickelnden visuellen Bereichen, in denen vordefinierte Kategorien möglicherweise nicht alle möglichen Objekte abdecken.

Interaktive Verfeinerung

Die Benutzer können die Segmentierungsergebnisse iterativ verfeinern, indem sie zusätzliche Eingabeaufforderungen geben, was eine genaue Kontrolle über die Ausgabe ermöglicht. Diese Interaktivität ist für die Feinabstimmung der Ergebnisse bei Anwendungen wie Videoanmerkungen oder medizinischer Bildgebung unerlässlich.

Fortgeschrittener Umgang mit visuellen Herausforderungen

SAM 2 enthält Mechanismen zur Bewältigung gängiger Probleme bei der Videosegmentierung, wie z. B. das Verdecken und Wiederauftauchen von Objekten. Es verwendet einen ausgeklügelten Speichermechanismus, um Objekte über Frames hinweg zu verfolgen und die Kontinuität zu gewährleisten, selbst wenn Objekte vorübergehend verdeckt sind oder die Szene verlassen und wieder betreten.

Für ein tieferes Verständnis der Architektur und der Funktionen von SAM 2 lesen Sie bitte das ForschungspapierSAM 2.

Leistung und technische Details

SAM 2 setzt neue Maßstäbe in diesem Bereich und übertrifft frühere Modelle bei verschiedenen Kriterien:

Metrisch SAM 2 Vorherige SOTA
Interaktive Video-Segmentierung Am besten -
Menschliche Interaktionen erforderlich 3x weniger Basislinie
Bildsegmentierungsgenauigkeit Verbessert SAM
Inferenzgeschwindigkeit 6x schneller SAM

Modell der Architektur

Kernkomponenten

  • Bild- und Video-Encoder: Verwendet eine auf Transformer basierende Architektur zur Extraktion von High-Level-Merkmalen aus Bildern und Videoframes. Diese Komponente ist für das Verständnis des visuellen Inhalts in jedem Zeitschritt verantwortlich.
  • Prompt-Encoder: Verarbeitet vom Benutzer bereitgestellte Eingabeaufforderungen (Punkte, Boxen, Masken), um die Segmentierungsaufgabe zu steuern. Dadurch kann sich SAM 2 an die Benutzereingaben anpassen und bestimmte Objekte innerhalb einer Szene anvisieren.
  • Speichermechanismus: Umfasst einen Speicherkodierer, eine Speicherbank und ein Speicheraufmerksamkeitsmodul. Diese Komponenten speichern und nutzen gemeinsam Informationen aus vergangenen Bildern, so dass das Modell eine konsistente Objektverfolgung über die Zeit hinweg beibehalten kann.
  • Masken-Decoder: Generiert die endgültigen Segmentierungsmasken auf der Grundlage der kodierten Bildmerkmale und Aufforderungen. Bei Videos wird auch der Speicherkontext verwendet, um eine genaue Verfolgung über mehrere Bilder hinweg zu gewährleisten.

SAM 2 Architektur-Diagramm

Speichermechanismus und Okklusionsbehandlung

Der Speichermechanismus ermöglicht es SAM 2, zeitliche Abhängigkeiten und Verdeckungen in Videodaten zu verarbeiten. Wenn sich Objekte bewegen und interagieren, zeichnet SAM 2 ihre Merkmale in einer Speicherbank auf. Wenn ein Objekt verdeckt wird, kann sich das Modell auf diesen Speicher verlassen, um seine Position und sein Aussehen vorherzusagen, wenn es wieder auftaucht. Der Okklusionskopf behandelt speziell Szenarien, in denen Objekte nicht sichtbar sind, und sagt die Wahrscheinlichkeit voraus, dass ein Objekt verdeckt ist.

Multi-Mask Ambiguity Resolution

In Situationen mit Mehrdeutigkeit (z. B. bei sich überlappenden Objekten) kann SAM 2 mehrere Maskenvorhersagen erstellen. Diese Funktion ist entscheidend für die genaue Darstellung komplexer Szenen, in denen eine einzige Maske die Nuancen der Szene möglicherweise nicht ausreichend beschreibt.

SA-V-Datensatz

Der SA-V-Datensatz, der für das Training von SAM 2 entwickelt wurde, ist einer der größten und vielfältigsten verfügbaren Datensätze für die Videosegmentierung. Er umfasst:

  • Über 51.000 Videos: Aufgenommen in 47 Ländern, die eine breite Palette von Szenarien aus der Praxis bieten.
  • Über 600.000 Masken-Anmerkungen: Detaillierte räumlich-zeitliche Maskenanmerkungen, so genannte "Masklets", für ganze Objekte und Teile.
  • Umfang des Datensatzes: Er enthält 4,5-mal mehr Videos und 53-mal mehr Anmerkungen als die bisher größten Datensätze und bietet eine noch nie dagewesene Vielfalt und Komplexität.

Benchmarks

Segmentierung von Videoobjekten

SAM 2 hat bei den wichtigsten Benchmarks für die Videosegmentierung eine überragende Leistung gezeigt:

Datensatz J&F J F
DAVIS 2017 82.5 79.8 85.2
YouTube-VOS 81.2 78.9 83.5

Interaktive Segmentierung

Bei interaktiven Segmentierungsaufgaben zeigt SAM 2 eine hohe Effizienz und Genauigkeit:

Datensatz NoC@90 AUC
DAVIS Interaktiv 1.54 0.872

Einrichtung

Um SAM 2 zu installieren, verwenden Sie den folgenden Befehl. Alle SAM 2 Modelle werden bei der ersten Verwendung automatisch heruntergeladen.

pip install ultralytics

Verwendung von SAM 2: Vielseitigkeit bei der Bild- und Videosegmentierung

Die folgende Tabelle zeigt die verfügbaren SAM 2 Modelle, ihre vortrainierten Gewichte, unterstützte Aufgaben und die Kompatibilität mit verschiedenen Betriebsmodi wie Inferenz, Validierung, Training und Export.

Modell Typ Vorgefertigte Gewichte Unterstützte Aufgaben Inferenz Validierung Ausbildung Exportieren
SAM 2 winzig sam2_t.pt Instanz-Segmentierung
SAM 2 kleine sam2_s.pt Instanz-Segmentierung
SAM 2 Basis sam2_b.pt Instanz-Segmentierung
SAM 2 groß sam2_l.pt Instanz-Segmentierung
SAM 2.1 klein sam2.1_t.pt Instanz-Segmentierung
SAM 2.1 klein sam2.1_s.pt Instanz-Segmentierung
SAM 2.1 Basis sam2.1_b.pt Instanz-Segmentierung
SAM 2.1 groß sam2.1_l.pt Instanz-Segmentierung

SAM 2 Beispiele für Vorhersagen

SAM 2 kann für ein breites Spektrum von Aufgaben eingesetzt werden, darunter Videobearbeitung in Echtzeit, medizinische Bildgebung und autonome Systeme. Seine Fähigkeit, sowohl statische als auch dynamische visuelle Daten zu segmentieren, macht es zu einem vielseitigen Werkzeug für Forscher und Entwickler.

Segment mit Prompts

Segment mit Prompts

Verwenden Sie Eingabeaufforderungen, um bestimmte Objekte in Bildern oder Videos zu segmentieren.

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Run inference with single point
results = model(points=[900, 370], labels=[1])

# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Segment Alles

Segment Alles

Segmentieren Sie den gesamten Bild- oder Videoinhalt ohne spezifische Aufforderungen.

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference
model("path/to/video.mp4")
# Run inference with a SAM 2 model
yolo predict model=sam2.1_b.pt source=path/to/video.mp4

Video segmentieren und Objekte verfolgen

Segment Video

Segmentieren Sie den gesamten Videoinhalt mit spezifischen Aufforderungen und Spurobjekten.

from ultralytics.models.sam import SAM2VideoPredictor

# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)

# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])

# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])
  • Dieses Beispiel zeigt, wie SAM 2 verwendet werden kann, um den gesamten Inhalt eines Bildes oder Videos zu segmentieren, wenn keine Eingabeaufforderungen (bboxes/points/masks) vorhanden sind.

SAM 2 Vergleich mit YOLO

Hier vergleichen wir die SAM 2-Modelle von Meta, einschließlich der kleinsten SAM2, mit dem kleinsten Segmentierungsmodell Ultralytics , YOLO11n-seg:

Modell Größe
(MB)
Parameter
(M)
Geschwindigkeit (CPU)
(ms/im)
Meta SAM-b 375 93.7 49401
Meta SAM2-b 162 80.8 31901
Meta SAM2-t 78.1 38.9 25997
MobileSAM 40.7 10.1 25381
FastSAM mitYOLOv8-Backbone 23.7 11.8 55.9
Ultralytics YOLOv8n-seg 6,7 (11,7x kleiner) 3,4 (11,4x weniger) 24,5 (1061x schneller)
Ultralytics YOLO11n-seg 5,9 (13,2x kleiner) 2,9 (13,4x weniger) 30,1 (864x schneller)

Dieser Vergleich zeigt die erheblichen Unterschiede in den Modellgrößen und Geschwindigkeiten zwischen SAM und YOLO . Während SAM einzigartige automatische Segmentierungsfähigkeiten bietet, sind die YOLO , insbesondere YOLOv8n und YOLO11n-seg, deutlich kleiner, schneller und rechnerisch effizienter.

Die Tests laufen auf einem 2025 Apple M4 Pro mit 24 GB RAM und torch==2.6.0 und ultralytics==8.3.90. Um diesen Test zu reproduzieren:

Beispiel

from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLO models
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt"]:
    model = YOLO(file_name)
    model.info()
    model(ASSETS)

Auto-Beschriftung: Effiziente Erstellung von Datensätzen

Die automatische Beschriftung ist eine leistungsstarke Funktion von SAM 2, die es den Benutzern ermöglicht, Segmentierungsdatensätze schnell und genau zu erstellen, indem sie vorab trainierte Modelle nutzt. Diese Funktion ist besonders nützlich für die Erstellung großer, hochwertiger Datensätze ohne großen manuellen Aufwand.

Automatisch annotieren mit SAM 2



Beobachten: Automatische Beschriftung mit Metas Segment Anything 2 Modell unter Ultralytics | Data Labeling

Folgen Sie diesem Beispiel, um Ihren Datensatz mit SAM 2 automatisch zu annotieren:

Beispiel für eine automatische Annotation

from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolo11x.pt", sam_model="sam2_b.pt")
Argument Typ Standard Beschreibung
data str erforderlich Pfad zum Verzeichnis, das die Zielbilder für die Beschriftung oder Segmentierung enthält.
det_model str 'yolo11x.pt' YOLO Erkennungsmodellpfad für die anfängliche Objekterkennung.
sam_model str 'sam_b.pt' SAM für die Segmentierung (unterstützt SAM, SAM2 und mobile_sam-Modelle).
device str '' Berechnungsgerät (z. B. 'cuda:0', 'cpu' oder '' für die automatische Geräteerkennung).
conf float 0.25 YOLO Schwellenwert für die Erkennungswahrscheinlichkeit zum Herausfiltern schwacher Erkennungen.
iou float 0.45 IoU-Schwelle für die Nicht-Maximum-Unterdrückung, um überlappende Boxen zu filtern.
imgsz int 640 Eingabegröße für die Größenänderung von Bildern (muss ein Vielfaches von 32 sein).
max_det int 300 Maximale Anzahl von Erkennungen pro Bild, um den Speicher zu schonen.
classes list[int] None Liste der zu erkennenden Klassenindizes (z. B., [0, 1] für Person & Fahrrad).
output_dir str None Speicherverzeichnis für Anmerkungen (Standardwert ist './labels' relativ zum Datenpfad).

Diese Funktion erleichtert die schnelle Erstellung qualitativ hochwertiger Segmentierungsdatensätze, ideal für Forscher und Entwickler, die ihre Projekte beschleunigen wollen.

Beschränkungen

Trotz seiner Stärken weist SAM 2 gewisse Einschränkungen auf:

  • Verfolgungsstabilität: SAM 2 kann die Verfolgung von Objekten bei längeren Sequenzen oder erheblichen Blickwinkeländerungen verlieren.
  • Objektverwirrung: Das Modell kann manchmal ähnlich aussehende Objekte verwechseln, insbesondere in belebten Szenen.
  • Effizienz bei mehreren Objekten: Die Segmentierungseffizienz nimmt ab, wenn mehrere Objekte gleichzeitig verarbeitet werden, da die Kommunikation zwischen den Objekten fehlt.
  • Detailgenauigkeit: Möglicherweise werden feine Details übersehen, insbesondere bei sich schnell bewegenden Objekten. Zusätzliche Eingabeaufforderungen können dieses Problem teilweise beheben, aber die zeitliche Glätte ist nicht garantiert.

Zitate und Danksagungen

Wenn SAM 2 ein wesentlicher Bestandteil Ihrer Forschungs- oder Entwicklungsarbeit ist, zitieren Sie es bitte unter Verwendung der folgenden Quellenangabe:

@article{ravi2024sam2,
  title={SAM 2: Segment Anything in Images and Videos},
  author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
  journal={arXiv preprint},
  year={2024}
}

Wir danken Meta AI für ihren Beitrag zur KI-Gemeinschaft mit diesem bahnbrechenden Modell und Datensatz.

FAQ

Was ist SAM 2 und wie verbessert es das ursprüngliche Segment Anything Model (SAM)?

SAM 2, der Nachfolger von Metas Segment Anything Model (SAM), ist ein hochmodernes Tool für die umfassende Segmentierung von Objekten in Bildern und Videos. Es zeichnet sich bei der Verarbeitung komplexer visueller Daten durch eine einheitliche, abrufbare Modellarchitektur aus, die Echtzeitverarbeitung und Zero-Shot-Generalisierung unterstützt. SAM 2 bietet mehrere Verbesserungen gegenüber dem Original SAM, darunter:

  • Vereinheitlichte Modellarchitektur: Kombiniert Bild- und Videosegmentierungsfunktionen in einem einzigen Modell.
  • Leistung in Echtzeit: Verarbeitet ca. 44 Bilder pro Sekunde und ist damit für Anwendungen geeignet, die ein sofortiges Feedback erfordern.
  • Null-Schuss-Generalisierung: Segmentiert Objekte, denen es noch nie zuvor begegnet ist, nützlich in verschiedenen visuellen Bereichen.
  • Interaktive Verfeinerung: Ermöglicht es den Benutzern, die Segmentierungsergebnisse iterativ zu verfeinern, indem sie zusätzliche Aufforderungen erhalten.
  • Fortgeschrittener Umgang mit visuellen Herausforderungen: Bewältigt gängige Herausforderungen bei der Videosegmentierung wie Objektverdeckung und Wiederauftauchen.

Weitere Einzelheiten über die Architektur und die Funktionen von SAM 2 finden Sie im ForschungspapierSAM 2.

Wie kann ich SAM 2 für die Echtzeit-Videosegmentierung verwenden?

SAM 2 kann für die Echtzeit-Videosegmentierung eingesetzt werden, indem die prompte Schnittstelle und die Echtzeit-Inferenzfunktionen genutzt werden. Hier ist ein einfaches Beispiel:

Segment mit Prompts

Verwenden Sie Eingabeaufforderungen, um bestimmte Objekte in Bildern oder Videos zu segmentieren.

from ultralytics import SAM

# Load a model
model = SAM("sam2_b.pt")

# Display model information (optional)
model.info()

# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])

Ausführlichere Informationen zur Verwendung finden Sie im Abschnitt "Verwendung von SAM 2".

Welche Datensätze werden für das Training von SAM 2 verwendet, und wie verbessern sie die Leistung?

SAM 2 wurde mit dem SA-V-Datensatz trainiert, einem der größten und vielfältigsten verfügbaren Datensätze zur Videosegmentierung. Der SA-V-Datensatz umfasst:

  • Über 51.000 Videos: Aufgenommen in 47 Ländern, die eine breite Palette von Szenarien aus der Praxis bieten.
  • Über 600.000 Masken-Anmerkungen: Detaillierte räumlich-zeitliche Maskenanmerkungen, so genannte "Masklets", für ganze Objekte und Teile.
  • Umfang des Datensatzes: Enthält 4,5-mal mehr Videos und 53-mal mehr Anmerkungen als die bisher größten Datensätze und bietet eine noch nie dagewesene Vielfalt und Komplexität.

Dank dieses umfangreichen Datensatzes erreicht SAM 2 eine überragende Leistung bei den wichtigsten Videosegmentierungs-Benchmarks und verbessert seine Fähigkeiten zur Zero-Shot-Generalisierung. Weitere Informationen finden Sie im Abschnitt SA-V-Datensatz.

Wie geht SAM 2 mit Verdeckungen und dem Wiederauftauchen von Objekten bei der Segmentierung von Videos um?

SAM 2 enthält einen ausgeklügelten Speichermechanismus zur Verwaltung zeitlicher Abhängigkeiten und Verdeckungen in Videodaten. Der Speichermechanismus besteht aus:

  • Speicher-Encoder und Speicherbank: Speichert Merkmale aus vergangenen Bildern.
  • Gedächtnis-Aufmerksamkeitsmodul: Verwendet gespeicherte Informationen, um die Objektverfolgung über einen längeren Zeitraum aufrechtzuerhalten.
  • Occlusion Head: Speziell für Szenarien, in denen Objekte nicht sichtbar sind, wird die Wahrscheinlichkeit vorhergesagt, dass ein Objekt verdeckt ist.

Dieser Mechanismus gewährleistet die Kontinuität, auch wenn Objekte vorübergehend verdeckt werden oder die Szene verlassen und wieder betreten. Weitere Einzelheiten finden Sie im Abschnitt " Speichermechanismus und Handhabung von Okklusion ".

Wie schneidet SAM 2 im Vergleich zu anderen Segmentierungsmodellen wie YOLO11 ab?

SAM 2-Modelle, wie Metas SAM2 und SAM2, bieten leistungsstarke Zero-Shot-Segmentierungsfunktionen, sind aber im Vergleich zu den YOLO11 deutlich größer und langsamer. So ist YOLO11n-seg etwa 13 Mal kleiner und über 860 Mal schneller als SAM2. Während SAM 2 sich durch vielseitige, prompt-basierte und Zero-Shot-Segmentierungsszenarien auszeichnet, ist YOLO11 für Geschwindigkeit, Effizienz und Echtzeitanwendungen optimiert und daher besser für den Einsatz in ressourcenbeschränkten Umgebungen geeignet.

📅 Erstellt vor 8 Monaten ✏️ Aktualisiert vor 18 Tagen

Kommentare