Fast Segment Anything Model (FastSAM)

Q: What types of prompts does FastSAM support for segmentation tasks?

FastSAM unterstützt mehrere Eingabeaufforderungstypen zur Steuerung der Segmentierungsaufgaben: Dank dieser Flexibilität kann sich FastSAM an ein breites Spektrum von Benutzerinteraktionsszenarien anpassen, was seinen Nutzen für verschiedene Anwendungen erhöht. Weitere Informationen zur Verwendung dieser Prompts finden Sie im Abschnitt "Hauptfunktionen".

Das Fast Segment Anything Model (FastSAM) ist eine neuartige, echtzeitfähige CNN-basierte Lösung für die Segment Anything Aufgabe. Diese Aufgabe wurde entwickelt, um jedes beliebige Objekt in einem Bild auf der Grundlage verschiedener möglicher Benutzerinteraktionsaufforderungen zu segmentieren. FastSAM reduziert den Rechenaufwand erheblich, während die Leistung konkurrenzfähig bleibt, was es zu einer praktischen Wahl für eine Vielzahl von Bildverarbeitungsaufgaben macht.

Beobachten: Objektverfolgung mit FastSAM mit Ultralytics

Modell der Architektur

Überblick über die Architektur des Fast Segment Anything Model (FastSAM)

Übersicht

FastSAM wurde entwickelt, um die Beschränkungen des Segment Anything Model (SAM) zu überwinden, ein schweres Transformer-Modell mit erheblichen Anforderungen an die Rechenleistung. Das FastSAM entkoppelt die Segment Anything Aufgabe in zwei aufeinanderfolgende Phasen:All-Instance-Segmentierung und prompt-geführte Auswahl. In der ersten Phase wird YOLOv8-seg verwendet, um die Segmentierungsmasken aller Instanzen im Bild zu erstellen. In der zweiten Phase wird die Region-of-Interest ausgegeben, die dem Prompt entspricht.

Wesentliche Merkmale

Lösung in Echtzeit: Durch die Nutzung der Berechnungseffizienz von CNNs bietet FastSAM eine Echtzeitlösung für die Segmentierungsaufgabe, was es für industrielle Anwendungen, die schnelle Ergebnisse erfordern, wertvoll macht.
Effizienz und Leistung: FastSAM bietet eine erhebliche Reduzierung der Rechen- und Ressourcenanforderungen ohne Kompromisse bei der Leistungsqualität. Es erreicht eine vergleichbare Leistung wie SAM , aber mit drastisch reduzierten Rechenressourcen, was Echtzeitanwendungen ermöglicht.
Prompt-geführte Segmentierung: FastSAM kann jedes beliebige Objekt innerhalb eines Bildes segmentieren, das von verschiedenen möglichen Benutzerinteraktionsaufforderungen geleitet wird, was Flexibilität und Anpassungsfähigkeit in verschiedenen Szenarien bietet.
Basierend auf YOLOv8 -seg: FastSAM basiert auf YOLOv8-seg, einem Objektdetektor, der mit einem Instanzsegmentierungszweig ausgestattet ist. Dadurch kann er effektiv die Segmentierungsmasken aller Instanzen in einem Bild erstellen.
Konkurrenzfähige Ergebnisse bei Benchmarks: Bei der Objektvorschlagsaufgabe auf MS COCO erreicht FastSAM hohe Punktzahlen mit einer deutlich höheren Geschwindigkeit als SAM als auf einem einzelnen NVIDIA RTX 3090, was seine Effizienz und Leistungsfähigkeit unter Beweis stellt.
Praktische Anwendungen: Der vorgeschlagene Ansatz bietet eine neue, praktische Lösung für eine große Anzahl von Bildverarbeitungsaufgaben mit einer wirklich hohen Geschwindigkeit, d.h. zehn- oder hundertmal schneller als aktuelle Methoden.
Machbarkeit der Modellkomprimierung: FastSAM demonstriert die Machbarkeit eines Weges, der den Rechenaufwand durch die Einführung einer künstlichen Vorstufe zur Struktur erheblich reduzieren kann und damit neue Möglichkeiten für große Modellarchitekturen für allgemeine Sehaufgaben eröffnet.

Verfügbare Modelle, unterstützte Aufgaben und Betriebsmodi

In dieser Tabelle werden die verfügbaren Modelle mit ihren spezifischen vortrainierten Gewichten, den von ihnen unterstützten Aufgaben und ihrer Kompatibilität mit verschiedenen Betriebsmodi wie Inferenz, Validierung, Training und Export aufgeführt, gekennzeichnet durch ✅ Emojis für unterstützte Modi und ❌ Emojis für nicht unterstützte Modi.

Modell Typ	Vorgefertigte Gewichte	Unterstützte Aufgaben	Inferenz	Validierung	Ausbildung	Exportieren
FastSAM-s	FastSAM-s.pt	Instanz-Segmentierung	✅	❌	❌	✅
FastSAM-x	FastSAM-x.pt	Instanz-Segmentierung	✅	❌	❌	✅

FastSAM mit YOLO

Hier vergleichen wir die SAM 2-Modelle von Meta, einschließlich der kleinsten SAM2, mit dem kleinsten Segmentierungsmodell Ultralytics , YOLO11n-seg:

Modell	Größe ^(MB)	Parameter ^(M)	Geschwindigkeit (CPU) ^(ms/im)
Meta SAM-b	375	93.7	49401
Meta SAM2-b	162	80.8	31901
Meta SAM2-t	78.1	38.9	25997
MobileSAM	40.7	10.1	25381
FastSAM mitYOLOv8-Backbone	23.7	11.8	55.9
Ultralytics YOLOv8n-seg	6,7 (11,7x kleiner)	3,4 (11,4x weniger)	24,5 (1061x schneller)
Ultralytics YOLO11n-seg	5,9 (13,2x kleiner)	2,9 (13,4x weniger)	30,1 (864x schneller)

Dieser Vergleich zeigt die erheblichen Unterschiede in den Modellgrößen und Geschwindigkeiten zwischen SAM und YOLO . Während SAM einzigartige automatische Segmentierungsfähigkeiten bietet, sind die YOLO , insbesondere YOLOv8n und YOLO11n-seg, deutlich kleiner, schneller und rechnerisch effizienter.

Die Tests laufen auf einem 2025 Apple M4 Pro mit 24 GB RAM und torch==2.6.0 und ultralytics==8.3.90. Um diesen Test zu reproduzieren:

Beispiel

Python

from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLO models
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt"]:
    model = YOLO(file_name)
    model.info()
    model(ASSETS)

Beispiele für die Verwendung

Die FastSAM Modelle sind einfach in Ihre Python Anwendungen zu integrieren. Ultralytics bietet eine benutzerfreundliche Python API und CLI Befehle, um die Entwicklung zu rationalisieren.

Nutzung vorhersagen

Zur Durchführung Objekterkennung auf einem Bild, verwenden Sie die predict Methode wie unten gezeigt:

Beispiel

PythonCLI

from ultralytics import FastSAM

# Define an inference source
source = "path/to/bus.jpg"

# Create a FastSAM model
model = FastSAM("FastSAM-s.pt")  # or FastSAM-x.pt

# Run inference on an image
everything_results = model(source, device="cpu", retina_masks=True, imgsz=1024, conf=0.4, iou=0.9)

# Run inference with bboxes prompt
results = model(source, bboxes=[439, 437, 524, 709])

# Run inference with points prompt
results = model(source, points=[[200, 200]], labels=[1])

# Run inference with texts prompt
results = model(source, texts="a photo of a dog")

# Run inference with bboxes and points and texts prompt at the same time
results = model(source, bboxes=[439, 437, 524, 709], points=[[200, 200]], labels=[1], texts="a photo of a dog")

# Load a FastSAM model and segment everything with it
yolo segment predict model=FastSAM-s.pt source=path/to/bus.jpg imgsz=640

Dieser Ausschnitt zeigt, wie einfach es ist, ein vorab trainiertes Modell zu laden und eine Vorhersage für ein Bild durchzuführen.

FastSAMPredictor-Beispiel

Auf diese Weise können Sie eine Inferenz für ein Bild durchführen und alle Segmente erhalten results einmal und führen Sie die Inferenz mehrfach aus, ohne die Inferenz mehrfach auszuführen.

Unverzügliche Schlussfolgerung

from ultralytics.models.fastsam import FastSAMPredictor

# Create FastSAMPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="FastSAM-s.pt", save=False, imgsz=1024)
predictor = FastSAMPredictor(overrides=overrides)

# Segment everything
everything_results = predictor("ultralytics/assets/bus.jpg")

# Prompt inference
bbox_results = predictor.prompt(everything_results, bboxes=[[200, 200, 300, 300]])
point_results = predictor.prompt(everything_results, points=[200, 200])
text_results = predictor.prompt(everything_results, texts="a photo of a dog")

Hinweis

Alle zurückgesandten results in den obigen Beispielen sind Ergebnisse Objekt, das einen einfachen Zugriff auf vorausgesagte Masken und das Quellbild ermöglicht.

Val-Verwendung

Die Validierung des Modells anhand eines Datensatzes kann wie folgt erfolgen:

Beispiel

PythonCLI

from ultralytics import FastSAM

# Create a FastSAM model
model = FastSAM("FastSAM-s.pt")  # or FastSAM-x.pt

# Validate the model
results = model.val(data="coco8-seg.yaml")

# Load a FastSAM model and validate it on the COCO8 example dataset at image size 640
yolo segment val model=FastSAM-s.pt data=coco8.yaml imgsz=640

Bitte beachten Sie, dass FastSAM nur die Erkennung und Segmentierung einer einzigen Objektklasse unterstützt. Das bedeutet, dass es alle Objekte als dieselbe Klasse erkennt und segmentiert. Daher müssen Sie bei der Vorbereitung des Datensatzes alle Objektkategorie-IDs in 0 umwandeln.

Verwendung der Spur

Um eine Objektverfolgung auf einem Bild durchzuführen, verwenden Sie die track Methode wie unten gezeigt:

Beispiel

PythonCLI

from ultralytics import FastSAM

# Create a FastSAM model
model = FastSAM("FastSAM-s.pt")  # or FastSAM-x.pt

# Track with a FastSAM model on a video
results = model.track(source="path/to/video.mp4", imgsz=640)

yolo segment track model=FastSAM-s.pt source="path/to/video.mp4" imgsz=640

FastSAM offizielle Verwendung

FastSAM ist auch direkt über das https://github.com/CASIA-IVA-Lab/FastSAM Repository verfügbar. Im Folgenden finden Sie einen kurzen Überblick über die typischen Schritte, die Sie zur Verwendung von FastSAM durchführen können:

Einrichtung

Klonen Sie das Repository FastSAM :

git clone https://github.com/CASIA-IVA-Lab/FastSAM.git

Erstellen und aktivieren Sie eine Conda-Umgebung mit Python 3.9:

conda create -n FastSAM python=3.9
conda activate FastSAM

Navigieren Sie zu dem geklonten Repository und installieren Sie die erforderlichen Pakete:
```
cd FastSAM
pip install -r requirements.txt
```

Installieren Sie das CLIP-Modell:

pip install git+https://github.com/ultralytics/CLIP.git

Beispiel für die Verwendung

Laden Sie einen Modellprüfpunkt herunter.

Verwenden Sie FastSAM für Inferenzen. Beispielbefehle:

Segmentieren Sie alles in einem Bild:

python Inference.py --model_path ./weights/FastSAM.pt --img_path ./images/dogs.jpg

Segmentieren Sie bestimmte Objekte mit Hilfe von Textaufforderungen:

python Inference.py --model_path ./weights/FastSAM.pt --img_path ./images/dogs.jpg --text_prompt "the yellow dog"

Segmentieren Sie Objekte innerhalb eines Begrenzungsrahmens (geben Sie die Koordinaten des Rahmens im xywh-Format an):

python Inference.py --model_path ./weights/FastSAM.pt --img_path ./images/dogs.jpg --box_prompt "[570,200,230,400]"

Segmentieren Sie Objekte in der Nähe bestimmter Punkte:

python Inference.py --model_path ./weights/FastSAM.pt --img_path ./images/dogs.jpg --point_prompt "[[520,360],[620,300]]" --point_label "[1,0]"

Außerdem können Sie FastSAM über eine Colab-Demo oder die Web-DemoHuggingFace ausprobieren, um ein visuelles Erlebnis zu erhalten.

Zitate und Danksagungen

Wir möchten den Autoren von FastSAM für ihre bedeutenden Beiträge auf dem Gebiet der Echtzeit-Segmentierung von Instanzen unseren Dank aussprechen:

BibTeX

@misc{zhao2023fast,
      title={Fast Segment Anything},
      author={Xu Zhao and Wenchao Ding and Yongqi An and Yinglong Du and Tao Yu and Min Li and Ming Tang and Jinqiao Wang},
      year={2023},
      eprint={2306.12156},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Die Originalarbeit FastSAM kann auf arXiv gefunden werden. Die Autoren haben ihre Arbeit öffentlich zugänglich gemacht, und die Codebasis kann auf GitHub abgerufen werden. Wir schätzen ihre Bemühungen, das Feld voranzubringen und ihre Arbeit einer breiteren Gemeinschaft zugänglich zu machen.

FAQ

Was ist FastSAM und wie unterscheidet es sich von SAM?

FastSAM, kurz für Fast Segment Anything Model, ist eine auf einem Faltungsneuronalen Netzwerk (CNN) basierende Echtzeitlösung, die den Rechenaufwand reduziert und gleichzeitig eine hohe Leistung bei Objektsegmentierungsaufgaben bietet. Im Gegensatz zum Segment Anything Model (SAM), das eine schwerere, auf Transformer basierende Architektur verwendet, nutzt FastSAM Ultralytics YOLOv8 -seg für eine effiziente Instanzsegmentierung in zwei Stufen: All-Instance-Segmentierung, gefolgt von einer prompt-guided selection.

Wie erreicht FastSAM eine Segmentierungsleistung in Echtzeit?

FastSAM erreicht eine Echtzeit-Segmentierung durch Entkopplung der Segmentierungsaufgabe in eine All-Instance-Segmentierung mit YOLOv8-seg und prompt-geführten Auswahlstufen. Durch die Nutzung der Recheneffizienz von CNNs bietet FastSAM eine erhebliche Reduzierung der Rechen- und Ressourcenanforderungen bei gleichzeitiger Beibehaltung einer wettbewerbsfähigen Leistung. Dieser zweistufige Ansatz ermöglicht es FastSAM , eine schnelle und effiziente Segmentierung zu liefern, die für Anwendungen geeignet ist, die schnelle Ergebnisse erfordern.

Was sind die praktischen Anwendungen von FastSAM?

FastSAM ist für eine Vielzahl von Computer-Vision-Aufgaben geeignet, die eine Segmentierungsleistung in Echtzeit erfordern. Die Anwendungen umfassen:

Industrielle Automatisierung für Qualitätskontrolle und -sicherung
Videoanalyse in Echtzeit für Sicherheit und Überwachung
Autonome Fahrzeuge zur Erkennung und Segmentierung von Objekten
Medizinische Bildgebung für präzise und schnelle Segmentierungsaufgaben

Die Fähigkeit, mit verschiedenen Benutzerinteraktionsaufforderungen umzugehen, macht FastSAM anpassungsfähig und flexibel für verschiedene Szenarien.

Wie verwende ich das Modell FastSAM für die Inferenz in Python?

Um FastSAM für die Inferenz in Python zu verwenden, können Sie dem folgenden Beispiel folgen:

from ultralytics import FastSAM

# Define an inference source
source = "path/to/bus.jpg"

# Create a FastSAM model
model = FastSAM("FastSAM-s.pt")  # or FastSAM-x.pt

# Run inference on an image
everything_results = model(source, device="cpu", retina_masks=True, imgsz=1024, conf=0.4, iou=0.9)

# Run inference with bboxes prompt
results = model(source, bboxes=[439, 437, 524, 709])

# Run inference with points prompt
results = model(source, points=[[200, 200]], labels=[1])

# Run inference with texts prompt
results = model(source, texts="a photo of a dog")

# Run inference with bboxes and points and texts prompt at the same time
results = model(source, bboxes=[439, 437, 524, 709], points=[[200, 200]], labels=[1], texts="a photo of a dog")

Weitere Einzelheiten zu den Inferenzmethoden finden Sie im Abschnitt Verwendung vorhersagen in der Dokumentation.

Welche Arten von Eingabeaufforderungen werden von FastSAM für Segmentierungsaufgaben unterstützt?

FastSAM unterstützt mehrere Aufforderungstypen zur Steuerung der Segmentierungsaufgaben:

Alles Aufforderung: Erzeugt eine Segmentierung für alle sichtbaren Objekte.
Bounding Box (BBox) Aufforderung: Segmentiert Objekte innerhalb eines angegebenen Begrenzungsrahmens.
Textaufforderung: Verwendet einen beschreibenden Text, um Objekte zu segmentieren, die der Beschreibung entsprechen.
Punkt Aufforderung: Segmentiert Objekte in der Nähe bestimmter benutzerdefinierter Punkte.

Dank dieser Flexibilität kann FastSAM an eine Vielzahl von Benutzerinteraktionsszenarien angepasst werden, was seinen Nutzen für verschiedene Anwendungen erhöht. Weitere Informationen zur Verwendung dieser Prompts finden Sie im Abschnitt Hauptfunktionen.

📅 Erstellt vor 1 Jahr ✏️ Aktualisiert vor 10 Tagen

Fast Segment Anything Model (FastSAM)

Modell der Architektur

Übersicht

Wesentliche Merkmale

Verfügbare Modelle, unterstützte Aufgaben und Betriebsmodi

FastSAM mit YOLO

Beispiele für die Verwendung

Nutzung vorhersagen

Val-Verwendung

Verwendung der Spur

FastSAM offizielle Verwendung

Einrichtung

Beispiel für die Verwendung

Zitate und Danksagungen

FAQ

Was ist FastSAM und wie unterscheidet es sich von SAM?

Wie erreicht FastSAM eine Segmentierungsleistung in Echtzeit?

Was sind die praktischen Anwendungen von FastSAM?

Wie verwende ich das Modell FastSAM für die Inferenz in Python?

Welche Arten von Eingabeaufforderungen werden von FastSAM für Segmentierungsaufgaben unterstützt?

Kommentare