Zum Inhalt springen

YOLOX vs. YOLOv9: Ein technischer Vergleich

Die Wahl der richtigen Architektur für die Objekterkennung ist eine wichtige Entscheidung, die sich auf die Geschwindigkeit, die Genauigkeit und die Durchführbarkeit von Computer-Vision-Projekten auswirkt. Diese Analyse vergleicht YOLOX, ein zentrales verankerungsfreies Modell aus dem Jahr 2021, mit YOLOv9eine hochmoderne Architektur, die 2024 eingeführt wurde und die programmierbare Gradienteninformation (PGI) nutzt.

Während YOLOX den Paradigmenwechsel hin zu einer ankerfreien Erkennung vollzog, führt YOLOv9 neuartige Mechanismen ein, um Informationen in tiefen Netzen zu speichern, und bietet damit überlegene Leistungskennzahlen. In diesem Leitfaden werden die Architekturen, Benchmarks und idealen Anwendungsfälle erläutert, um Sie bei der Auswahl des besten Modells für Ihre Anforderungen zu unterstützen.

YOLOX: Der verankerungsfreie Pionier

YOLOX wurde veröffentlicht, um die Lücke zwischen der Forschungsgemeinschaft und den industriellen Anwendungen zu schließen, indem der Detektionskopf vereinfacht und die Abhängigkeit von vordefinierten Ankerboxen aufgehoben wurde.

Authors: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
Organisation:Megvii
Datum: 2021-07-18
Arxiv:arXiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX
Docs:YOLOX Documentation

Highlights der Architektur

YOLOX führte eine entkoppelte Kopfarchitektur ein, die die Klassifizierungs- und Regressionsaufgaben trennt. Durch diese Trennung kann das Modell schneller konvergieren und eine höhere Genauigkeit erreichen. Außerdem wird ein verankerungsfreier Mechanismus verwendet, der eine Clustering-Analyse zur Bestimmung der optimalen Größe der Ankerboxen überflüssig macht, wodurch das Modell robuster gegenüber unterschiedlichen Objektformen ist. Darüber hinaus verwendet YOLOX SimOTA für die Label-Zuweisung und behandelt den Prozess als optimales Transportproblem, um die Stabilität des Trainings zu verbessern.

Stärken und Schwächen

  • Stärken: Das ankerfreie Design vereinfacht den Prozess der Hyperparameter-Abstimmung. Der entkoppelte Kopf liefert im Allgemeinen eine höhere Präzision bei Lokalisierungsaufgaben im Vergleich zu gekoppelten Köpfen aus dieser Zeit.
  • Schwachstellen: Als Modell aus dem Jahr 2021 verfügt es nicht über die modernen Optimierungen, die in neueren Architekturen zu finden sind. Im Vergleich zu Modellen, die fortschrittliche Techniken zur Datenerweiterung und Ebenenaggregation verwenden, benötigt es möglicherweise mehr Trainingsdaten, um Spitzenleistungen zu erzielen.

YOLOv9: Programmierbare Steigungsinformationen

YOLOv9 stellt einen bedeutenden Fortschritt dar, da es das Problem des "Informationsengpasses" in tiefen neuronalen Netzen angeht.

Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica
Datum: 2024-02-21
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:Ultralytics YOLOv9 Docs

Highlights der Architektur

YOLOv9 führt Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) ein. PGI verhindert den Verlust wichtiger Eingabeinformationen, wenn die Daten tiefe Schichten durchlaufen, und gewährleistet eine zuverlässige Gradientengenerierung für Modellaktualisierungen. GELAN optimiert die Nutzung von Parametern, so dass das Modell leichtgewichtig und dennoch präzise ist. Dank dieser Innovationen übertrifft YOLOv9 seine Vorgänger sowohl bei der Effizienz als auch bei der durchschnittlichen Genauigkeit (mAP) erheblich.

Stärken und Schwächen

  • Stärken: Außergewöhnliches Verhältnis zwischen Genauigkeit und Parametern, was es für Echtzeitanwendungen äußerst effizient macht. Die Architektur bewahrt den Informationsfluss besser als frühere Iterationen, was zu einer besseren Erkennung von kleinen Objekten führt.
  • Schwachstellen: Da es sich um eine neuere Architektur handelt, sind im Vergleich zu älteren Modellen möglicherweise aktualisierte CUDA und Hardware-Unterstützung erforderlich.

Erfahren Sie mehr über YOLOv9

Leistungsvergleich

In der folgenden Tabelle wird die Leistung von YOLOX und YOLOv9 für den COCO gegenübergestellt. YOLOv9 zeigt durchweg höhere mAP mit weniger Parametern, was die Effizienz der GELAN-Architektur unterstreicht.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Analyse: YOLOv9 bietet eine erhebliche Verbesserung der Leistungsdichte. So erreicht YOLOv9c beispielsweise 53,0 % mAP mit nur 25,3 Mio. Parametern, während YOLOX-L 54,2 Mio. Parameter benötigt, um einen niedrigeren Wert von 49,7 % mAP zu erreichen. Dies zeigt, dass YOLOv9 in Bezug auf die Parameternutzung für diese Genauigkeitsstufe etwa doppelt so effizient ist.

Auf die Effizienz kommt es an

Bei der Bereitstellung auf Edge-Geräten sind FLOPs und Parameter ebenso wichtig wie mAP. Die GELAN-Architektur von YOLOv9 reduziert den Rechenaufwand erheblich, was zu kühleren Geräten und längerer Akkulaufzeit bei mobilen Einsätzen führt.

Der Ultralytics

YOLOX ist zwar ein robustes, eigenständiges Repository, aber die Verwendung von YOLOv9 innerhalb des Ultralytics Ecosystems bietet Entwicklern und Forschern deutliche Vorteile.

Benutzerfreundlichkeit und Integration

Das Ultralytics vereinheitlicht die Modellinteraktion. Sie können YOLOv9 mithilfe einer einfachen, intuitiven Python trainieren, validieren und bereitstellen. Dies steht im Gegensatz zur YOLOX-Codebasis, die oft eine manuelle Konfiguration von Umgebungsvariablen und Datensatzpfaden erfordert.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Train the model on a custom dataset with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Gepflegtes Ökosystem

Ultralytics profitieren von kontinuierlichen Updates, Fehlerkorrekturen und Community-Support. Die Integration mit Ultralytics HUB ermöglicht nahtlose MLOps, so dass Teams Datensätze verwalten, Experimente track und Modelle in verschiedenen FormatenONNX, TensorRT, CoreML) bereitstellen können, ohne komplexe Exportskripte schreiben zu müssen.

Leistungsbilanz und Speichereffizienz

DieYOLO Ultralytics wurden für ein praktisches Gleichgewicht zwischen Geschwindigkeit und Genauigkeit entwickelt. Darüber hinaus weisen sie im Vergleich zu älteren Architekturen oder schweren transformatorbasierten Modellen in der Regel geringere Speicheranforderungen beim Training auf. Diese Effizienz senkt die Cloud-Rechenkosten und macht das Training auf Consumer-GPUs zugänglich.

Vielseitigkeit

Während YOLOX in erster Linie ein Objektdetektor ist, erweitert das Ultralytics die Fähigkeiten der unterstützten Modelle. Benutzer können mit ähnlicher Syntax und ähnlichen Arbeitsabläufen leicht zwischen Aufgaben wie Instanzsegmentierung, Posenschätzung und Erkennung von orientierten Bounding Boxen (OBB) wechseln - eine Vielseitigkeit, die eigenständigen Forschungs-Repositories oft fehlt.

Ideale Anwendungsfälle

Wann sollte man YOLOv9 wählen YOLOv9

  • Autonome Systeme: Die hohe Genauigkeit von YOLOv9 ist ideal für autonome Fahrzeuge, bei denen die Erkennung kleiner Hindernisse aus der Ferne sicherheitskritisch ist.
  • Echtzeit-Analytik: Für den Einzelhandel oder das Verkehrsmanagement bietet YOLOv9c die optimale Kombination aus hohen Bildraten und präziser Erkennung.
  • Edge AI: Die architektonische Effizienz von GELAN macht YOLOv9t und YOLOv9s perfekt für den Einsatz auf Geräten wie NVIDIA Jetson oder Raspberry Pi.

Wann sollten Sie YOLOX wählen?

  • Vorhandene Integration: Wenn eine bestehende Produktionspipeline bereits stark auf das spezifische YOLOX-Format für ankerlose Köpfe ausgelegt ist.
  • Akademische Forschung: Forscher, die speziell das Verhalten von entkoppelten Köpfen in frühen ankerlosen Detektoren untersuchen, können YOLOX als wertvolle Vergleichsgrundlage nutzen.

Fazit

Beide Architekturen haben sich ihren Platz in der Geschichte der Computer Vision verdient. YOLOX forderte 2021 erfolgreich den Status quo der Ankerarchitektur heraus. Allerdings, YOLOv9 stellt jedoch den modernen Standard dar, in den jahrelange Fortschritte bei der Optimierung des Gradientenflusses und der Ebenenaggregation eingeflossen sind.

Für die meisten neuen Entwicklungen istYOLOv9 die empfohlene Wahl. Seine überragende Leistung pro Parameter in Kombination mit der Benutzerfreundlichkeit, der Schulungseffizienz und den robusten Bereitstellungsoptionen, die das Ultralytics bietet, gewährleistet einen schnelleren Weg vom Konzept zur Produktion.

Erkunden Sie andere moderne Optionen im Ökosystem, wie z. B. YOLO11 und YOLOv8um die perfekte Lösung für Ihre spezifischen Anwendungsanforderungen zu finden.


Kommentare