Zum Inhalt springen

YOLOv9 vs. YOLOX: Ein umfassender technischer Vergleich

Die Auswahl der richtigen Architektur für die Objekterkennung ist eine wichtige Entscheidung, die sich auf die Effizienz, Genauigkeit und Skalierbarkeit von Computer Vision-Anwendungen auswirkt. Dieser Leitfaden bietet einen detaillierten technischen Vergleich zwischen YOLOv9einem hochmodernen Modell, das 2024 eingeführt wurde, und YOLOX, einem leistungsstarken Detektor ohne Anker, der 2021 auf den Markt kam.

YOLOv9: Überwindung von Informationsverlusten in tiefen Netzen

YOLOv9 stellt einen bedeutenden Fortschritt bei der Objekterkennung in Echtzeit dar und wurde entwickelt, um die grundlegende Herausforderung des Informationsverlustes zu bewältigen, wenn Daten durch tiefe neuronale Netze laufen.

Die Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:docs.ultralytics.com/models/yolov9/

Architektur und Innovation

Die Kerninnovation von YOLOv9 liegt in zwei Schlüsselkomponenten: Programmierbare Gradienteninformation (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN).

  • Programmierbare Gradienteninformation (PGI): In tiefen Netzen gehen während der Merkmalsextraktion oft wichtige Eingabedaten verloren, ein Phänomen, das als Informationsengpass bekannt ist. PGI stellt ein zusätzliches Überwachungssignal bereit, das eine zuverlässige Gradientengenerierung gewährleistet und es dem Modell ermöglicht, effektivere Merkmale zu erlernen, ohne die Inferenzkosten zu erhöhen.
  • GELAN: Diese Architektur optimiert die Nutzung der Parameter und die Effizienz der Berechnungen. Durch die Verallgemeinerung des Konzepts der ELAN (Efficient Layer Aggregation Networks) ermöglicht GELAN die flexible Stapelung von Rechenblöcken, was zu einem Modell führt, das sowohl leichtgewichtig als auch schnell ist.

Dank dieser Innovationen erreicht YOLOv9 eine erstklassige Leistung auf dem COCO und übertrifft frühere Iterationen sowohl hinsichtlich der Genauigkeit als auch der Parametereffizienz.

Erfahren Sie mehr über YOLOv9

YOLOX: Der verankerungsfreie Standard

YOLOX wurde eingeführt, um die Lücke zwischen akademischer Forschung und industrieller Anwendung zu schließen und den verankerungsfreien Ansatz in der YOLO zu popularisieren.

Die Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
Organisation: Megvii
Datum: 2021-07-18
Arxiv:arXiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX
Docs:yolox.readthedocs.io

Wichtige architektonische Merkmale

YOLOX unterscheidet sich von früheren YOLO durch den Wegfall der Ankerkästen und die Verwendung einer entkoppelten Kopfstruktur.

  • Ankerfreies Design: Herkömmliche Detektoren basieren auf vordefinierten Ankerboxen, die eine heuristische Abstimmung und Clusterbildung erfordern. YOLOX behandelt die Objekterkennung als ein Punktvorhersageproblem, was das Design vereinfacht und die Generalisierung über verschiedene Objektformen hinweg verbessert.
  • Entkoppelter Kopf: Die Klassifizierungs- und Regressionsaufgaben werden in getrennten Zweigen (Köpfen) verarbeitet. Durch diese Trennung kann das Modell für jede Aufgabe unabhängig optimiert werden, was zu schnellerer Konvergenz und besserer Genauigkeit führt.
  • SimOTA: Eine fortschrittliche Label-Zuweisungsstrategie, die positive Proben dynamisch den Objekten der Grundwahrheit zuordnet und so die Leistung weiter steigert.

Leistungsanalyse: Metriken und Benchmarks

Bei der Analyse der Leistung zeigt YOLOv9 einen klaren Vorteil, der einer neueren Architektur entspricht. Durch die Nutzung von PGI und GELAN erreicht YOLOv9 eine höhere mittlere GenauigkeitmAPMean Average PrecisionmAP) bei gleichbleibender oder geringerer Rechenlast (FLOPs) im Vergleich zu YOLOX.

Die nachstehende Tabelle verdeutlicht die Leistungsunterschiede. Bemerkenswert ist, dass YOLOv9 eine deutlich höhere mAP (53,0 %) als YOLOX-L (49,7 %) bei weniger als der Hälfte der Parameteranzahl (25,3 Mio. gegenüber 54,2 Mio.) erreicht. Diese Effizienz macht YOLOv9 zu einer überlegenen Wahl für Anwendungen, die durch Hardware-Ressourcen eingeschränkt sind, aber eine hohe Genauigkeit erfordern.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Geschwindigkeit und Effizienz

Während YOLOX im Jahr 2021 beeindruckende Geschwindigkeiten eingeführt hat, geht YOLOv9 noch einen Schritt weiter. Das Modell YOLOv9 (Tiny) bietet eine außergewöhnliche Ausgewogenheit und liefert 38,3 % mAP bei nur 2,0 M Parametern, wodurch es sich hervorragend für mobile und eingebettete Anwendungen eignet. Im Gegensatz dazu ist YOLOX-Nano zwar kleiner, aber mit 25,8 % mAP nicht ganz so genau.

Effizienz der Ausbildung

YOLOv9 profitiert von modernen Trainingsrezepten und dem optimierten Ultralytics , was oft zu einer schnelleren Konvergenz und einem geringeren Speicherverbrauch beim Training im Vergleich zu älteren Architekturen führt.

Ideale Anwendungsfälle

Die Wahl zwischen diesen Modellen hängt von Ihren spezifischen Projektanforderungen ab.

Wann sollte man YOLOv9 wählen YOLOv9

YOLOv9 ist die empfohlene Wahl für die meisten modernen Computer-Vision-Anwendungen aufgrund seines hervorragenden Verhältnisses von Genauigkeit zu Effizienz.

  • Echtzeit-Edge-KI: Einsatz auf Geräten wie NVIDIA Jetson, wo FLOPs eine Rolle spielen. Die leichtgewichtige Architektur von YOLOv9 maximiert den Durchsatz.
  • Hochpräzise Inspektion: Industrielle Qualitätskontrolle, bei der die Erkennung kleiner Fehler entscheidend ist. Der hohe mAP des YOLOv9 stellt sicher, dass auch kleinste Details erfasst werden.
  • Autonome Systeme: Robotik und Drohnen erfordern geringe Latenzzeiten. Die optimierte Graphenstruktur von YOLOv9 gewährleistet eine schnelle Inferenz, ohne die Erkennungsfunktionen zu beeinträchtigen.

Wann Sie YOLOX in Betracht ziehen sollten

YOLOX ist nach wie vor ein starker Konkurrent für spezifische Legacy-Workflows oder Forschungsvergleiche.

  • Akademische Forschung: Der entkoppelte Kopf und das verankerungsfreie Design machen ihn zu einer klassischen Basis für die Untersuchung der Grundlagen der Objekterkennung.
  • Legacy-Einsätze: Wenn eine bestehende Infrastruktur stark für die spezifische YOLOX-Architektur optimiert ist (z.B. kundenspezifische TensorRT , die speziell für YOLOX-Köpfe entwickelt wurden), kann die Beibehaltung des Legacy-Modells kurzfristig kosteneffizient sein.

Der Ultralytics

Die Übernahme von YOLOv9 durch das Ultralytics bietet deutliche Vorteile gegenüber eigenständigen Implementierungen. Das Ultralytics ist darauf ausgelegt, den gesamten Lebenszyklus von Machine Learning Operations (MLOps) zu optimieren.

  • Benutzerfreundlichkeit: Mit derPython Ultralytics können Sie Modelle in nur wenigen Codezeilen laden, trainieren und einsetzen.
  • Gepflegtes Ökosystem: Regelmäßige Updates gewährleisten die Kompatibilität mit den neuesten Versionen von PyTorch, ONNX und CUDA.
  • Vielseitigkeit: Während YOLOX in erster Linie ein Objektdetektor ist, unterstützt das Ultralytics eine breite Palette von Aufgaben wie Posenschätzung, Segmentierung und Klassifizierung, so dass Sie innerhalb derselben Codebasis problemlos zwischen verschiedenen Architekturen oder Aufgaben wechseln können.
  • Speichereffizienz: Ultralytics sind für die Speichernutzung optimiert und verhindern OOM-Fehler (Out-Of-Memory), die beim Training komplexer Modelle auf Transformer-Basis oder nicht optimierter älterer Detektoren häufig auftreten.

Code-Beispiel: Ausführen von YOLOv9

Die Durchführung von Schlussfolgerungen mit YOLOv9 ist mit dem Ultralytics ganz einfach.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 compact model
model = YOLO("yolov9c.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Flexibilität bei der Ausfuhr

YOLOv9 , die mit Ultralytics trainiert wurden, können leicht in Formate exportiert werden wie TensorRT, OpenVINOund CoreML für maximale Einsatzflexibilität.

Fazit und Empfehlungen

YOLOX spielte eine entscheidende Rolle bei der Weiterentwicklung der ankerlosen Detektion, YOLOv9 als die überlegene Wahl für die aktuelle Entwicklung gilt. Seine innovative PGI- und GELAN-Architektur bietet eine höhere Genauigkeit mit weniger Parametern und löst das Problem des Informationsengpasses, das frühere tiefe Netzwerke einschränkte.

Für Entwickler, die auf der Suche nach den neuesten Leistungs- und Funktionsmerkmalen sind, empfehlen wir auch YOLO11das diese Konzepte weiter verfeinert, um noch mehr Geschwindigkeit und Vielseitigkeit für verschiedene Bildverarbeitungsaufgaben zu erreichen. Zum direkten Vergleich mit YOLOX bietet YOLOv9 jedoch einen überzeugenden Upgrade-Pfad, der den Rechenaufwand reduziert und gleichzeitig die Erkennungssicherheit erhöht.

Andere Modelle entdecken

Erweitern Sie Ihr Wissen, indem Sie andere Spitzenmodelle im Ultralytics vergleichen:


Kommentare