Zum Inhalt springen

YOLOX vs. YOLOv9: Die Entwicklung der leistungsstarken Objekterkennung

Im sich rasant entwickelnden Bereich der Computervision ist die Auswahl des richtigen Objekterkennungsmodells entscheidend für das Gleichgewicht zwischen Genauigkeit, Geschwindigkeit und Komplexität der Bereitstellung. Dieser Vergleich untersucht zwei wichtige Meilensteine in der YOLO : YOLOX, einen robusten, ankerfreien Detektor, der 2021 veröffentlicht wurde, und YOLOv9, eine Architektur aus dem Jahr 2024, die programmierbare Gradienteninformationen (PGI) für eine überlegene Merkmalserhaltung einführt.

YOLOX: Der ankerfreie Pionier

YOLOX stellte eine bedeutende Veränderung in der YOLO dar, indem es sich von ankerbasierten Mechanismen zu einem ankerfreien Design entwickelte. Durch diese Vereinfachung entfiel die Notwendigkeit der manuellen Ankerbox-Optimierung, wodurch das Modell besser an verschiedene Datensätze und Seitenverhältnisse angepasst werden konnte. Durch die Integration eines entkoppelten Kopfes und der fortschrittlichen SimOTA-Label-Zuweisungsstrategie erzielte YOLOX bei seiner Veröffentlichung Ergebnisse auf dem neuesten Stand der Technik und schloss damit die Lücke zwischen akademischer Forschung und industrieller Anwendung.

Erfahren Sie mehr über YOLOX

Wesentliche Architekturmerkmale

  • Ankerfreier Mechanismus: Beseitigt die Komplexität der Ankerbox-Clusterbildung, reduziert die Anzahl der Designparameter und verbessert die Generalisierung.
  • Entkoppelter Kopf: Trennt die Klassifizierungs- und Regressionsaufgaben in verschiedene Zweige, löst den Konflikt zwischen diesen beiden Zielen und verbessert die Konvergenzgeschwindigkeit.
  • SimOTA-Label-Zuweisung: Eine dynamische Label-Zuweisungsstrategie, die den Trainingsprozess als optimales Transportproblem betrachtet und Ground Truths den Vorhersagen effektiver zuweist als statische IoU .

YOLOv9: Programmierbare Gradienten für Deep Learning

YOLOv9 befasst sich mit dem grundlegenden Problem des Informationsverlusts in tiefen neuronalen Netzen. Mit zunehmender Tiefe der Netze können wichtige Merkmalsinformationen während der Vorwärtspropagierung verloren gehen. YOLOv9 programmierbare Gradienteninformationen (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) YOLOv9 , um kritische Daten über alle Netzwerkschichten hinweg zu erhalten. Dies führt zu einer deutlichen Verbesserung der Erkennungsgenauigkeit, insbesondere bei leichtgewichtigen Modellen, bei gleichbleibend hoher Effizienz.

Erfahren Sie mehr über YOLOv9

Wesentliche Architekturmerkmale

  • GELAN-Architektur: Kombiniert CSPNet- und ELAN-Designprinzipien, um die Parametereffizienz und Rechengeschwindigkeit zu maximieren, sodass das Modell auf verschiedenen Hardwarekomponenten effektiv ausgeführt werden kann.
  • Programmierbare Gradienteninformationen (PGI): Ein zusätzliches Überwachungsframework, das zuverlässige Gradienten für die Aktualisierung der Netzwerkgewichte generiert und sicherstellt, dass der Hauptzweig auch in sehr tiefen Architekturen vollständige Merkmale lernt.
  • Reversible Funktionen: Mindert das Problem des Informationsengpasses, indem sichergestellt wird, dass Daten effektiv rekonstruiert werden können und semantische Informationen über alle Ebenen hinweg erhalten bleiben.

Leistungsvergleich

Bei der Bewertung dieser Modelle YOLOv9 im Allgemeinen YOLOX in Bezug auf das Verhältnis von Genauigkeit zu Parametern. Während YOLOX-x einen respektablen mAP 51,1 % erreicht, übertrifft das neuere YOLOv9c diesen Wert mit 53,0 % mAP, wobei es deutlich weniger Parameter (25,3 Mio. gegenüber 99,1 Mio.) und weniger Rechenleistung benötigt. Diese Effizienz macht YOLOv9 zu YOLOv9 stärkeren Kandidaten für Echtzeitanwendungen, bei denen die Hardware-Ressourcen begrenzt sind, aber eine hohe Genauigkeit erforderlich ist.

YOLOX bleibt jedoch für ältere Edge-Geräte weiterhin sehr relevant. Sein einfacheres, ankerfreies Design lässt sich manchmal leichter für bestimmte mobile Chipsätze oder NPU-Architekturen optimieren, die die komplexen Schichtaggregationen neuerer Modelle wie GELAN möglicherweise nicht vollständig unterstützen.

Detaillierte Kennzahlen

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Effizienz-Highlight

Beachten Sie, dass YOLOv9c eine höhere Genauigkeit (53,0 % mAP) als das größte YOLOX-x (51,1 % mAP) erzielt, während es etwa 75 % weniger Parameter verwendet. Dies zeigt den rasanten Fortschritt in der Architektureffizienz in den drei Jahren zwischen diesen Veröffentlichungen.

Schulung und Benutzerfreundlichkeit mit Ultralytics

Ein entscheidendes Unterscheidungsmerkmal für Entwickler ist das Ökosystem rund um das Modell. YOLOv9 ist vollständig in das Ultralytics integriert und bietet damit einen erheblichen Vorteil in Bezug auf die Benutzerfreundlichkeit.

Der Ultralytics Vorteil

Mit derPython können Sie auf modernste Modelle mit einheitlicher Syntax zugreifen. Sie müssen keine komplexen Repositorys klonen oder C++-Operatoren manuell kompilieren, was bei ursprünglichen Forschungsimplementierungen wie YOLOX oft eine Hürde darstellt.

from ultralytics import YOLO

# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

Diese Integration bietet:

  1. Optimierter Arbeitsablauf: Nahtloser Wechsel zwischen Erkennungs-, Segmentierungs- und Posenschätzungsaufgaben.
  2. Speichereffizienz: Die Ultralytics sind für Verbraucherhardware optimiert und benötigen oft weniger GPU als transformatorbasierte Alternativen oder nicht optimierte Forschungscodebasen.
  3. Bereitstellungsbereitschaft: Mit integrierten Exportfunktionen können Sie trainierte Modelle in ONNX, TensorRT, CoreML und TFLite

Anwendungen in der realen Welt

Die Wahl zwischen diesen Modellen hängt von Ihren spezifischen Einsatzbedingungen ab.

Hochgeschwindigkeits-Einzelhandelsanalyse

Für Einzelhandelsumgebungen, die eine Echtzeit-Produkterkennung auf Edge-Geräten erfordern, YOLOv9 oft die bessere Wahl. Seine GELAN-Architektur ermöglicht einen hohen Durchsatz auf Geräten wie dem NVIDIA Orin Nano und ermöglicht Funktionen wie automatisierte Kassenabwicklung oder Regalbestandsanalyse ohne nennenswerte Verzögerungen.

Legacy-Mobilgerätebereitstellung

In Szenarien mit älterer mobiler Hardware oder bestimmten NPU-Architekturen, die einfache Faltungsmuster bevorzugen, könnten YOLOX-Nano oder YOLOX-Tiny weiterhin vorzuziehen sein. Ihr reines, ankerfreies Design ohne komplexe Aggregationsblöcke lässt sich manchmal leichter quantisieren und auf sehr eingeschränkten Mikrocontrollern oder älteren Android einsetzen.

Autonome Robotik

Bei Robotikanwendungen, bei denen eine maximale Genauigkeit zur Vermeidung von Kollisionen von entscheidender Bedeutung ist, bietet die überlegene Merkmalserhaltung von YOLOv9e eine Sicherheitsmarge, die ältere Modelle nicht erreichen können. Das PGI-Framework stellt sicher, dass kleine Hindernisse beim Merkmalsextraktionsprozess nicht verloren gehen, was für die Navigation in unübersichtlichen Umgebungen von entscheidender Bedeutung ist.

Die Zukunft: YOLO26 betritt die Bühne

YOLOv9 zwar eine außergewöhnliche Leistung, doch die KI-Branche steht niemals still. Das neu veröffentlichte YOLO26 baut auf diesen Grundlagen auf und bietet die ultimative Balance zwischen Geschwindigkeit und Präzision.

YOLO26 führt ein natives End-to-End-Design NMS ein, wodurch die Notwendigkeit einer Nicht-Maximalunterdrückung während der Inferenz vollständig entfällt. Dies führt zu deutlich einfacheren Bereitstellungspipelines und schnelleren Ausführungsgeschwindigkeiten. Darüber hinaus erreicht YOLO26 durch die Entfernung des Distribution Focal Loss (DFL) und die Verwendung des neuartigen MuSGD-Optimierers (eine Mischung aus SGD Muon) CPU um bis zu 43 % schnellere CPU im Vergleich zu früheren Generationen und ist damit die ideale Wahl für modernes Edge-Computing.

Entwicklern, die nach dem absolut Besten ihrer Klasse suchen, empfehlen wir, YOLO26 für ihr nächstes Projekt zu evaluieren, um diese bahnbrechenden Fortschritte im Bereich Computer Vision zu nutzen.

Ähnliche Modelle zum Entdecken

  • YOLO11: Ein leistungsstarker Vorgänger von YOLO26, der sich durch hervorragende Vielseitigkeit bei verschiedenen Bildverarbeitungsaufgaben auszeichnet.
  • RT-DETR: Ein transformatorbasierter Detektor, der auch NMS eliminiert und sich ideal für Szenarien eignet, in denen hohe Genauigkeit Vorrang vor reiner Inferenzgeschwindigkeit hat.
  • YOLOv10: Das erste YOLO , das das NMS Trainingsparadigma eingeführt hat und als Brücke zur modernen YOLO26-Architektur dient.

Kommentare