Zum Inhalt springen

YOLOv9 YOLOX: Ein technischer Einblick in die moderne Objekterkennung

Der Bereich der Computervision hat eine rasante Entwicklung bei den Architekturen zur Echtzeit-Objekterkennung erlebt. Dieser Leitfaden bietet einen umfassenden Vergleich zwischen YOLOv9 und YOLOX und analysiert deren architektonische Innovationen, Leistungskennzahlen und Trainingsmethoden. Ganz gleich, ob Sie intelligente Anwendungen für KI in der Fertigung entwickeln oder sich mit prädiktiver Modellierung befassen – wenn Sie diese Modelle verstehen, können Sie fundierte Entscheidungen für Ihre nächste Implementierung treffen.

Architektonische Innovationen

YOLOv9: Programmierbare Gradienteninformation

YOLOv9 einen Paradigmenwechsel YOLOv9 , indem es das Problem des Informationsengpasses angegangen ist, das tiefen neuronalen Netzen innewohnt. Zu seinen wichtigsten Innovationen zählen Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN).

  • Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
  • Organisation: Institute of Information Science, Academia Sinica, Taiwan
  • Datum: 21. Februar 2024
  • Arxiv:2402.13616
  • GitHub:WongKinYiu/yolov9

Durch die Beibehaltung wichtiger Merkmalsdaten während des Feedforward-Prozesses YOLOv9 , dass die Gradienten, die zur Aktualisierung der Gewichte während der Rückpropagation verwendet werden, genau bleiben. Diese Architektur zeichnet sich durch eine hervorragende Merkmalsextraktion aus und ist daher besonders gut geeignet, um kleine Objekte in komplexen Umgebungen zu erkennen, wie sie beispielsweise in Luftbildaufnahmen und detaillierten medizinischen Scans zu finden sind.

Erfahren Sie mehr über YOLOv9

YOLOX: Brückenschlag zwischen Forschung und Industrie

YOLOX wurde Mitte 2021 veröffentlicht und verlagerte die YOLO hin zu einem ankerfreien Design. Es führte einen entkoppelten Kopf ein, der Klassifizierungs- und Lokalisierungsaufgaben trennt, und nutzte die SimOTA-Label-Zuweisungsstrategie, um die Trainingskonvergenz zu verbessern.

Obwohl YOLOX für seine Zeit bahnbrechend war, eine hervorragende mittlere durchschnittliche Präzision (mAP) erzielte und die Hyperparameter-Optimierung für Ankerboxen überflüssig machte, wurde seine zugrunde liegende Architektur inzwischen von modernen Netzwerken übertroffen, die eine bessere Balance zwischen Parameteranzahl und Merkmalserhaltung bieten.

Erfahren Sie mehr über YOLOX

Ankerfreie Evolution

Sowohl YOLOX als auch neuere Ultralytics setzen auf ankerfreie Designs, wodurch die Komplexität der Hyperparameter-Optimierung reduziert und die Generalisierung über verschiedene Datensätze hinweg verbessert wird.

Leistungsanalyse

Beim Vergleich dieser Modelle anhand des MS COCO YOLOv9 die Fortschritte von YOLOv9 deutlich. YOLOv9 erzielt YOLOv9 einen besseren Kompromiss zwischen Genauigkeit und FLOPs.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Während YOLOX leichte Varianten wie YOLOX-Nano für extreme Randfälle anbietet, übertreffen YOLOv9 in puncto Genauigkeit durchweg die ähnlich großen YOLOX-Modelle. So erreicht YOLOv9m beispielsweise einen mAP 51,4 % mAP 49,7 % bei YOLOXl, obwohl es weniger als die Hälfte der Parameter hat (20,0 Mio. gegenüber 54,2 Mio.).

Der Ultralytics Vorteil

Die Auswahl eines Modells umfasst mehr als nur Architekturtheorie; das umgebende Ökosystem bestimmt die Entwicklungsgeschwindigkeit und den Erfolg der Bereitstellung. Die Verwendung YOLOv9 des Ultralytics bietet eine beispiellose Benutzerfreundlichkeit und eine starke Community-Unterstützung.

Im Gegensatz zu älteren Original-Forschungsarchiven bietet das Ultralytics eine einheitliche Python , die komplexe Pipelines vereinfacht. Das Training erfordert deutlich weniger GPU als viele Alternativen und bietet eine unglaubliche Trainingseffizienz.

from ultralytics import YOLO

# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to TensorRT format
model.export(format="engine")

Dank integrierter Unterstützung für mehrere Aufgaben, darunter Objekterkennung, Instanzsegmentierung und Posenschätzung, können Sie Ihre Computer-Vision-Lösungen schnell anpassen, ohne Ihre gesamte Codebasis ändern zu müssen.

Nahtloser Export

Bereitstellung am Rand? Ultralytics Ihre trainierten Modelle ganz einfach in hochoptimierte Formate wie ONNX, TensorRTund OpenVINO nur einem einzigen Befehl.

Anwendungen in der realen Welt

Die spezifischen Stärken dieser Modelle machen sie für bestimmte Anwendungen in der Praxis besonders geeignet:

Hochgeschwindigkeits-Einzelhandelsanalyse

Für moderne Einzelhandelsumgebungen, die eine Produkt-Erkennung in Echtzeit erfordern, YOLOv9 hervorragend geeignet. Dank seiner Fähigkeit, komplexe Merkmalsdetails zu speichern, eignet es sich perfekt für KI-Anwendungen im Einzelhandel, wo es notwendig ist, visuell ähnliche Produkte in einem überfüllten Regal voneinander zu unterscheiden.

Legacy-Edge-Bereitstellungen

In Szenarien mit strengen Hardwarebeschränkungen oder speziellen NPUs, die mit neueren Aggregationsblöcken zu kämpfen haben, kann YOLOX-Nano gelegentlich eine Nische finden. Seine reinen, reduzierten Faltungsmuster werden manchmal für extrem ressourcenbeschränkte Mikrocontroller bevorzugt.

Autonome Robotik

Für die Roboternavigation kann das Übersehen kleiner Objekte katastrophale Folgen haben. Die GELAN-Architektur in YOLOv9 dass Merkmale kleiner, weit entfernter Hindernisse in den tiefen Schichten des Netzwerks nicht verloren gehen, und übertrifft damit ältere Modelle in kritischen Sicherheitsumgebungen wie der KI in Automobilanwendungen.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv9 YOLOX hängt von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen ab.

Wann man YOLOv9 wählen sollte

YOLOv9 eine gute Wahl für:

  • Forschung zu Informationsengpässen: Wissenschaftliche Projekte, die sich mit den Architekturen „Programmable Gradient Information“ (PGI) und „Generalized Efficient Layer Aggregation Network“ (GELAN) befassen.
  • Studien zur Optimierung des Gradientenflusses: Die Forschung konzentrierte sich auf das Verständnis und die Minderung von Informationsverlusten in tiefen Netzwerkschichten während des Trainings.
  • Benchmarking für hochpräzise Erkennung: Szenarien, in denen die starke COCO Leistung YOLOv9 als Referenzpunkt für Architekturvergleiche benötigt wird.

Wann YOLOX wählen?

YOLOX wird empfohlen für:

  • Ankerfreie Erkennung Forschung: Akademische Forschung, die die saubere, ankerfreie Architektur von YOLOX als Grundlage für Experimente mit neuen Erkennungsköpfen oder Verlustfunktionen nutzt.
  • Ultraleichte Edge-Geräte: Einsatz auf Mikrocontrollern oder älterer mobiler Hardware, wo die extrem geringe Speicherbelegung der YOLOX-Nano-Variante (0,91 Millionen Parameter) entscheidend ist.
  • SimOTA-Labelzuweisungsstudien: Forschungsprojekte, die sich mit optimalen transportbasierten Labelzuweisungsstrategien und deren Auswirkungen auf die Trainingskonvergenz befassen.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
  • CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.

Die Zukunft: YOLO26 betritt die Bühne

YOLOv9 zwar einen beeindruckenden Meilenstein YOLOv9 , doch die Anforderungen von Produktionsumgebungen verschieben ständig die Grenzen. Das neu veröffentlichte YOLO26 den definitiven Standard für moderne Bildverarbeitungs-KI dar.

YOLO26 revitalisiert die Bereitstellungspipeline vollständig mit einem nativen End-to-End-Design NMS. Da keine komplexe Nicht-Maximalunterdrückung während der Nachbearbeitung erforderlich ist, bietet es eine deutlich geringere Inferenzlatenz.

Darüber hinaus verfügt YOLO26 über den bahnbrechenden MuSGD-Optimierer, eine Mischung aus SGD Muon, der Innovationen aus dem LLM-Training nutzt, um eine unglaublich stabile und schnelle Konvergenz zu erzielen. Durch den Wegfall des Distribution Focal Loss (DFL) erreicht YOLO26 CPU um bis zu 43 % schnellere CPU im Vergleich zu seinen Vorgängern und ist damit die absolut beste Wahl für Edge-Geräte und Unternehmensanwendungen. Mit bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte durch ProgLoss und STAL löst YOLO26 sowohl YOLOX als auch YOLOv9 effektiv ab.

Für Ingenieure, die sich mit modernen Architekturen beschäftigen, empfehlen wir außerdem einen Blick auf YOLO11 und RT-DETR als leistungsstarke Alternativen innerhalb der Ultralytics zu prüfen. Stellen Sie sicher, dass Ihr Projekt zukunftssicher ist, indem Sie die beispiellose Leistung der neuesten Modelle auf der Ultralytics nutzen.


Kommentare