Zum Inhalt springen

YOLOv5 . YOLOX: Ein technischer Vergleich von Architekturen zur Objekterkennung

In der sich rasant entwickelnden Landschaft der Computervision ist die Debatte zwischen ankerbasierten und ankerfreien Detektoren ein zentrales Thema. Dieser Vergleich untersucht die technischen Unterschiede zwischen YOLOv5, dem Industriestandard für Benutzerfreundlichkeit und Geschwindigkeit, und YOLOX, einem leistungsstarken ankerfreien Detektor.

Modellursprünge und Übersicht

YOLOv5
Autor: Glenn Jocher
Organisation: Ultralytics
Datum: 26.06.2020
GitHub: yolov5

YOLOX
Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation: Megvii
Datum: 18.07.2021
GitHub: Megvii-BaseDetection/YOLOX

YOLOv5 revolutionierte das Feld nicht nur durch architektonische Veränderungen, sondern auch durch die Schaffung einer nahtlosen Benutzererfahrung. Es legte den Schwerpunkt auf einfache Schulung, Exportierbarkeit und schnelle Bereitstellung und wurde damit zur ersten Wahl für Unternehmen und Entwickler. YOLOX, das ein Jahr später veröffentlicht wurde, zielte darauf ab, die Lücke zwischen der YOLO und dem akademischen Trend der ankerfreien Erkennung zu schließen, indem es einen entkoppelten Kopf und eine neue Strategie zur Zuweisung von Labels einführte.

Leistungsmetriken

Die folgende Tabelle vergleicht die Leistung beider Modelle. Während YOLOX eine etwas höhere Leistung erzielte mAP , weist YOLOv5 überlegene Inferenzgeschwindigkeiten auf, insbesondere auf CPU, und ist deutlich einfacher zu implementieren.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Architektonische Unterschiede

Der wesentliche technische Unterschied liegt darin, wie jedes Modell die Vorhersage von Begrenzungsrahmen handhabt.

YOLOv5: Der ankerbasierte Standard

YOLOv5 einen ankerbasierten Mechanismus. Es prognostiziert Abweichungen von vordefinierten Ankerboxen, was dazu beiträgt, das Training für Objekte bekannter Größenordnungen zu stabilisieren.

  • Backbone: Nutzt ein modifiziertes CSPDarknet53, wodurch der Gradientenfluss verbessert und Rechenengpässe reduziert werden.
  • Datenanreicherung: Pionierarbeit beim umfangreichen Einsatz von Mosaic-Anreicherung und MixUp der Trainingspipeline, wodurch die Robustheit des Modells gegenüber Okklusion erheblich verbessert wurde.
  • Fokus: Die Architektur ist stark für den Einsatz in der Praxis optimiert, sodass eine effiziente Zuordnung der Schichten zu Hardware-Beschleunigern wie der Edge TPU gewährleistet ist.

YOLOX: Der ankerfreie Herausforderer

YOLOX wechselt zu einem ankerfreien Ansatz und prognostiziert direkt die Mitte eines Objekts.

  • Entkoppelter Kopf: Im Gegensatz zu früheren YOLO trennt YOLOX die Klassifizierungs- und Lokalisierungsaufgaben in verschiedene „Köpfe“, wodurch ihrer Meinung nach der Konflikt zwischen diesen beiden Zielen während der Konvergenz gelöst wird.
  • SimOTA: Eine fortschrittliche Strategie zur dynamischen Labelzuweisung, die den Trainingsprozess als optimales Transportproblem betrachtet.
  • Referenz: Ausführliche technische Details finden Sie im YOLOX-ArXiv-Artikel.

Der Kompromiss entkoppelter Köpfe

Der entkoppelte Kopf in YOLOX verbessert zwar die Konvergenzgeschwindigkeit und Genauigkeit, verursacht jedoch häufig zusätzlichen Rechenaufwand, was zu einer etwas langsameren Inferenz im Vergleich zum gekoppelten Kopfdesign in YOLOv5 YOLOv8.

Ökosystem und Benutzerfreundlichkeit

Bei der Bewertung von Modellen für die Produktion ist das umgebende Ökosystem ebenso wichtig wie die Architektur selbst. Hier kommt Ultralytics Modelle einen deutlichen Vorteil.

YOLOv5 ist in ein ausgereiftes, gut gepflegtes Ökosystem integriert. Benutzer profitieren von der Ultralytics (ehemals HUB), die die Annotation, das Training und die Bereitstellung von Datensätzen optimiert. Die Plattform übernimmt die komplexen Aufgaben der Infrastruktur, sodass sich Entwickler auf Daten und Ergebnisse konzentrieren können.

Im Gegensatz dazu bietet YOLOX zwar eine starke akademische Leistung, erfordert jedoch häufig mehr manuelle Konfiguration für die Bereitstellung. Ultralytics legen den Schwerpunkt auf Trainingseffizienz und bieten sofort verfügbare vortrainierte Gewichte und einen geringeren Speicherverbrauch während des Trainings. Diese Speichereffizienz ist besonders bemerkenswert im Vergleich zu neueren transformatorbasierten Modellen wie RT-DETR, die sehr ressourcenintensiv sein können.

Erfahren Sie mehr über YOLOv5

Die Entwicklung: YOLO26 kommt auf den Markt

YOLOv5 YOLOX sind zwar nach wie vor eine ausgezeichnete Wahl, doch hat sich das Feld weiterentwickelt. Für Entwickler, die 2026 neue Projekte starten, stellt YOLO26 den Höhepunkt dieser Entwicklung dar, da es die Benutzerfreundlichkeit von YOLOv5 den ankerfreien Innovationen von YOLOX kombiniert – und beide übertrifft.

YOLO26 wurde entwickelt, um die ultimative Leistungsbalance für Edge-Computing und Echtzeitanalysen zu bieten.

Warum auf YOLO26 upgraden?

  • End-to-End NMS: Wie YOLOX verzichtet auch YOLO26 auf Anker, geht jedoch noch einen Schritt weiter, indem es nativ End-to-End ist. Dadurch entfällt die Non-Maximum Suppression (NMS), ein Nachbearbeitungsschritt, der die Bereitstellung auf Geräten wie FPGAs oder CoreML.
  • MuSGD Optimizer: Inspiriert von den Trainingstechniken für große Sprachmodelle (LLM) (insbesondere von Moonshot AI's Kimi K2) sorgt dieser hybride Optimierer für eine stabile Trainingsdynamik und bringt so die Stabilität von LLM effektiv in Bildverarbeitungsaufgaben ein.
  • Geschwindigkeit: YOLO26 bietet im Vergleich zu früheren Generationen CPU um bis zu 43 % schnellere CPU , die durch die Entfernung von Distribution Focal Loss (DFL) und Architektur-Pruning erreicht wird.
  • ProgLoss + STAL: Diese verbesserten Verlustfunktionen zielen speziell auf die Erkennung kleiner Objekte ab und beheben damit eine häufige Schwäche früherer Detektoren.

Erfahren Sie mehr über YOLO26

Vielseitigkeit über verschiedene Aufgaben hinweg

Im Gegensatz zu YOLOX, das sich in erster Linie auf die Erkennung konzentriert, unterstützt Ultralytics eine ganze Reihe von Aufgaben, darunter Posenschätzung, Instanzsegmentierung und orientierte Objekterkennung (OBB).

Anwendungen in der realen Welt

Die Wahl zwischen diesen Modellen hängt oft vom Einsatzszenario ab.

  • Industrielle Inspektion (YOLOv5): Für Fertigungslinien, die einen hohen Durchsatz erfordern, bieten das gekoppelte Kopfdesign und TensorRT -Optimierung der Ultralytics sorgen für minimale Latenzzeiten.
  • Luftüberwachung (YOLO26): Mit den neuen Funktionen ProgLoss + STAL eignet sich YOLO26 hervorragend für die Erkennung kleiner Objekte wie Fahrzeuge oder Vieh in Drohnenbildern – eine Aufgabe, mit der ältere ankerbasierte Modelle manchmal Schwierigkeiten hatten.
  • Akademische Forschung (YOLOX): Forscher, die sich mit Strategien zur Labelzuweisung befassen, verwenden YOLOX aufgrund seiner klaren Implementierung von SimOTA häufig als Basis.

Code-Beispiel

Der Übergang zwischen den Modellen im Ultralytics erfolgt nahtlos. Der folgende Code zeigt, wie man Inferenz lädt und ausführt, und demonstriert die einheitliche API, die für YOLOv5, YOLO11 und das empfohlene YOLO26 funktioniert.

from ultralytics import YOLO

# Load a model (YOLOv5 or the recommended YOLO26)
# The API unifies usage, making it easy to swap models for comparison
model = YOLO("yolo26n.pt")  # Loading the latest Nano model

# Run inference on a local image
results = model("path/to/image.jpg")

# Process the results
for result in results:
    result.show()  # Display prediction
    result.save(filename="result.jpg")  # Save to disk

Fazit

Sowohl YOLOv5 YOLOX haben sich ihren Platz in der Geschichte der Bildverarbeitung verdient. YOLOv5 neue Maßstäbe in Sachen Benutzerfreundlichkeit und Einsatzmöglichkeiten, während YOLOX die Grenzen der ankerfreien Erkennung erweitert hat.

Für moderne Anwendungen, die höchste Effizienz erfordern, ist Ultralytics jedoch die bessere Wahl. Durch die Integration eines NMS Designs, des revolutionären MuSGD-Optimierers und einer für den Einsatz am Netzrand optimierten Architektur bietet es eine robuste, zukunftssichere Lösung, die durch das umfangreiche Ultralytics unterstützt wird.


Kommentare