YOLOv5 vs YOLOX: Architektonische Verschiebungen und Leistungsmetriken

Die Landschaft der Objekterkennung hat sich rasant entwickelt, wobei verschiedene Architekturen um die optimale Balance zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit wetteifern. Zwei bedeutende Meilensteine auf diesem Weg sind YOLOv5, entwickelt von Ultralytics, und YOLOX, ein forschungsorientiertes Modell von Megvii. Obwohl beide Modelle aus der „You Only Look Once“-Linie stammen, unterscheiden sie sich erheblich in ihren Architekturphilosophien – insbesondere hinsichtlich ankerbasierter versus ankerfreier Erkennungsmechanismen.

Dieser Vergleich untersucht die technischen Spezifikationen, architektonischen Unterschiede und Leistungsmetriken beider Modelle, um Entwicklern und Forschern bei der Auswahl des richtigen Tools für ihre Computer Vision-Projekte zu helfen.

Ultralytics YOLOv5: Der Engineering-Standard

Im Jahr 2020 veröffentlicht, wurde YOLOv5 schnell zum Industriestandard für die praktische Objekterkennung. Im Gegensatz zu seinen Vorgängern, die hauptsächlich akademische Forschungsprojekte waren, wurde YOLOv5 mit Fokus auf Benutzerfreundlichkeit, einfache Bereitstellung und reale Leistung entwickelt. Es führte einen optimierten PyTorch-basierten Workflow ein, der das Training und die Bereitstellung benutzerdefinierter Modelle einem breiteren Publikum zugänglich machte.

Autoren: Glenn Jocher
Organisation:Ultralytics
Datum: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Dokumentation:https://docs.ultralytics.com/models/yolov5/

YOLOv5 verwendet eine ankerbasierte Architektur, die vordefinierte Ankerboxen nutzt, um Objektpositionen vorherzusagen. Es integriert eine „AutoAnchor“-Funktion, die Ankerformen an benutzerdefinierte Datensätze vor dem Training anpasst und so eine optimale Konvergenz gewährleistet. Das Modell verfügt über einen CSPNet-Backbone und einen PANet-Neck, optimiert für schnelle Merkmalsextraktion und -aggregation. Seine Hauptstärke liegt in seiner außergewöhnlichen Inferenzgeschwindigkeit und geringen Speicherplatzbedarf, wodurch es ideal für Edge Computing und mobile Anwendungen ist.

Erfahren Sie mehr über YOLOv5

YOLOX: Der ankerfreie Anwärter

YOLOX, 2021 von Megvii veröffentlicht, versuchte, die Grenzen der YOLO-Familie durch die Einführung eines ankerfreien Designs zu erweitern. Dieser Ansatz eliminiert die Notwendigkeit vordefinierter Ankerboxen und prognostiziert stattdessen Objektzentren und -größen direkt. Diese Umstellung zielte darauf ab, den Designprozess zu vereinfachen und die Generalisierung über verschiedene Objektformen hinweg zu verbessern.

Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation:Megvii
Datum: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:https://github.com/Megvii-BaseDetection/YOLOX
Dokumentation:https://yolox.readthedocs.io/en/latest/

YOLOX führt eine entkoppelte Kopf-Architektur ein, die die Klassifikations- und Regressionsaufgaben in verschiedene Zweige trennt. Dies ermöglicht es dem Modell theoretisch, unterschiedliche Merkmalsrepräsentationen zu lernen, um zu identifizieren, was ein Objekt ist, im Gegensatz dazu, wo es sich befindet. Zusätzlich verwendet es eine fortschrittliche Strategie zur Label-Zuweisung, bekannt als SimOTA (Simplified Optimal Transport Assignment), um positive Samples während des Trainings dynamisch zuzuweisen. Obwohl diese Innovationen zu hoher Genauigkeit beitragen, gehen sie oft mit einer erhöhten Rechenkomplexität einher.

Erfahren Sie mehr über YOLOX

Auf der Suche nach der neuesten Technologie?

Während YOLOv5 und YOLOX bedeutende Schritte in der Geschichte der Computer Vision darstellen, entwickelt sich das Feld schnell weiter. YOLO11, das neueste Modell von Ultralytics, bietet im Vergleich zu beiden eine überlegene Genauigkeit und Geschwindigkeit, mit einer verfeinerten Architektur, die detection, segmentation, Pose-Schätzung und mehr unterstützt.

Performance-Analyse: Geschwindigkeit vs. Genauigkeit

Beim Vergleich von YOLOv5 und YOLOX dreht sich der Kompromiss üblicherweise um Inferenzlatenz versus absolute Präzision. YOLOv5 ist akribisch auf Geschwindigkeit optimiert, insbesondere auf Hardware-Beschleunigern, die TensorRT und ONNX Runtime verwenden. Wie aus den Daten unten hervorgeht, zeigen YOLOv5-Modelle eine deutlich geringere Latenz (höhere Geschwindigkeit) über äquivalente Modellgrößen hinweg.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Wichtige Erkenntnisse

Inferenzgeschwindigkeit: YOLOv5 hat einen entscheidenden Geschwindigkeitsvorteil. Zum Beispiel erreicht YOLOv5n eine TensorRT-Latenz von nur 1.12 ms, was es außergewöhnlich gut für die Hoch-FPS-Videoverarbeitung auf Edge-Geräten wie dem NVIDIA Jetson geeignet macht. Im Gegensatz dazu fehlen den kleinsten YOLOX-Modellen vergleichbare Benchmark-Daten für die CPU, und ihre GPU-Latenz ist bei ähnlichen Genauigkeitsstufen im Allgemeinen höher.
Genauigkeit (mAP): YOLOX erzielt tendenziell etwas höhere mAP-Werte auf dem COCO-Datensatz, insbesondere bei den größeren Varianten (YOLOX-x bei 51,1 vs. YOLOv5x bei 50,7). Dies wird auf das ankerfreie Design und den entkoppelten Head zurückgeführt, die Objektvariationen besser verarbeiten können. Dieser marginale Gewinn geht jedoch oft mit einem deutlich höheren Rechenaufwand (FLOPs) einher.
Effizienz: YOLOv5-Modelle benötigen im Allgemeinen weniger FLOPs für eine gegebene Inferenzgeschwindigkeit. Das gekoppelte Head-Design von YOLOv5 ist hardwarefreundlicher und ermöglicht eine schnellere Ausführung sowohl auf CPUs als auch auf GPUs.

Architektonischer Deep Dive

Der grundlegende Unterschied liegt darin, wie jedes Modell das Detektionsproblem angeht.

YOLOv5 (Ankerbasiert): YOLOv5 verwendet einen vordefinierten Satz von Ankerboxen. Während des Trainings lernt das Modell, diese Boxen an die Objekte anzupassen. Diese Methode basiert auf der Korrelation zwischen der Größe des Objekts und der Größe der Gitterzelle.

Vorteile: Stabiles Training, etablierte Methodik, hervorragende Leistung auf Standarddatensätzen.
Nachteile: Erfordert Hyperparameter-Tuning für Anker auf exotischen Datensätzen (obwohl YOLOv5s AutoAnchor dies mildert).

YOLOX (Anchor-Free): YOLOX behandelt die Objekterkennung als ein Punktregressionsproblem. Es prognostiziert den Abstand vom Zentrum der Gitterzelle zu den Objektgrenzen.

Vorteile: Reduziert die Anzahl der Designparameter (keine Anker zum Abstimmen), Potenzial für bessere Generalisierung bei unregelmäßigen Seitenverhältnissen.
Nachteile: Kann während des Trainings langsamer konvergieren, und der entkoppelte Head fügt Schichten hinzu, die die Inferenzlatenz erhöhen.

Benutzererfahrung und Ökosystem

Eines der prägendsten Merkmale von Ultralytics YOLOv5 ist sein robustes Ökosystem. Während YOLOX eine starke akademische Basis bietet, bietet YOLOv5 ein produktionsreifes Framework, das für Entwickler konzipiert ist.

Benutzerfreundlichkeit

YOLOv5 ist bekannt für seine durchgängige Einfachheit. Von der Datenannotation über das Modelltraining bis zur Bereitstellung optimiert das Ultralytics-Ökosystem jeden Schritt. Das Modell kann mit wenigen Codezeilen geladen werden und unterstützt den automatischen Export in Formate wie TFLite, CoreML und ONNX.

import torch

# Load a pretrained YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Vielseitigkeit und Wartung

Bei Ultralytics Modellen geht es nicht nur um detect. Das Framework unterstützt Bildklassifizierung und Instanzsegmentierung und bietet eine vereinheitlichte API für mehrere Aufgaben. Diese Vielseitigkeit fehlt oft in forschungsspezifischen Repositories wie YOLOX, die sich primär auf detect konzentrieren. Darüber hinaus gewährleistet die aktive Wartung durch Ultralytics die Kompatibilität mit den neuesten Versionen von PyTorch und CUDA, wodurch „Code-Rot“ im Laufe der Zeit reduziert wird.

Ideale Anwendungsfälle

Wählen Sie Ultralytics YOLOv5, wenn:
- Sie benötigen Echtzeit-Performance auf Edge-Geräten (Raspberry Pi, Mobiltelefone).
- Sie priorisieren die einfache Bereitstellung und benötigen integrierte Unterstützung für den Export nach TensorRT, CoreML oder TFLite.
- Sie bevorzugen ein stabiles, gut dokumentiertes Framework mit aktiver Community-Unterstützung.
- Ihre Anwendung umfasst Sicherheitsüberwachung oder autonome Navigation, bei denen geringe Latenzzeiten entscheidend sind.
Wählen Sie YOLOX, wenn:
- Sie führen akademische Forschung speziell zu ankerfreien Architekturen durch.
- Sie benötigen das absolut maximale mAP für einen Wettbewerb oder Benchmark, unabhängig von der Inferenzgeschwindigkeit.
- Sie verfügen über einen spezialisierten Datensatz, bei dem ankerbasierte Methoden nachweislich versagt haben (z.B. extreme Seitenverhältnisse), und AutoAnchor das Problem nicht lösen konnte.

Fazit

Sowohl YOLOv5 als auch YOLOX haben ihren Platz in der Geschichte der Computer Vision verdient. YOLOX demonstrierte die Machbarkeit ankerfreier Detektoren in der YOLO-Familie und bot eine starke Basis für die akademische Forschung. Für die überwiegende Mehrheit der praktischen Anwendungen bleibt Ultralytics YOLOv5 jedoch die überlegene Wahl aufgrund seiner unübertroffenen Geschwindigkeit, Effizienz und seines entwicklerfreundlichen Ökosystems.

Für diejenigen, die heute neue Projekte starten, empfehlen wir dringend, YOLO11 zu erkunden. Es baut auf den Stärken von YOLOv5 – Benutzerfreundlichkeit und Geschwindigkeit – auf und integriert gleichzeitig moderne architektonische Fortschritte, die sowohl YOLOv5 als auch YOLOX in Genauigkeit und Vielseitigkeit übertreffen.

Andere Modellvergleiche

Erfahren Sie, wie Ultralytics-Modelle im Vergleich zu anderen Architekturen in diesem Bereich abschneiden: