Link to this sectionYOLOX vs. YOLOv5#

Die Auswahl des richtigen Objekterkennungsmodells ist eine kritische Entscheidung, die über den Erfolg jedes Computer-Vision-Projekts bestimmt. Dieser Leitfaden bietet einen umfassenden technischen Vergleich zwischen zwei zentralen Modellen in der KI-Landschaft: YOLOX von Megvii und Ultralytics YOLOv5. Durch die Analyse ihrer Architekturen, Leistungskennzahlen und Trainings-Ökosysteme möchten wir Entwicklern und Forschern dabei helfen, eine fundierte Entscheidung für ihre spezifischen Bereitstellungsumgebungen zu treffen.

Link to this sectionEinführung in die Modelle#

Beide Modelle entstanden in einer Zeit schneller Fortschritte bei der Objekterkennung in Echtzeit, verfolgten jedoch unterschiedliche architektonische Ansätze, um ihre Leistung zu erzielen.

Link to this sectionYOLOX: Ein anchor-freier Ansatz#

YOLOX wurde am 18. Juli 2021 von den Forschern Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun bei Megvii veröffentlicht und leitete durch den Verzicht auf traditionelle Anchor-Boxen einen bedeutenden Wandel ein. Dokumentiert in ihrem Arxiv-Technikbericht, integrierte YOLOX ein anchor-freies Design mit einem entkoppelten Head (decoupled head) und der SimOTA-Label-Zuweisungsstrategie. Dieses Design zielte darauf ab, die Lücke zwischen akademischer Forschung und industrieller Anwendung zu schließen und bietet eine starke Leistung auf Standard-Datensätzen.

Erfahre mehr über YOLOX

Link to this sectionYOLOv5: Der Standard für produktive Vision AI#

YOLOv5 wurde von Glenn Jocher verfasst und am 26. Juni 2020 von Ultralytics veröffentlicht. Es wurde schnell zum Industriestandard für angewandte Computer Vision. Es basiert nativ auf dem PyTorch-Framework und demokratisierte modernste KI durch unübertroffene Benutzerfreundlichkeit, außergewöhnlich schnelles Training und ein hochgradig ausgefeiltes Repository. Die Architektur von YOLOv5 konzentrierte sich auf ein perfektes Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und einfacher Bereitstellung, was es zum Favoriten für alles macht – von Edge-Geräten bis hin zu massiven Cloud-Bereitstellungen.

Erfahre mehr über YOLOv5

Link to this sectionArchitektonische Unterschiede#

Das Verständnis der grundlegenden mechanischen Unterschiede zwischen diesen Netzwerken verdeutlicht, warum sie bei verschiedenen Aufgaben unterschiedlich abschneiden.

Link to this sectionAnchor-frei vs. Anchor-basiert#

Der entscheidende Unterschied ist der anchor-freie Mechanismus von YOLOX. Traditionelle Modelle wie YOLOv5 verlassen sich auf vordefinierte Anchor-Boxen zur Vorhersage von BBoxen, was eine Cluster-Analyse des Trainingsdatensatzes zur Bestimmung optimaler Anchor-Größen erfordert. YOLOX eliminiert dies und sagt die Koordinaten der BBox direkt an jedem räumlichen Ort voraus. Während der anchor-freie Ansatz die Anzahl der Entwurfsparameter und heuristischen Anpassungen reduziert, sorgt der verfeinerte, anchor-basierte Ansatz von YOLOv5, unterstützt durch seine Auto-Anchor-Funktionalität, für eine unglaublich stabile und vorhersehbare Trainingskonvergenz direkt nach der Installation.

Link to this sectionEntkoppelter Head (Decoupled Head) vs. Gekoppelter Head (Coupled Head)#

YOLOX verwendet einen entkoppelten Head, was bedeutet, dass Klassifizierungs- und Regressionsaufgaben in separate Zweige des neuronalen Netzwerks aufgeteilt sind. Die Autoren argumentierten, dass dies Konflikte zwischen der räumlichen und semantischen Merkmalslernen auflöst. Im Gegensatz dazu nutzte YOLOv5 (in früheren Versionen) einen hochoptimierten gekoppelten Head, der die Recheneffizienz maximierte und die Inferenzlatenz reduzierte, was für Edge-Computing in Echtzeit entscheidend ist.

Architektonische Evolution

Während YOLOX 2021 den entkoppelten Head propagierte, übernahm und perfektionierte Ultralytics später entkoppelte Architekturen in nachfolgenden Modellen wie YOLOv8 und dem hochmodernen YOLO26, um das Beste aus beiden Welten zu vereinen.

Link to this sectionLabel-Zuweisungsstrategie#

YOLOX nutzt SimOTA für die Label-Zuweisung, wodurch die Zuordnung von Ground-Truth-Objekten zu Vorhersagen als Optimal-Transport-Problem formuliert wird. Diese dynamische Zuweisung verbessert den Umgang mit überfüllten Szenen. YOLOv5 verwendet eine robuste, auf Formregeln basierende Zuweisung, die sicherstellt, dass die Verlustfunktion konsistent mit qualitativ hochwertigen positiven Beispielen gespeist wird, was zu seiner legendären Trainingsstabilität beiträgt.

Link to this sectionLeistung und Benchmarks#

Das Abwägen zwischen Geschwindigkeit und Genauigkeit ist der ultimative Test für diese Architekturen. Die untenstehende Tabelle verdeutlicht die Leistung verschiedener Modellgrößen anhand von Standard-Benchmarks.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOXnano	416	25,8	-	-	0,91	1,08
YOLOXtiny	416	32,8	-	-	5,06	6,45
YOLOXs	640	40.5	-	2,56	9,0	26,8
YOLOXm	640	46,9	-	5,43	25.3	73,8
YOLOXl	640	49.7	-	9,04	54,2	155,6
YOLOXx	640	51.1	-	16,1	99,1	281,9

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49,0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Während YOLOX wettbewerbsfähige mAP-Werte erzielt, insbesondere bei größeren Varianten, behält YOLOv5 durchgehend einen bemerkenswerten Vorteil bei der TensorRT-Inferenzgeschwindigkeit. Das YOLOv5s-Modell bietet beispielsweise außergewöhnliche Verhältnisse von Geschwindigkeit zu Genauigkeit, was es für Echtzeitanwendungen, bei denen jede Millisekunde zählt, äußerst attraktiv macht.

Link to this sectionDer Ultralytics-Vorteil: Training und Benutzerfreundlichkeit#

Beim Übergang von der Forschung zur Produktion ist das Ökosystem um ein Modell oft genauso wichtig wie das Modell selbst. Hier werden die Vorteile des Ultralytics-Ökosystems deutlich sichtbar.

Link to this sectionOptimierte Benutzererfahrung#

YOLOv5 wird für seine "Zero-to-Hero"-Entwicklererfahrung allgemein gelobt. Die Ultralytics Python API und CLI ermöglichen es dir, Modelle mit nur wenigen Codezeilen zu laden, zu trainieren und bereitzustellen. Im Gegensatz dazu erfordert der Betrieb von YOLOX aus dem Megvii GitHub-Repository eine manuelle Konfiguration von Umgebungsvariablen, komplexe Python-Pfad-Setups und eine steilere Lernkurve, wie sie für akademische Forschungscodeles typisch ist.

Link to this sectionTrainingseffizienz und Speicheranforderungen#

Ultralytics-Modelle sind akribisch darauf ausgelegt, den Speicherverbrauch während des Trainings zu minimieren. YOLOv5 benötigt deutlich weniger CUDA-Speicher im Vergleich zu stark parametrisierten Transformer-Modellen wie RT-DETR oder nicht optimierten Forschungsmodellen. Dies ermöglicht es Entwicklern, größere Batch-Größen auf Consumer-Hardware zu trainieren, was den iterativen Entwicklungszyklus beschleunigt.

Link to this sectionVielseitigkeit bei Aufgaben#

Während YOLOX ein reines Objekterkennungs-Framework ist, hat das Ultralytics-Ökosystem YOLOv5 so weiterentwickelt, dass es mehrere Vision-Aufgaben unterstützt. Du kannst sofort Bildklassifizierung, Instanzsegmentierung und Objekterkennung mit derselben API-Syntax durchführen.

Kontinuierliche Innovation

Wenn du noch fortgeschrittenere Aufgaben wie Pose Estimation oder Oriented Bounding Box (OBB) benötigst, empfehlen wir dringend ein Upgrade auf die neueste Ultralytics YOLO26-Architektur, die all dies nativ mit modernster Genauigkeit unterstützt.

Link to this sectionCode-Vergleich#

Der Unterschied in der Benutzerfreundlichkeit lässt sich am besten anhand von Code demonstrieren.

Training mit YOLOv5:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

Training mit YOLOX: (Erfordert manuelles Klonen des Repositorys, setup.py-Installation und komplexe CLI-Argumente)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

Der Ultralytics-Ansatz beseitigt Reibungsverluste und ermöglicht es dir, dich auf deinen Datensatz und deine Anwendungslogik zu konzentrieren, anstatt Konfigurationsdateien zu debuggen. Darüber hinaus ist das Verfolgen deiner Experimente mit integrierten Anbindungen für Weights & Biases und Comet ML nahtlos möglich.

Link to this sectionIdeale Anwendungsfälle und reale Anwendungen#

Die Wahl zwischen diesen Modellen hängt von der Betriebsumgebung deines Projekts ab.

Link to this sectionWo YOLOX glänzt#

YOLOX bleibt ein starker Kandidat im akademischen Umfeld, in dem Forscher gezielt anchor-freie Paradigmen oder Label-Zuweisungsstrategien untersuchen. Es ist auch nützlich in Szenarien, in denen die Erkennung in überfüllten Szenen die absolut primäre Metrik ist und die Geschwindigkeit der Edge-Bereitstellung zweitrangig bleibt.

Link to this sectionWo YOLOv5 glänzt#

YOLOv5 ist der unangefochtene Champion für den praktischen Einsatz.

Hochgeschwindigkeitsfertigung: Bei der Fehlererkennung am Fließband stellt die minimale Inferenzlatenz von YOLOv5 auf Edge-GPUs sicher, dass Produkte inspiziert werden, ohne das Band zu verlangsamen.
Drohnen- und Luftbildaufnahmen: Sein effizienter Speicherbedarf ermöglicht den Betrieb auf leichten Begleitcomputern in Drohnen für Aufgaben wie Agrarüberwachung und Wildtierverfolgung.
Smart Retail: Von automatisierter Kasse bis hin zur Bestandsverwaltung lässt sich YOLOv5 einfach nach TensorRT und ONNX für die massenhafte Bereitstellung auf Tausenden von Ladenkameras exportieren.

Link to this sectionEin Blick in die Zukunft: Der YOLO26-Vorteil#

Obwohl YOLOv5 ein legendäres Modell ist, schreitet das Feld der KI schnell voran. Wenn du heute ein neues Projekt startest, raten wir dringend dazu, sich die neueste Generation der Ultralytics-Modelle anzusehen.

Das 2026 veröffentlichte Ultralytics YOLO26 stellt einen massiven Fortschritt dar. Es bietet ein End-to-End NMS-freies Design, wodurch die Notwendigkeit einer Non-Maximum Suppression-Nachbearbeitung vollständig entfällt, was die Bereitstellungslogik drastisch vereinfacht. Durch den Verzicht auf Distribution Focal Loss (DFL) und die Verwendung des hochmodernen MuSGD-Optimierers erreicht YOLO26 eine bis zu 43 % schnellere CPU-Inferenz als frühere Generationen, während gleichzeitig eine höhere Genauigkeit beibehalten wird – insbesondere bei kleinen Objekten dank der neuen ProgLoss + STAL-Verlustfunktionen.

Egal, ob du dich für die kampferprobte Zuverlässigkeit von YOLOv5 oder die hochmoderne Leistung von YOLO26 entscheidest, die Ultralytics-Plattform stellt sicher, dass du über die besten verfügbaren Tools verfügst, um deine Computer-Vision-Lösungen nahtlos vom Konzept bis zur Produktion zu bringen. Erkunde unbedingt die umfassende Ultralytics-Dokumentation, um das volle Potenzial deiner KI-Pipeline auszuschöpfen.

Mitwirkende

GLglenn-jocher¹³

Erstellt 27. Jan. 2025Aktualisiert vor 3 Wochen