Zum Inhalt springen

YOLOX vs. YOLOv5: Ausführlicher Vergleich von Architektur und Leistung

Die Auswahl des richtigen Objekterkennungsmodells ist eine wichtige Entscheidung, die über den Erfolg jedes Computer-Vision-Projekts entscheidet. Dieser Leitfaden bietet einen umfassenden technischen Vergleich zwischen zwei zentralen Modellen in der KI-Landschaft: YOLOX von Megvii und Ultralytics YOLOv5. Durch die Analyse ihrer Architekturen, Leistungskennzahlen und Trainingsökosysteme möchten wir Entwicklern und Forschern helfen, eine fundierte Entscheidung für ihre spezifischen Einsatzumgebungen zu treffen.

Einführung in die Modelle

Beide Modelle entstanden in einer Zeit rascher Fortschritte in der Echtzeit-Objekterkennung, verfolgten jedoch unterschiedliche architektonische Ansätze, um ihre Leistungsfähigkeit zu erreichen.

YOLOX: Ein ankerfreier Ansatz

YOLOX wurde am 18. Juli 2021 von den Forschern Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun bei Megvii veröffentlicht und führte eine bedeutende Veränderung ein, indem es sich von traditionellen Ankerboxen entfernte. Wie in ihrem technischen Bericht auf Arxiv dokumentiert, integrierte YOLOX ein ankerfreies Design mit einem entkoppelten Kopf und der SimOTA-Label-Zuweisungsstrategie. Dieses Design zielte darauf ab, die Lücke zwischen akademischer Forschung und industrieller Anwendung zu schließen und bietet eine starke Leistung bei Standard-Datensätzen.

Erfahren Sie mehr über YOLOX

YOLOv5: Der Standard für produktionsreife Vision-KI

YOLOv5 wurde von Glenn Jocher entwickelt und Ultralytics 26. Juni 2020 von Ultralytics veröffentlicht. YOLOv5 wurde YOLOv5 zum Industriestandard für den Einsatz von Computer Vision. Es basiert nativ auf dem PyTorch und hat modernste KI demokratisiert, indem es eine beispiellose Benutzerfreundlichkeit, außergewöhnlich schnelles Training und ein hochentwickeltes Repository bietet. Die Architektur YOLOv5 konzentrierte sich auf ein perfektes Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und einfacher Bereitstellung, was es zu einem Favoriten für alles machte, von Edge-Geräten bis hin zu massiven Cloud-Bereitstellungen.

Erfahren Sie mehr über YOLOv5

Architektonische Unterschiede

Das Verständnis der grundlegenden mechanischen Unterschiede zwischen diesen Netzwerken verdeutlicht, warum sie bei verschiedenen Aufgaben unterschiedliche Leistungen erbringen.

Ankerfrei vs. Ankerbasiert

Der entscheidende Unterschied ist der ankerfreie Mechanismus von YOLOX. Herkömmliche Modelle wie YOLOv5 auf vordefinierte Ankerboxen, um Begrenzungsrahmen vorherzusagen, was eine Clusteranalyse des Trainingsdatensatzes erfordert, um die optimalen Ankergrößen zu bestimmen. YOLOX macht dies überflüssig, indem es die Koordinaten der Begrenzungsrahmen direkt an jedem räumlichen Ort vorhersagt. Während der ankerfreie Ansatz die Anzahl der Designparameter und die heuristische Abstimmung reduziert, gewährleistet der verfeinerte ankerbasierte Ansatz YOLOv5, unterstützt durch seine Auto-Anker-Funktionalität, eine unglaublich stabile und vorhersehbare Trainingskonvergenz direkt nach der Installation.

Entkoppelter Kopf vs. gekoppelter Kopf

YOLOX verwendet einen entkoppelten Kopf, was bedeutet, dass die Klassifizierungs- und Regressionsaufgaben in separate Zweige des neuronalen Netzwerks aufgeteilt sind. Die Autoren argumentierten, dass dies Konflikte zwischen räumlichem und semantischem Merkmalslernen löst. Umgekehrt YOLOv5 einen hochoptimierten gekoppelten Kopf (in seinen früheren Versionen), der die Recheneffizienz maximierte und die Inferenzlatenz reduzierte, was für das Echtzeit-Edge-Computing von entscheidender Bedeutung ist.

Architektonische Evolution

Während YOLOX 2021 den entkoppelten Kopf propagierte, übernahm Ultralytics entkoppelte Architekturen und perfektionierte sie in nachfolgenden Modellen wie YOLOv8 und dem hochmodernen YOLO26, wobei das Beste aus beiden Welten kombiniert wurde.

Strategie zur Zuweisung von Etiketten

YOLOX nutzt SimOTA für die Zuweisung von Labels, wodurch die Zuordnung von Ground-Truth-Objekten zu Vorhersagen als optimales Transportproblem formuliert wird. Diese dynamische Zuweisung verbessert die Verarbeitung von überfüllten Szenen. YOLOv5 eine robuste, auf Formregeln basierende Zuweisung, die sicherstellt, dass der Verlustfunktion konsistent hochwertige positive Samples zugeführt werden, was zu seiner legendären Trainingsstabilität beiträgt.

Performance und Benchmarks

Der Kompromiss zwischen Geschwindigkeit und Genauigkeit ist der ultimative Test für diese Architekturen. Die folgende Tabelle veranschaulicht die Leistung verschiedener Modellgrößen bei Standard-Benchmarks.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Während YOLOX insbesondere in seinen größeren Varianten wettbewerbsfähige mAP erzielt, YOLOv5 durchweg einen bemerkenswerten Vorteil bei TensorRT . Das YOLOv5s-Modell bietet beispielsweise ein außergewöhnliches Verhältnis von Geschwindigkeit zu Genauigkeit, was es für Echtzeitanwendungen, bei denen jede Millisekunde zählt, äußerst attraktiv macht.

Ultralytics von Ultralytics : Schulung und Benutzerfreundlichkeit

Beim Übergang von der Forschung zur Produktion ist das Ökosystem rund um ein Modell oft genauso wichtig wie das Modell selbst. Hier werden die Vorteile des Ultralytics besonders deutlich.

Optimierte Benutzererfahrung

YOLOv5 allgemein für seine „Zero-to-Hero”-Entwicklererfahrung gelobt. CLI der Ultralytics Python und CLI Sie Modelle mit nur wenigen Zeilen Code laden, trainieren und bereitstellen. Im Gegensatz dazu erfordert die Ausführung von YOLOX aus dem Megvii GitHub-Repository mehr manuelle Konfiguration von Umgebungsvariablen, komplexe Python und eine steilere Lernkurve, wie sie für akademische Forschungscodebasen typisch ist.

Trainingseffizienz und Speicheranforderungen

Ultralytics sind sorgfältig entwickelt worden, um den Speicherverbrauch während des Trainings zu minimieren. YOLOv5 deutlich weniger CUDA als stark parametrisierte Transformer-Modelle wie RT-DETR oder nicht optimierten Forschungsmodellen. Dadurch können Entwickler größere Batch-Größen auf handelsüblicher Hardware trainieren, was den iterativen Entwicklungszyklus beschleunigt.

Vielseitigkeit über verschiedene Aufgaben hinweg

Während YOLOX ausschließlich ein Framework zur Objekterkennung ist, hat das Ultralytics YOLOv5 weiterentwickelt, YOLOv5 mehrere Bildverarbeitungsaufgaben YOLOv5 unterstützen. Sie können sofort mit der Bildklassifizierung, Instanzsegmentierung und Objekterkennung beginnen, wobei Sie genau dieselbe API-Syntax verwenden können.

Kontinuierliche Innovation

Wenn Sie noch komplexere Aufgaben wie Posenschätzung oder OBB-Erkennung (Oriented Bounding Box) benötigen, empfehlen wir Ihnen dringend ein Upgrade auf die neueste Ultralytics , die all diese Funktionen nativ mit modernster Genauigkeit unterstützt.

Code-Vergleich

Der Unterschied in der Benutzerfreundlichkeit lässt sich am besten anhand des Codes veranschaulichen.

Training mit YOLOv5:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

Training mit YOLOX:(Erfordert manuelles Klonen des Repositorys, Installation von setup.py und komplexe CLI )

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

Ultralytics beseitigt Reibungsverluste, sodass Sie sich auf Ihren Datensatz und Ihre Anwendungslogik konzentrieren können, anstatt Konfigurationsdateien zu debuggen. Darüber hinaus ist die Nachverfolgung Ihrer Experimente dank integrierter Integrationen für Weights & Biases und Comet .

Ideale Anwendungsfälle und reale Anwendungen

Die Wahl zwischen diesen Modellen hängt von der Betriebsumgebung Ihres Projekts ab.

Wo YOLOX sich auszeichnet

YOLOX bleibt ein starker Kandidat im akademischen Umfeld, wo Forscher explizit ankerfreie Paradigmen oder Strategien zur Zuordnung von Labels untersuchen. Es ist auch in Szenarien nützlich, in denen die Erkennung überfüllter Szenen die absolut wichtigste Kennzahl ist und die Geschwindigkeit der Randbereitstellung zweitrangig ist.

Wo YOLOv5 seine Stärken ausspielt

YOLOv5 der unangefochtene Champion im Bereich der praktischen Anwendung.

  • Hochgeschwindigkeitsfertigung: Bei der Fehlererkennung am Fließband sorgt die minimale Inferenzlatenz YOLOv5 auf Edge-GPUs dafür, dass Produkte geprüft werden, ohne das Band zu verlangsamen.
  • Drohnen- und Luftbildaufnahmen: Dank seines effizienten Speicherbedarfs kann es auf leichten Begleitcomputern auf Drohnen für Aufgaben wie die Überwachung der Landwirtschaft und die Verfolgung von Wildtieren eingesetzt werden.
  • Smart Retail: Von der automatisierten Kasse bis zur Bestandsverwaltung lässt sich YOLOv5 exportieren nach TensorRT und ONNX für den massenhaften Einsatz in Tausenden von Ladenkameras exportieren.

Ausblick: Der Vorteil von YOLO26

YOLOv5 zwar ein legendäres Modell, doch der Bereich der KI entwickelt sich rasant weiter. Wenn Sie heute ein neues Projekt starten, empfehlen wir Ihnen dringend, sich die neueste Generation der Ultralytics anzusehen.

Veröffentlicht im Jahr 2026, stelltUltralytics einen enormen Fortschritt dar. Es verfügt über ein NMS Design, wodurch die Nachbearbeitung mit Non-Maximum Suppression vollständig entfällt, was die Bereitstellungslogik drastisch vereinfacht. Durch die Beseitigung des Distribution Focal Loss (DFL) und den Einsatz des hochmodernen MuSGD-Optimierers erreicht YOLO26 CPU um bis zu 43 % schnellere CPU als frühere Generationen und bietet gleichzeitig eine höhere Genauigkeit, insbesondere bei kleinen Objekten, dank der neuen ProgLoss + STAL-Verlustfunktionen.

Ganz gleich, ob Sie sich für die bewährte Zuverlässigkeit von YOLOv5 die hochmoderne Leistung von YOLO26 entscheiden – die Ultralytics stellt sicher, dass Sie über die besten verfügbaren Tools verfügen, um Ihre Computer-Vision-Lösungen nahtlos vom Konzept zur Produktion zu bringen. Lesen Sie unbedingt die umfassende Ultralytics , um das volle Potenzial Ihrer KI-Pipeline auszuschöpfen.


Kommentare