YOLOv5 YOLOX: Ein umfassender technischer Vergleich

Die Entwicklung der Echtzeit-Computervision hat zahlreiche Meilensteine erreicht, wobei verschiedene Architekturen die Grenzen von Geschwindigkeit und Genauigkeit immer weiter verschieben. Zwei äußerst einflussreiche Modelle in diesem Bereich sind YOLOv5 und YOLOX. Beide sind für ihre hohe Leistungsfähigkeit bei der Objekterkennung bekannt, verfolgen jedoch grundlegend unterschiedliche architektonische Ansätze.

Dieser Leitfaden enthält eine detaillierte technische Analyse dieser beiden Modelle und vergleicht deren Architekturen, Leistungskennzahlen, Trainingsmethoden und ideale Einsatzszenarien, um Entwicklern und Forschern bei der Auswahl des richtigen Tools für ihre Vision-KI-Projekte zu helfen.

Modellübersichten und architektonische Unterschiede

Ultralytics YOLOv5

Autor: Glenn Jocher
Organisation:Ultralytics
Datum: 2020-06-26
GitHub:Ultralytics YOLOv5
Dokumentation:Offizielle YOLOv5 Dokumentation

Eingeführt von Ultralytics, YOLOv5 wurde aufgrund seiner außergewöhnlichen Balance zwischen Leistung, Benutzerfreundlichkeit und Speichereffizienz schnell zum Industriestandard. Es basiert nativ auf PyTorch basierend, YOLOv5 eine ankerbasierte Architektur. Es stützt sich auf vordefinierte Begrenzungsrahmenformen, um Objektpositionen vorherzusagen, was es für Standardaufgaben der Objekterkennung äußerst effektiv macht.

Eine der größten Stärken von YOLOv5 sein gut gepflegtes Ökosystem. Es verfügt über eine umfangreiche Dokumentation, eine unglaublich einfache Python und eine native Integration in die Ultralytics . Dies ermöglicht Entwicklern einen nahtlosen Übergang von der Datensatzkennzeichnung zum Training und Export in Formate wie ONNX und TensorRT.

Erfahren Sie mehr über YOLOv5

Vorteile des Ökosystems

Ultralytics YOLO benötigen während des Trainings in der Regel deutlich weniger GPU als komplexe, auf Transformatoren basierende Alternativen. Durch diesen geringen Speicherbedarf ist YOLOv5 für Forscher, die mit handelsüblicher Hardware arbeiten, YOLOv5 zugänglich.

Megvii YOLOX

Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation:Megvii
Datum: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Megvii YOLOX Repository
Dokumentation:YOLOX ReadTheDocs

Entwickelt von Forschern bei Megvii, ging YOLOX einen anderen Weg, indem es ein ankerfreies Design in die YOLO-Familie einführte. Durch die Eliminierung von Ankerboxen vereinfacht YOLOX den Detektionskopf und reduziert die Anzahl der heuristischen Parameter, die während des Trainings manuell abgestimmt werden müssen, erheblich.

YOLOX verfügt außerdem über einen entkoppelten Kopf, der die Klassifizierungs- und Regressionsaufgaben in verschiedene Netzwerkzweige aufteilt, und nutzt die SimOTA-Label-Zuweisungsstrategie. Diese Innovationen schließen die Lücke zwischen akademischer Forschung und industriellen Anwendungen, wodurch YOLOX besonders effektiv in Umgebungen mit sehr unterschiedlichen Objektgrößen ist.

Erfahren Sie mehr über YOLOX

Leistung und Kennzahlen

Bei der Bewertung von Computervisionsmodellen ist der Kompromiss zwischen der mittleren durchschnittlichen Präzision (mAP) und der Inferenzgeschwindigkeit entscheidend. Beide Modelle bieten eine Reihe von Größen (von Nano bis Extra-Large), um unterschiedlichen Hardwarebeschränkungen gerecht zu werden.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Während YOLOXx eine etwas höhere Spitzenauflösung (51,1 mAP) erreicht, YOLOv5 eine wesentlich robustere und gründlich getestete Bereitstellungspipeline für CPU GPU . Die TensorRT für YOLOv5 die umfassende Optimierung für Edge-Computing-Geräte und machen es zu einer äußerst zuverlässigen Wahl für die Echtzeit-Videoanalyse.

Trainingsmethoden und Benutzerfreundlichkeit

Die Entwicklererfahrung unterscheidet sich zwischen diesen beiden Architekturen erheblich.

Der YOLOX-Ansatz

Das Training von YOLOX erfordert in der Regel das Klonen des ursprünglichen Repositorys, die Verwaltung spezifischer Abhängigkeiten und die Ausführung komplexer Befehlszeilenskripte. Es unterstützt zwar erweiterte Funktionen wie Mixed-Precision-Training und Multi-Node-Setups über MegEngine, aber für Entwickler, die schnelles Prototyping benötigen, kann die Lernkurve steil sein.

Der Ultralytics Vorteil

Im Gegensatz dazu Ultralytics eine außergewöhnlich optimierte Benutzererfahrung. Mit dem ultralytics Python können Entwickler ein Modell mit minimalem Boilerplate-Code laden, trainieren und validieren. Ultralytics übernimmt Ultralytics komplexe Datenerweiterungen, Hyperparameter-Entwicklung und Lernratenplanung.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

Darüber hinaus geht die Vielseitigkeit YOLOv5 über die Standard-Objekterkennung hinaus und bietet robuste Unterstützung für die Bildklassifizierung und Instanzsegmentierung innerhalb derselben einheitlichen API.

Optimierte Bereitstellung

Wenn Ihr Training abgeschlossen ist, OpenVINO das Exportieren eines YOLOv5 nach CoreML, TFLite oder OpenVINO so einfach wie das Ausführen von model.export(format="onnx"). Dies eliminiert die Notwendigkeit von Konvertierungsskripten Dritter, die häufig von forschungsorientierten Repositories benötigt werden.

Anwendungen in der realen Welt

Die Wahl zwischen diesen Modellen hängt von Ihrer Bereitstellungsumgebung und technischen Anforderungen ab:

Einzelhandels- und Bestandsmanagement: Für Anwendungen, die eine Echtzeit-Produkterkennung auf Edge-Geräten wie dem NVIDIA Jetson erfordern, ist YOLOv5 außergewöhnlich gut geeignet. Sein minimaler Speicherbedarf und schnelle TensorRT-Inferenzgeschwindigkeiten ermöglichen Multi-Kamera-track, ohne Frames zu verlieren.
Akademische Forschung und benutzerdefinierte Architekturen:YOLOX genießt in der Forschungsgemeinschaft hohes Ansehen. Sein entkoppelter Head und seine ankerfreie Natur machen es zu einer exzellenten Baseline für Ingenieure, die mit neuartigen Label-Assignment-Strategien experimentieren möchten, oder für diejenigen, die an Datensätzen arbeiten, bei denen traditionelle Ankerboxen nicht generalisieren.
KI in der Landwirtschaft: Für Präzisionslandwirtschaftsaufgaben wie Fruchterkennung oder Unkrautidentifikation mittels Drohnen ermöglicht die einfache Schulung und Bereitstellung von YOLOv5-Modellen über die Ultralytics Platform Domänenexperten, KI-Lösungen zu implementieren, ohne tiefgreifende Kenntnisse im Bereich des Machine Learning Engineerings zu benötigen.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv5 und YOLOX hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann man YOLOv5 wählen sollte

YOLOv5 eine gute Wahl für:

Bewährte Produktionssysteme: Bestehende Implementierungen, bei denen die langjährige Stabilität, die umfassende Dokumentation und der massive Community-Support von YOLOv5 geschätzt werden.
Ressourcenbeschränktes Training: Umgebungen mit begrenzten GPU-Ressourcen, in denen die effiziente Trainingspipeline und die geringeren Speicheranforderungen von YOLOv5 vorteilhaft sind.
Umfangreiche Unterstützung für Exportformate: Projekte, die eine Bereitstellung in vielen Formaten erfordern, einschließlich ONNX, TensorRT, CoreML und TFLite.

Wann YOLOX wählen?

YOLOX wird empfohlen für:

Forschung zur ankerfreien Detektion: Akademische Forschung, die die saubere, ankerfreie Architektur von YOLOX als Basis verwendet, um mit neuen Detektions-Heads oder Verlustfunktionen zu experimentieren.
Ultraleichte Edge-Geräte: Bereitstellung auf Mikrocontrollern oder älterer mobiler Hardware, wo der extrem geringe Speicherbedarf (0,91 Mio. Parameter) der YOLOX-Nano-Variante entscheidend ist.
SimOTA Label Assignment Studien: Forschungsprojekte, die auf optimalem Transport basierende Label-Assignment-Strategien und deren Auswirkungen auf die Trainingskonvergenz untersuchen.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Die Zukunft der visuellen KI: YOLO26 kommt auf den Markt

Während sowohl YOLOv5 YOLOX ihren Platz in der Geschichte der Computer Vision gefestigt haben, schreitet die Entwicklung in diesem Bereich rasant voran. Entwicklern, die heute neue Projekte starten, empfiehlt Ultralytics , sich mit seinem neuesten Flaggschiff-Modell YOLO26 auseinanderzusetzen.

YOLO26 wurde im Januar 2026 veröffentlicht und stellt einen enormen Fortschritt sowohl in Bezug auf die Leistung als auch auf die Benutzerfreundlichkeit dar. Es führt ein bahnbrechendes End-to-End-Design NMS ein, wodurch die Nachbearbeitung mit Non-Maximum Suppression vollständig entfällt. Dies reduziert die Latenzschwankungen erheblich und vereinfacht die Bereitstellungslogik auf Geräten mit geringem Stromverbrauch.

Darüber hinaus nutzt YOLO26 den neuartigen MuSGD-Optimierer– eine Mischung aus SGD Muon, inspiriert von LLM-Trainingsinnovationen – für eine unglaublich stabile und schnelle Konvergenz. Mit DFL Removal (Distribution Focal Loss entfernt für vereinfachten Export und bessere Kompatibilität mit Edge-/Low-Power-Geräten) erreicht YOLO26 CPU um bis zu 43 % schnellere CPU und festigt damit seine Position als ultimatives Modell für moderne Edge-Computing-, Robotik- und IoT-Anwendungen. Darüber hinaus bietet ProgLoss + STAL verbesserte Verlustfunktionen mit bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für IoT, Robotik und Luftbildaufnahmen von entscheidender Bedeutung ist. Benutzer, die sich für frühere Generationen interessieren, können sich auch über YOLO11, obwohl YOLO26 die unbestrittene Wahl auf dem neuesten Stand der Technik ist.

Fazit

YOLOv5 YOLOX bieten beide unglaubliche Fähigkeiten zur Objekterkennung. YOLOX hat die Grenzen der Architektur erweitert, indem es bewiesen hat, dass ankerfreie Designs im Jahr 2021 mit traditionellen Methoden konkurrieren und diese sogar übertreffen können. Allerdings YOLOv5 aufgrund seiner beispiellosen Benutzerfreundlichkeit, seines umfangreichen Ökosystems und seines geringeren Speicherbedarfs während des Trainings weiterhin eine dominierende Kraft.

Für die überwiegende Mehrheit kommerzieller Anwendungen bietet das Ultralytics den schnellsten Weg vom Rohdatensatz zum eingesetzten Produktionsmodell. Unabhängig davon, ob sie das bewährte YOLOv5 nutzen YOLOv5 auf das hochmoderne YOLO26 upgraden, profitieren Entwickler von einem Framework, das darauf ausgelegt ist, visuelle KI zugänglich, effizient und leistungsstark zu machen.