YOLOX vs.YOLO: Analyse von Objektdetektionsarchitekturen der nächsten Generation
In der sich rasant entwickelnden Landschaft der Computervision markiert der Übergang von ankerbasierten zu ankerfreien Detektoren einen bedeutenden Meilenstein. Zwei herausragende Modelle, die diesen Wandel geprägt haben, sind YOLOX und YOLO. Dieser Vergleich untersucht ihre architektonischen Innovationen, Leistungskennzahlen und Trainingsmethoden, um Forschern und Ingenieuren bei der Auswahl des richtigen Tools für ihre spezifischen Anforderungen im Bereich der Objekterkennung zu helfen.
Leistungsbenchmarks
Die folgende Tabelle enthält einen direkten Vergleich der wichtigsten Leistungskennzahlen zwischenYOLO YOLOX undYOLO .
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOX: Brückenschlag zwischen Forschung und Industrie
YOLOX wurde zu einem entscheidenden Update der YOLO , indem es auf einen ankerfreien Mechanismus umgestellt und fortschrittliche Erkennungstechniken eingeführt wurden, die die Pipeline zwischen akademischer Forschung und industrieller Anwendung optimierten.
Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation:Megvii
Datum: 18.07.2021
Arxiv:YOLOX: Übertreffen YOLO im Jahr 2021
GitHub:Megvii-BaseDetection/YOLOX
Architektur und Innovation
YOLOX zeichnet sich dadurch aus, dass es die Ankerboxen entfernt, die in früheren Versionen wie YOLOv4 und YOLOv5entfallen. Die „Decoupled Head”-Architektur trennt die Klassifizierungs- und Lokalisierungsaufgaben voneinander, was die Konvergenzgeschwindigkeit und Genauigkeit erheblich verbessert.
Darüber hinaus verwendet YOLOX SimOTA, eine dynamische Strategie zur Zuweisung von Labels, die den Trainingsprozess als ein Optimal-Transport-Problem betrachtet. Dadurch kann das Modell positive Samples automatisch anhand einer globalen Optimierungsstrategie den Ground Truths zuweisen, wodurch die Notwendigkeit einer heuristischen Hyperparameter-Optimierung reduziert wird.
DAMO-YOLO: Effizienz durch neuronale Architektursuche
YOLO die Grenzen des Kompromisses zwischen Latenz und Genauigkeit, indem es Neural Architecture Search (NAS) und umfangreiche Neuparametrisierung nutzt.
Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation:Alibaba Group
Datum: 23.11.2022
Arxiv:YOLO: Ein Bericht über das Design der Echtzeit-Objekterkennung
GitHub:YOLO
Schlüsseltechnologien
YOLO ein MAE-NAS-BackboneYOLO , das mithilfe einer multiobjektiven evolutionären Suche erstellt wurde, um die optimale Netzwerkstruktur unter bestimmten Latenzbedingungen zu finden. Es nutzt außerdem RepGFPN (Efficient Reparameterized Generalized Feature Pyramid Network) für eine effektive Merkmalsfusion über verschiedene Skalen hinweg.
Eine bemerkenswerte Funktion ist ZeroHead, das den Erkennungskopf auf ein Minimum an Komplexität vereinfacht und sich dabei auf das starke Rückgrat und den Hals stützt, um die schwere Arbeit zu erledigen. Das Training wird durch AlignedOTA für die Zuweisung von Labels und eine Destillationsphase ergänzt, in der ein größeres Lehrer-Modell den Schüler anleitet und so auch bei kleineren Modellvarianten eine hohe Leistung sicherstellt.
Erfahren Sie mehr über DAMO-YOLO
Der Ultralytics Vorteil
Während YOLOX undYOLO robuste Lösungen für bestimmte SzenarienYOLO , stellt das Ultralytics eine umfassende, benutzerfreundliche und leistungsstarke Alternative dar, die den Komplexitäten der modernen KI-Entwicklung gerecht wird.
Nahtlose Benutzerfreundlichkeit und Ökosystem
Einer der Hauptkritikpunkte an Modellen wieYOLO die Komplexität ihrer Trainingsrezepte, die oft mehrstufige Destillation oder spezielle NAS-Suchräume beinhalten. Im Gegensatz dazu sind Ultralytics auf sofortige Zugänglichkeit ausgelegt. Unabhängig davon, ob Sie YOLO11 oder das hochmoderne YOLO26 verwenden, wird der gesamte Workflow – vom Laden des Datensatzes bis zum Export des Modells – über eine einheitliche API abgewickelt.
Entwickler können die Ultralytics nutzen, um Datensätze zu verwalten, Experimente zu visualisieren und Modelle nahtlos bereitzustellen. Dieser integrierte Ansatz beseitigt Einstiegshürden, sodass sich Teams auf die Lösung geschäftlicher Probleme konzentrieren können, anstatt Trainingsskripte zu debuggen.
Leistungsausgleich mit YOLO26
Für diejenigen, die nach dem Nonplusultra in Sachen Geschwindigkeit und Genauigkeit suchen, ist YOLO26 der neueste Stand der Technik. Es baut auf den Erkenntnissen aus Modellen wie YOLOX (anchor-free design) und YOLOv10 (NMS Inferenz) auf und bietet eine außergewöhnliche Leistung.
YOLO26 Innovation: End-to-End NMS
YOLO26 ist von Haus aus durchgängig und macht eine Nachbearbeitung mit Non-Maximum Suppression (NMS) überflüssig. Dies vereinfacht die Bereitstellungspipelines erheblich, insbesondere auf Edge-Geräten, wo NMS zu Latenzengpässen führen können.
Zu den wichtigsten Funktionen von YOLO26 gehören:
- DFL-Entfernung: Die Entfernung von Distribution Focal Loss vereinfacht den Modellgraphen und erleichtert den Export in Formate wie ONNX und TensorRT.
- MuSGD-Optimierer: Eine Mischung aus SGD Muon (inspiriert durch LLM-Training) sorgt für eine stabile Konvergenz.
- CPU : Architektonisch für Edge-Computing optimiert, liefert bis zu 43 % schnellere Inferenz auf CPUs.
- ProgLoss + STAL: Fortschrittliche Verlustfunktionen, die die Erkennung kleiner Objekte drastisch verbessern – eine entscheidende Anforderung für Drohnenbilder und Robotik.
Vielseitigkeit über verschiedene Aufgaben hinweg
Im Gegensatz zu YOLOX undYOLO, die sich in erster Linie auf die Objekterkennung konzentrieren, sind Ultralytics von Natur aus multimodal. Eine einzige Bibliothek unterstützt:
Diese Vielseitigkeit ermöglicht es Entwicklern, komplexe Projekte anzugehen – wie beispielsweise die Analyse der Spielmechanik im Sport mithilfe von Posenschätzung –, ohne das Framework wechseln zu müssen.
Trainingseffizienz und Speicher
Ultralytics GPU Ultralytics sind auf Ressourceneffizienz ausgelegt. Im Vergleich zu ressourcenintensiven transformatorbasierten Modellen wie RT-DETR. Diese Effizienz demokratisiert die KI und ermöglicht das Training leistungsstarker Modelle auf handelsüblicher Verbraucherhardware.
So einfach ist es, ein hochmodernes YOLO26-Modell mit dem Ultralytics Python zu trainieren:
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Anwendungen in der realen Welt
Die Wahl des richtigen Modells hängt oft von den spezifischen Einschränkungen der Einsatzumgebung ab.
Industrielle Qualitätskontrolle
Für Hochgeschwindigkeits-Fertigungslinien ist YOLO aufgrund seiner geringen Latenz auf GPU ein starker Konkurrent, da es sich für die Erkennung von Fehlern auf schnell laufenden Förderbändern eignet. Allerdings wird hier zunehmend YOLO26 bevorzugt, da sein NMS Design deterministische Inferenzzeiten gewährleistet und so Jitter verhindert, der zu einer Desynchronisation der Roboterantriebe führen kann.
Edge-KI und Mobilgeräte
YOLOX-Nano war aufgrund seiner geringen Parameteranzahl schon immer ein Favorit für mobile Anwendungen. Heute bietet YOLO26n (Nano) eine überlegene Alternative, die bei ähnlichen Modellgrößen eine höhere Genauigkeit bietet und gleichzeitig von CPU um 43 % schnelleren CPU profitiert. Damit eignet es sich ideal für batteriebetriebene Geräte wie Smart-Kameras oder landwirtschaftliche Sensoren.
Autonome Systeme
In der Robotik und beim autonomen Fahren ist die Fähigkeit, mit unterschiedlichen Objektgrößen umzugehen, von entscheidender Bedeutung. Der entkoppelte Kopf von YOLOX ist dabei zwar hilfreich, doch die Implementierung von ProgLoss + STAL in YOLO26 sorgt für eine deutliche Verbesserung bei der Erkennung von weit entfernten oder kleinen Objekten wie Verkehrszeichen oder Fußgängern und erhöht damit die allgemeine Sicherheit des Systems.
Zusammenfassung
Sowohl YOLOX als auchYOLO wesentlich zur Weiterentwicklung der Objekterkennung beigetragen. YOLOX hat das ankerfreie Paradigma populär gemacht, währendYOLO die Leistungsfähigkeit der neuronalen ArchitektursucheYOLO .
Für eine moderne, zukunftssichere Lösung, die Leistung, Benutzerfreundlichkeit und Flexibilität bei der Bereitstellung in Einklang bringt, ist Ultralytics jedoch die erste Wahl. Dank seiner Integration in das umfassende Ultralytics , der Unterstützung mehrerer Aufgaben und vereinfachter Exportprozesse ist es die empfohlene Wahl sowohl für die akademische Forschung als auch für Anwendungen auf Unternehmensebene.
Entdecken Sie das volle Potenzial dieser Modelle, indem Sie die Ultralytics besuchen und noch heute mit Ihrer Schulung beginnen.