Zum Inhalt springen

YOLO . YOLOX: Ein umfassender technischer Vergleich

Die Landschaft der Echtzeit-Computervision entwickelt sich ständig weiter. Zwei bemerkenswerte Meilensteine auf diesem Weg sind YOLO und YOLOX, die jeweils einzigartige Innovationen für das Problem der schnellen und hochpräzisen Objekterkennung bieten. Beide Modelle haben zwar einen bedeutenden Beitrag zur Open-Source-Community geleistet, doch für Machine-Learning-Ingenieure ist es entscheidend, ihre architektonischen Unterschiede, Trainingsmethoden und idealen Einsatzszenarien zu verstehen.

Dieser umfassende Leitfaden untersucht die technischen Feinheiten beider Modelle und zeigt auf, warum moderne Alternativen wie die Ultralytics - Plattform eine überlegene Leistung und Benutzerfreundlichkeit für heutige Produktionsumgebungen bieten.

Modellübersichten

YOLO

YOLO von einem Forscherteam der Alibaba Group entwickelt und als hocheffiziente Methode zur Objekterkennung vorgestellt, die sich die automatisierte Architekturerkennung zunutze macht. Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 23.11.2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: YOLO
Dokumente: YOLO

Erfahren Sie mehr über DAMO-YOLO

YOLOX Details

YOLOX wurde von Forschern bei Megvii entwickelt und zielte darauf ab, die Lücke zwischen Forschung und Industrie zu schließen, indem die YOLO auf ein ankerfreies Design umgestellt wurde, wodurch die Architektur drastisch vereinfacht und gleichzeitig eine bessere Leistung erzielt wurde. Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation: Megvii
Datum: 18.07.2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Dokumente: YOLOX-Dokumentation

Erfahren Sie mehr über YOLOX

Architekturanalyse

DAMO-YOLO-Architektur

YOLO in hohem Maße auf die neuronale Architektursuche (Neural Architecture Search, NAS). Zu den Kernkomponenten gehören:

  • MAE-NAS-Backbones: Verwendet einen multikriteriellen evolutionären Suchalgorithmus, um Backbones zu finden, die ein optimales Gleichgewicht zwischen Inferenzgeschwindigkeit und Genauigkeit bieten.
  • Effizientes RepGFPN: Ein Heavy-Neck-Design, das für die Merkmalsfusion angepasst wurde und dem Modell hilft, über unterschiedliche Objektgrößen hinweg eine hohe Genauigkeit aufrechtzuerhalten.
  • ZeroHead: Ein vereinfachter, schlanker Erkennungskopf, der den Rechenaufwand in den letzten Vorhersageschichten reduziert.

YOLOX-Architektur

YOLOX verfolgte einen anderen Ansatz und konzentrierte sich auf strukturelle Einfachheit und ein ankerfreies Design:

  • Ankerfreier Mechanismus: Durch die direkte Vorhersage der Koordinaten des Begrenzungsrahmens ohne vordefinierte Anker reduziert YOLOX die Anzahl der erforderlichen Designparameter und heuristischen Anpassungen.
  • Entkoppelter Kopf: Er trennt die Klassifizierungs- und Regressionsaufgaben in verschiedene Merkmalszweige, was die Konvergenzgeschwindigkeit und die Gesamtgenauigkeit verbessert.
  • SimOTA-Label-Zuweisung: Eine fortschrittliche Strategie zur Label-Zuweisung, die positive Samples dynamisch Ground Truths zuordnet und so die Trainingseffizienz verbessert.

Designphilosophien

WährendYOLO maschinengesteuerte NAS-SuchenYOLO , um unter strengen Einschränkungen optimale Architekturen zu finden, nutzt YOLOX elegante, von Menschen entworfene Vereinfachungen (wie ankerfreie Köpfe), um die Objekterkennungspipeline zu optimieren.

Leistungsvergleich

Zur Bewertung dieser Modelle müssen die mittlere durchschnittliche Präzision (mAP), die Inferenzgeschwindigkeiten und die Parameteranzahl betrachtet werden. Nachstehend finden Sie eine detaillierte Vergleichstabelle der Standard- und Lightweight-Varianten für beide Architekturen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Während YOLOXx mAP 51,1 den höchsten absoluten mAP erzielt, liefert DAMO-YOLOl einen äußerst wettbewerbsfähigen mAP 50,8 mAP weniger als der Hälfte der Parameter (42,1 Mio. gegenüber 99,1 Mio.) und TensorRT deutlich schnelleren TensorRT .

Trainingsmethoden

SchulungYOLO

YOLO während des Trainings eine komplexe Destillationsverbesserung. Oft wird zunächst ein großes „Lehrer”-Modell trainiert, dessen Wissen dann in kleinere „Schüler”-Modelle destilliert wird. Außerdem wird AlignedOTA für die dynamische Zuweisung von Labels verwendet. Dieser mehrstufige Trainingsprozess ist zwar sehr effektiv, erhöht jedoch die erforderliche GPU und den Speicherbedarf drastisch.

Training YOLOX

YOLOX stützt sich auf starke Datenvergrößerungsstrategien wie MixUp Mosaic. Die Autoren stellten jedoch fest, dass das Deaktivieren dieser starken Vergrößerungen für die letzten 15 Epochen es dem Modell ermöglicht, die Realitätslücke zu schließen, wodurch die endgültigen Genauigkeitsmetriken erheblich verbessert werden.

Ideale Anwendungsfälle

  • YOLO: Am besten geeignet für industrielle Einsätze mit hohen Anforderungen, bei denen serverseitige Destillationspipelines unterstützt werden können und bei denen die Zielhardware (wie bestimmte NVIDIA ) direkt von der Heavy-Neck-NAS-Architektur profitiert.
  • YOLOX: Hervorragend geeignet für Entwickler, die einen rein ankerfreien Ansatz suchen. Das extrem leichte YOLOXnano macht es für ältere Android nutzbar, Edge-Computingund sehr eingeschränkte IoT-Sensoren, bei denen die Parameteranzahl den absoluten Engpass darstellt.

Ultralytics von Ultralytics : Geben Sie YOLO26 ein

YOLO YOLOX sind zwar hervorragende Meilensteine, doch Entwickler verlangen heute umfassendere, vielseitigere und benutzerfreundlichere Lösungen. Hier kommen die Ultralytics und das neu veröffentlichte Ultralytics ins Spiel.

YOLO26 wurde im Januar 2026 veröffentlicht und ist das ultimative empfohlene Modell für alle Computer-Vision- Aufgaben. Es bietet eine Reihe bahnbrechender Neuerungen, die ältere Architekturen übertreffen:

  • End-to-End-Design NMS: YOLO26 macht die Nachbearbeitung mit Non-Maximum Suppression (NMS) überflüssig. Dies ermöglicht eine deutlich einfachere und schnellere Bereitstellung und vermeidet die Latenzengpässe, die bei herkömmlichen Erkennungsköpfen auftreten.
  • Bis zu 43 % schnellere CPU : Durch die strategische Entfernung des Distribution Focal Loss (DFL) und die Optimierung der Schichten liefert YOLO26 beispiellose Geschwindigkeiten auf CPUs und Edge-Hardware.
  • MuSGD-Optimierer: Inspiriert von den Trainingstechniken für große Sprachmodelle (LLM) führt YOLO26 den MuSGD-Optimierer (eine Mischung aus SGD Muon) ein, der im Vergleich zu den bisherigen Konfigurationen in YOLOX zu äußerst stabilen Trainingsläufen und einer deutlich schnelleren Konvergenz führt.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, wodurch YOLO26 für Drohnenaufnahmen und Robotik deutlich überlegen ist.
  • Vielseitigkeit: Im Gegensatz zuYOLO, das ausschließlich für die Objekterkennung gedacht ist, kann YOLO26 nahtlos Instanzsegmentierung, Posenschätzung, Klassifizierung und Oriented Bounding Boxes (OBB) nativ innerhalb desselben gut gepflegten Ökosystems verarbeiten.

Erfahren Sie mehr über YOLO26

Benutzerfreundlichkeit mit Ultralytics

Die Ultralytics Python optimiert die Entwicklererfahrung. Das Training eines hochmodernen YOLO26-Modells erfordert weitaus weniger Boilerplate-Code und vermeidet die komplexen Destillations-Pipelines vonYOLO. Darüber hinaus zeichnen sich Ultralytics im Vergleich zu schwerfälligen transformatorbasierten Modellen durch außergewöhnlich geringe CUDA während des Trainings aus.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Cloud-Schulung und -Bereitstellung

Mit der Ultralytics können Sie Modelle automatisch annotieren, trainieren und am Rand bereitstellen. Die Plattform übernimmt für Sie die gesamte Datenversionierung und GPU .

Fazit

Die Wahl zwischenYOLO YOLOX hängt von bestimmten Einschränkungen ab:YOLO über NAS ein außergewöhnliches Verhältnis von Geschwindigkeit zu Genauigkeit auf bestimmten GPUs, während YOLOX ein sauberes, ankerfreies Design bietet, das sich ideal für leichtgewichtige Edge-Szenarien eignet.

Für Teams, die eine moderne, zukunftssichere Lösung mit einer aktiven Community suchen, ist die Ultralytics jedoch die definitive Wahl. Dank ihres NMS Designs, CPU schnellen CPU und der einheitlichen API für Erkennungs-, Segmentierungs- und Positionsaufgaben ist sie unübertroffen, wenn es darum geht, reibungslos von der Forschung zur robusten Produktion in der Praxis überzugehen.

Entwicklern, die sich für andere moderne Architekturen interessieren, empfehlen wir außerdem einen Blick auf Ultralytics YOLO11 oder transformatorbasierte Modelle wie RT-DETR , die in der umfassenden Ultralytics verfügbar sind.


Kommentare