DAMO-YOLO vs. YOLOX: Ein umfassender technischer Vergleich

Die Landschaft der Echtzeit-Computervision entwickelt sich ständig weiter. Zwei bemerkenswerte Meilensteine auf diesem Weg sind YOLO und YOLOX, die jeweils einzigartige Innovationen für das Problem der schnellen und hochpräzisen Objekterkennung bieten. Beide Modelle haben zwar einen bedeutenden Beitrag zur Open-Source-Community geleistet, doch für Machine-Learning-Ingenieure ist es entscheidend, ihre architektonischen Unterschiede, Trainingsmethoden und idealen Einsatzszenarien zu verstehen.

Dieser umfassende Leitfaden untersucht die technischen Feinheiten beider Modelle und zeigt auf, warum moderne Alternativen wie die Ultralytics - Plattform eine überlegene Leistung und Benutzerfreundlichkeit für heutige Produktionsumgebungen bieten.

Modellübersichten

DAMO-YOLO Details

Entwickelt von einem Forscherteam der Alibaba Group, wurde DAMO-YOLO als hoch effiziente Objekterkennungsmethode vorgestellt, die auf automatisierter Architekturentdeckung basiert. Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Dokumentation: DAMO-YOLO Dokumentation

Erfahren Sie mehr über DAMO-YOLO

YOLOX Details

Von Forschern bei Megvii entwickelt, zielte YOLOX darauf ab, die Lücke zwischen Forschungs- und Industriegemeinschaften zu schließen, indem die YOLO-Serie auf ein ankerfreies Design umgestellt wurde, was die Architektur drastisch vereinfachte und gleichzeitig eine bessere Leistung erzielte. Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation: Megvii
Datum: 18.07.2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Dokumentation: YOLOX Dokumentation

Erfahren Sie mehr über YOLOX

Architekturanalyse

DAMO-YOLO-Architektur

DAMO-YOLO setzt stark auf Neural Architecture Search (NAS). Die Kernkomponenten umfassen:

MAE-NAS-Backbones: Verwendet einen multiobjektiven evolutionären Suchalgorithmus, um Backbones zu entdecken, die das optimale Gleichgewicht zwischen Inferenzgeschwindigkeit und Genauigkeit bieten.
Effizientes RepGFPN: Ein Heavy-Neck-Design, das für die Merkmalsfusion angepasst ist und dem Modell hilft, eine hohe Genauigkeit über verschiedene Objektskalen hinweg beizubehalten.
ZeroHead: Ein vereinfachter, leichtgewichtiger Detektionskopf, der den Rechenaufwand in den finalen Vorhersageschichten reduziert.

YOLOX-Architektur

YOLOX verfolgte einen anderen Ansatz und konzentrierte sich auf strukturelle Einfachheit und ein ankerfreies Design:

Ankerfreier Mechanismus: Durch die direkte Vorhersage der Bounding Box-Koordinaten ohne vordefinierte Anker reduziert YOLOX die Anzahl der erforderlichen Designparameter und heuristischen Anpassungen.
Entkoppelter Kopf: Er trennt die Klassifikations- und Regressionsaufgaben in verschiedene Feature-Zweige, was die Konvergenzgeschwindigkeit und die Gesamtgenauigkeit verbessert.
SimOTA Label Assignment: Eine fortschrittliche Label-Assignment-Strategie, die positive Samples dynamisch Ground Truths zuweist, wodurch die Trainingseffizienz verbessert wird.

Designphilosophien

WährendYOLO maschinengesteuerte NAS-SuchenYOLO , um unter strengen Einschränkungen optimale Architekturen zu finden, nutzt YOLOX elegante, von Menschen entworfene Vereinfachungen (wie ankerfreie Köpfe), um die Objekterkennungspipeline zu optimieren.

Leistungsvergleich

Zur Bewertung dieser Modelle müssen die mittlere durchschnittliche Präzision (mAP), die Inferenzgeschwindigkeiten und die Parameteranzahl betrachtet werden. Nachstehend finden Sie eine detaillierte Vergleichstabelle der Standard- und Lightweight-Varianten für beide Architekturen.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Während YOLOXx mAP 51,1 den höchsten absoluten mAP erzielt, liefert DAMO-YOLOl einen äußerst wettbewerbsfähigen mAP 50,8 mAP weniger als der Hälfte der Parameter (42,1 Mio. gegenüber 99,1 Mio.) und TensorRT deutlich schnelleren TensorRT .

Trainingsmethoden

SchulungYOLO

DAMO-YOLO nutzt während des Trainings eine komplexe Destillationsverbesserung. Oft wird zuerst ein großes „Lehrer“-Modell trainiert, dessen Wissen dann in die kleineren „Schüler“-Modelle destilliert wird. Es verwendet auch AlignedOTA für die dynamische Label-Zuweisung. Obwohl hochwirksam, erhöht dieser mehrstufige Trainingsprozess die benötigte GPU compute-Zeit und den Speicherbedarf drastisch.

Training YOLOX

YOLOX stützt sich auf starke Datenvergrößerungsstrategien wie MixUp Mosaic. Die Autoren stellten jedoch fest, dass das Deaktivieren dieser starken Vergrößerungen für die letzten 15 Epochen es dem Modell ermöglicht, die Realitätslücke zu schließen, wodurch die endgültigen Genauigkeitsmetriken erheblich verbessert werden.

Ideale Anwendungsfälle

DAMO-YOLO: Am besten geeignet für anspruchsvolle industrielle Bereitstellungen, bei denen serverseitige Destillationspipelines unterstützt werden können und die Zielhardware (wie spezifische NVIDIA GPUs) direkt von ihrer Heavy-Neck NAS-Architektur profitiert.
YOLOX: Hervorragend geeignet für Entwickler, die einen rein ankerfreien Ansatz suchen. Das extrem leichte YOLOXnano macht es für ältere Android nutzbar, Edge-Computing, und sehr eingeschränkte IoT-Sensoren, bei denen die Parameteranzahl der absolute Engpass ist.

Ultralytics von Ultralytics : Geben Sie YOLO26 ein

YOLO YOLOX sind zwar hervorragende Meilensteine, doch Entwickler verlangen heute umfassendere, vielseitigere und benutzerfreundlichere Lösungen. Hier kommen die Ultralytics und das neu veröffentlichte Ultralytics ins Spiel.

YOLO26 wurde im Januar 2026 veröffentlicht und ist das ultimative empfohlene Modell für alle Computer-Vision- Aufgaben. Es bietet eine Reihe bahnbrechender Neuerungen, die ältere Architekturen übertreffen:

End-to-End NMS-freies Design: YOLO26 eliminiert nativ die Non-Maximum Suppression (NMS)-Nachbearbeitung. Dies ermöglicht eine deutlich einfachere und schnellere Bereitstellung und vermeidet die Latenzengpässe, die traditionellen Detektionsköpfen eigen sind.
Bis zu 43 % schnellere CPU-Inferenz: Durch die strategische Entfernung von Distribution Focal Loss (DFL) und die Optimierung der Schichten liefert YOLO26 unübertroffene Geschwindigkeiten auf CPUs und Edge-Hardware.
MuSGD-Optimierer: Inspiriert von Trainingsmethoden großer Sprachmodelle (LLM), führt YOLO26 den MuSGD-Optimierer (einen Hybrid aus SGD und Muon) ein, was zu hochstabilen Trainingsläufen und einer deutlich schnelleren Konvergenz im Vergleich zu den älteren Konfigurationen in YOLOX führt.
ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen erzielen bemerkenswerte Verbesserungen bei der Kleinstobjekterkennung, was YOLO26 für Drohnenaufnahmen und Robotik deutlich überlegen macht.
Vielseitigkeit: Im Gegensatz zu DAMO-YOLO, das ausschließlich für die Objekterkennung gedacht ist, verarbeitet YOLO26 nahtlos die Instanzsegmentierung, Posenschätzung, Klassifizierung und Oriented Bounding Boxes (OBB) nativ innerhalb desselben gut gepflegten Ökosystems.

Erfahren Sie mehr über YOLO26

Benutzerfreundlichkeit mit Ultralytics

Die Ultralytics Python optimiert die Entwicklererfahrung. Das Training eines hochmodernen YOLO26-Modells erfordert weitaus weniger Boilerplate-Code und vermeidet die komplexen Destillations-Pipelines vonYOLO. Darüber hinaus zeichnen sich Ultralytics im Vergleich zu schwerfälligen transformatorbasierten Modellen durch außergewöhnlich geringe CUDA während des Trainings aus.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Cloud-Training und Bereitstellung

Mit der Ultralytics können Sie Modelle automatisch annotieren, trainieren und am Rand bereitstellen. Die Plattform übernimmt für Sie die gesamte Datenversionierung und GPU .

Fazit

Die Wahl zwischen DAMO-YOLO und YOLOX hängt von spezifischen Einschränkungen ab: DAMO-YOLO bietet über NAS außergewöhnliche Geschwindigkeits-zu-Genauigkeits-Verhältnisse auf bestimmten GPUs, während YOLOX ein sauberes, ankerfreies Design bietet, das ideal für leichte Edge-Szenarien ist.

Für Teams, die eine moderne, zukunftssichere Lösung mit einer aktiven Community suchen, ist die Ultralytics jedoch die definitive Wahl. Dank ihres NMS Designs, CPU schnellen CPU und der einheitlichen API für Erkennungs-, Segmentierungs- und Positionsaufgaben ist sie unübertroffen, wenn es darum geht, reibungslos von der Forschung zur robusten Produktion in der Praxis überzugehen.

Entwicklern, die sich für andere moderne Architekturen interessieren, empfehlen wir außerdem einen Blick auf Ultralytics YOLO11 oder transformatorbasierte Modelle wie RT-DETR , die in der umfassenden Ultralytics verfügbar sind.