DAMO-YOLO vs. YOLOX: Ein umfassender technischer Vergleich

Die Landschaft der Echtzeit-Computer-Vision entwickelt sich ständig weiter. Zwei bemerkenswerte Meilensteine auf diesem Weg sind DAMO-YOLO und YOLOX, die jeweils einzigartige Innovationen in das Problem der Objekterkennung mit hoher Geschwindigkeit und Genauigkeit einbringen. Während beide Modelle maßgeblich zur Open-Source-Community beigetragen haben, ist das Verständnis ihrer architektonischen Unterschiede, Trainingsmethoden und idealen Einsatzszenarien für Machine-Learning-Ingenieure entscheidend.

Dieser umfassende Leitfaden untersucht die technischen Nuancen beider Modelle und zeigt auf, warum moderne Alternativen wie die Ultralytics YOLO26-Plattform eine überlegene Leistung und Benutzerfreundlichkeit für heutige Produktionsumgebungen bieten.

Modellübersichten

DAMO-YOLO Details

DAMO-YOLO wurde von einem Team von Forschern der Alibaba Group entwickelt und als hocheffiziente Objekterkennungsmethode eingeführt, die automatisierte Architekturfindung nutzt. Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 23.11.2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Dokumentation: DAMO-YOLO Dokumentation

Erfahre mehr über DAMO-YOLO

YOLOX Details

YOLOX wurde von Forschern bei Megvii entwickelt und zielte darauf ab, die Lücke zwischen Forschungs- und Industriegemeinschaften zu schließen, indem die YOLO-Serie auf ein ankerfreies Design umgestellt wurde, was die Architektur drastisch vereinfachte und gleichzeitig eine zum damaligen Zeitpunkt bessere Leistung erzielte. Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation: Megvii
Datum: 18.07.2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Dokumentation: YOLOX Dokumentation

Erfahre mehr über YOLOX

Architekturanalyse

DAMO-YOLO-Architektur

DAMO-YOLO stützt sich stark auf Neural Architecture Search (NAS). Zu den Kernkomponenten gehören:

  • MAE-NAS-Backbones: Verwendet einen evolutionären Multi-Objektiv-Suchalgorithmus, um Backbones zu finden, die das optimale Gleichgewicht zwischen Inferenzgeschwindigkeit und Genauigkeit bieten.
  • Effizienter RepGFPN: Ein Heavy-Neck-Design, das für die Feature-Fusion angepasst wurde und dem Modell hilft, eine hohe Genauigkeit über verschiedene Objektskalen hinweg beizubehalten.
  • ZeroHead: Ein vereinfachter, leichtgewichtiger Erkennungskopf, der den Rechenaufwand in den abschließenden Vorhersageschichten reduziert.

YOLOX Architektur

YOLOX verfolgte einen anderen Ansatz, der sich auf strukturelle Einfachheit und ein ankerfreies Design konzentrierte:

  • Ankerfreier Mechanismus: Durch die direkte Vorhersage der Bounding-Box-Koordinaten ohne vordefinierte Anker reduziert YOLOX die Anzahl der Designparameter und die notwendige heuristische Feinabstimmung.
  • Entkoppelter Kopf (Decoupled Head): Er trennt die Klassifizierungs- und Regressionsaufgaben in verschiedene Feature-Zweige, was die Konvergenzgeschwindigkeit und die Gesamtgenauigkeit verbessert.
  • SimOTA-Labelzuweisung: Eine fortschrittliche Strategie zur Labelzuweisung, die positive Stichproben dynamisch den Ground Truths zuordnet und so die Trainingseffizienz verbessert.
Designphilosophien

Während DAMO-YOLO maschinengesteuerte NAS-Suchen verwendet, um optimale Architekturen unter engen Vorgaben zu finden, setzt YOLOX auf elegante, von Menschen entworfene Vereinfachungen (wie ankerfreie Köpfe), um die Objekterkennungspipeline zu optimieren.

Leistungsvergleich

Die Bewertung dieser Modelle erfordert die Betrachtung der mittleren durchschnittlichen Präzision (mAP), der Inferenzgeschwindigkeiten und der Parameteranzahl. Unten findest du eine detaillierte Vergleichstabelle der Standard- und Leichtgewichtsvarianten für beide Architekturen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Während YOLOXx die höchste absolute mAP mit 51,1 erreicht, liefert DAMO-YOLOl eine sehr wettbewerbsfähige mAP von 50,8 mit weniger als der Hälfte der Parameter (42,1M gegenüber 99,1M) und einer deutlich schnelleren TensorRT-Ausführung.

Trainingsmethoden

Training von DAMO-YOLO

DAMO-YOLO nutzt während des Trainings eine komplexe Destillationsverbesserung. Oft wird zuerst ein großes "Lehrermodell" trainiert und sein Wissen dann in kleinere "Schülermodelle" destilliert. Außerdem wird AlignedOTA für eine dynamische Labelzuweisung eingesetzt. Obwohl dieser mehrstufige Trainingsprozess sehr effektiv ist, erhöht er den GPU-Rechenaufwand und den Speicherbedarf drastisch.

Training von YOLOX

YOLOX setzt auf starke Datenaugmentierungsstrategien wie MixUp und Mosaic. Die Autoren entdeckten jedoch, dass das Deaktivieren dieser starken Augmentierungen in den letzten 15 Epochen es dem Modell ermöglicht, die Lücke zur Realität zu schließen, was die endgültigen Genauigkeitsmetriken signifikant steigert.

Ideale Anwendungsfälle

  • DAMO-YOLO: Am besten geeignet für anspruchsvolle industrielle Einsätze, bei denen serverbasierte Destillationspipelines unterstützt werden können und bei denen die Zielhardware (wie spezielle NVIDIA GPUs) direkt von ihrer Heavy-Neck-NAS-Architektur profitiert.
  • YOLOX: Hervorragend für Entwickler, die einen rein ankerfreien Ansatz suchen. Das extrem leichtgewichtige YOLOXnano macht es lebensfähig für ältere Android-Geräte, Edge Computing und sehr eingeschränkte IoT-Sensoren, bei denen die Parameteranzahl der absolute Flaschenhals ist.

Der Ultralytics-Vorteil: YOLO26 einführen

Während DAMO-YOLO und YOLOX exzellente Meilensteine darstellen, verlangen Entwickler heute nach umfassenderen, vielseitigeren und benutzerfreundlicheren Lösungen. Hier glänzen die Ultralytics Plattform und das neu veröffentlichte Ultralytics YOLO26.

YOLO26 wurde im Januar 2026 veröffentlicht und ist das ultimative empfohlene Modell für alle Computer-Vision-Aufgaben. Es führt eine Reihe von Durchbrüchen ein, die ältere Architekturen übertreffen:

  • End-to-End NMS-freies Design: YOLO26 eliminiert nativ die Post-Processing-Funktion Non-Maximum Suppression (NMS). Dies ermöglicht eine deutlich einfachere und schnellere Bereitstellung, da die Latenzengpässe, die herkömmlichen Erkennungsköpfen inhärent sind, vermieden werden.
  • Bis zu 43 % schnellere CPU-Inferenz: Durch die strategische Entfernung von Distribution Focal Loss (DFL) und die Optimierung der Schichten liefert YOLO26 beispiellose Geschwindigkeiten auf CPUs und Edge-Hardware.
  • MuSGD-Optimierer: Inspiriert von Trainingstechniken für große Sprachmodelle (LLM), führt YOLO26 den MuSGD-Optimierer ein (eine Hybridform aus SGD und Muon), was zu hochstabilen Trainingsläufen und einer deutlich schnelleren Konvergenz im Vergleich zu den alten Setups in YOLOX führt.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, wodurch YOLO26 für Drohnenaufnahmen und Robotik weitaus überlegen ist.
  • Vielseitigkeit: Im Gegensatz zu DAMO-YOLO, das ausschließlich für die Objekterkennung gedacht ist, beherrscht YOLO26 nahtlos Instanzsegmentierung, Pose-Schätzung, Klassifizierung und Oriented Bounding Boxes (OBB) nativ innerhalb desselben gut gepflegten Ökosystems.

Erfahre mehr über YOLO26

Benutzerfreundlichkeit mit Ultralytics

Die Ultralytics Python API optimiert das Entwicklererlebnis. Das Trainieren eines hochmodernen YOLO26-Modells erfordert weitaus weniger Boilerplate-Code und vermeidet die komplexen Destillationspipelines von DAMO-YOLO. Zudem weisen Ultralytics-Modelle im Vergleich zu schweren, Transformer-basierten Modellen während des Trainings einen außergewöhnlich geringen CUDA-Speicherbedarf auf.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
Cloud-Training und Bereitstellung

Du kannst Modelle mithilfe der Ultralytics Plattform, die die gesamte Datenversionierung und Cloud-GPU-Bereitstellung für dich übernimmt, automatisch annotieren, trainieren und auf dem Edge bereitstellen.

Fazit

Die Entscheidung zwischen DAMO-YOLO und YOLOX hängt von spezifischen Anforderungen ab: DAMO-YOLO bietet mittels NAS außergewöhnliche Geschwindigkeits-Genauigkeits-Verhältnisse auf bestimmten GPUs, während YOLOX ein sauberes, ankerfreies Design bietet, das ideal für leichtgewichtige Edge-Szenarien ist.

Für Teams jedoch, die eine moderne, zukunftssichere Lösung mit einer aktiven Community suchen, ist die Ultralytics YOLO26-Architektur die definitive Wahl. Ihr NMS-freies Design, die schnelle CPU-Inferenz und die einheitliche API für Erkennungs-, Segmentierungs- und Pose-Aufgaben machen sie einzigartig, um reibungslos von der Forschung in eine robuste, reale Produktion zu gelangen.

Für Entwickler, die sich für andere moderne Architekturen interessieren, empfehlen wir auch, Ultralytics YOLO11 oder Transformer-basierte Modelle wie RT-DETR zu prüfen, die in der umfassenden Ultralytics-Dokumentation verfügbar sind.

Kommentare