Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs YOLOX#

Die Landschaft des Echtzeit-Computer-Vision entwickelt sich ständig weiter. Zwei bemerkenswerte Meilensteine auf diesem Weg sind DAMO-YOLO und YOLOX, die jeweils einzigartige Innovationen für das Problem der Objekterkennung mit hoher Geschwindigkeit und Genauigkeit mit sich bringen. Obwohl beide Modelle einen wesentlichen Beitrag zur Open-Source-Community geleistet haben, ist das Verständnis ihrer architektonischen Unterschiede, Trainingsmethoden und idealen Einsatzszenarien für Machine-Learning-Ingenieure entscheidend.

Dieser umfassende Leitfaden untersucht die technischen Nuancen beider Modelle und hebt hervor, warum moderne Alternativen wie die Ultralytics YOLO26 Plattform heute eine überlegene Leistung und Benutzerfreundlichkeit für Produktionsumgebungen bieten.

Link to this sectionModellübersichten#

Link to this sectionDAMO-YOLO Details#

DAMO-YOLO wurde von einem Forscherteam der Alibaba Group entwickelt und als hocheffiziente Methode zur Objekterkennung eingeführt, die sich automatisierte Architektursuche zunutze macht. Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 23.11.2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Dokumentation: DAMO-YOLO Dokumentation

Erfahre mehr über DAMO-YOLO

Link to this sectionYOLOX Details#

YOLOX wurde von Forschern bei Megvii entwickelt und zielte darauf ab, die Lücke zwischen Forschung und industrieller Gemeinschaft zu schließen, indem die YOLO-Serie auf ein anchor-freies Design umgestellt wurde, was die Architektur drastisch vereinfachte und gleichzeitig eine bessere Leistung für die damalige Zeit erzielte. Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation: Megvii
Datum: 18.07.2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Dokumentation: YOLOX Dokumentation

Erfahre mehr über YOLOX

Link to this sectionArchitektonische Analyse#

Link to this sectionDAMO-YOLO Architektur#

DAMO-YOLO stützt sich stark auf Neural Architecture Search (NAS). Zu den Kernkomponenten gehören:

  • MAE-NAS Backbones: Verwendet einen evolutionären Multi-Objektiv-Suchalgorithmus, um Backbones zu finden, die das optimale Gleichgewicht zwischen Inferenzgeschwindigkeit und Genauigkeit bieten.
  • Efficient RepGFPN: Ein Heavy-Neck-Design, das für die Feature-Fusion angepasst wurde und dem Modell hilft, eine hohe Genauigkeit bei verschiedenen Objektgrößen beizubehalten.
  • ZeroHead: Ein vereinfachter, leichtgewichtiger Detection-Head, der den Rechenaufwand in den letzten Vorhersageschichten reduziert.

Link to this sectionYOLOX-Architektur#

YOLOX verfolgte einen anderen Ansatz, wobei der Fokus auf struktureller Einfachheit und einem anchor-freien Design lag:

  • Anchor-Free Mechanism: Durch die direkte Vorhersage der BBox-Koordinaten ohne vordefinierte Anker reduziert YOLOX die Anzahl der erforderlichen Designparameter und heuristischen Anpassungen.
  • Decoupled Head: Hierbei werden Klassifizierungs- und Regressionsaufgaben in verschiedene Feature-Zweige aufgeteilt, was die Konvergenzgeschwindigkeit und die Gesamtgenauigkeit verbessert.
  • SimOTA Label Assignment: Eine fortschrittliche Label-Zuweisungsstrategie, die dynamisch positive Beispiele den Ground Truths zuweist und so die Trainingseffizienz verbessert.
Design-Philosophien

Während DAMO-YOLO maschinengesteuerte NAS-Suchen nutzt, um optimale Architekturen unter engen Vorgaben zu finden, setzt YOLOX auf elegante, von Menschen entworfene Vereinfachungen (wie anchor-freie Heads), um die Objekterkennungs-Pipeline zu optimieren.

Link to this sectionLeistungsvergleich#

Die Bewertung dieser Modelle erfordert eine Betrachtung der mean Average Precision (mAP), der Inferenzgeschwindigkeiten und der Parameteranzahl. Nachfolgend findest du eine detaillierte Vergleichstabelle für Standard- und Leichtbauvarianten beider Architekturen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050,8-7.1842.197.3
YOLOXnano41625,8--0,911,08
YOLOXtiny41632,8--5,066,45
YOLOXs64040.5-2,569,026,8
YOLOXm64046,9-5,4325.373,8
YOLOXl64049.7-9,0454,2155,6
YOLOXx64051.1-16,199,1281,9

Während YOLOXx eine höchste absolute mAP von 51,1 erreicht, liefert DAMO-YOLOl eine sehr wettbewerbsfähige mAP von 50,8 mit weniger als der Hälfte der Parameter (42,1M gegenüber 99,1M) und einer deutlich schnelleren TensorRT-Ausführung.

Link to this sectionTrainingsmethoden#

Link to this sectionDAMO-YOLO Training#

DAMO-YOLO nutzt während des Trainings eine komplexe Distillationserweiterung. Oft wird zuerst ein großes "Lehrer"-Modell trainiert und dessen Wissen an die kleineren "Schüler"-Modelle weitergegeben. Es verwendet zudem AlignedOTA für eine dynamische Label-Zuweisung. Obwohl dieser Prozess sehr effektiv ist, erhöht der mehrstufige Trainingsvorgang den Bedarf an GPU-Rechenleistung und Speicher erheblich.

Link to this sectionYOLOX Training#

YOLOX stützt sich auf starke Datenaugmentierungsstrategien wie MixUp und Mosaic. Die Autoren fanden jedoch heraus, dass das Abschalten dieser starken Augmentierungen für die letzten 15 Epochen es dem Modell ermöglicht, die Diskrepanz zur Realität zu schließen und die endgültigen Genauigkeitsmetriken signifikant zu steigern.

Link to this sectionIdeale Anwendungsfälle#

  • DAMO-YOLO: Am besten geeignet für anspruchsvolle industrielle Einsätze, bei denen serverseitige Distillations-Pipelines unterstützt werden können und bei denen die Zielhardware (wie spezifische NVIDIA GPUs) direkt von seiner Heavy-Neck-NAS-Architektur profitiert.
  • YOLOX: Hervorragend für Entwickler, die einen rein anchor-freien Ansatz suchen. Das extrem leichtgewichtige YOLOXnano macht es für ältere Android-Geräte, Edge-Computing und stark eingeschränkte IoT-Sensoren geeignet, bei denen die Parameteranzahl der absolute Flaschenhals ist.

Link to this sectionDer Ultralytics-Vorteil: Willkommen bei YOLO26#

Obwohl DAMO-YOLO und YOLOX ausgezeichnete Meilensteine darstellen, verlangen Entwickler heute nach umfassenderen, vielseitigeren und benutzerfreundlicheren Lösungen. Hier glänzen die Ultralytics Plattform und das neu veröffentlichte Ultralytics YOLO26.

YOLO26 wurde im Januar 2026 veröffentlicht und ist das ultimative empfohlene Modell für alle Computer Vision Aufgaben. Es führt eine Reihe von Durchbrüchen ein, die ältere Architekturen übertreffen:

  • End-to-End NMS-Free Design: YOLO26 eliminiert nativ die Non-Maximum Suppression (NMS) Nachverarbeitung. Dies ermöglicht eine deutlich einfachere und schnellere Bereitstellung, da die Latenzengpässe, die bei herkömmlichen Detektionsköpfen auftreten, vermieden werden.
  • Bis zu 43 % schnellere CPU-Inferenz: Durch die strategische Entfernung von Distribution Focal Loss (DFL) und die Optimierung der Schichten liefert YOLO26 eine beispiellose Geschwindigkeit auf CPUs und Edge-Hardware.
  • MuSGD Optimizer: Inspiriert von Trainingsverfahren für Large Language Models (LLM), führt YOLO26 den MuSGD Optimizer ein (eine Mischung aus SGD und Muon), was zu hochstabilen Trainingsläufen und einer weitaus schnelleren Konvergenz im Vergleich zu den Legacy-Setups in YOLOX führt.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen liefern bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, wodurch YOLO26 für Drohnenaufnahmen und Robotik weitaus überlegen ist.
  • Vielseitigkeit: Im Gegensatz zu DAMO-YOLO, das rein für die Objekterkennung gedacht ist, unterstützt YOLO26 nahtlos Instanzsegmentierung, Pose-Schätzung, Klassifizierung und Oriented Bounding Boxes (OBB) nativ innerhalb desselben gut gepflegten Ökosystems.

Erfahre mehr über YOLO26

Link to this sectionBenutzerfreundlichkeit mit Ultralytics#

Die Ultralytics Python API optimiert das Entwicklererlebnis. Das Training eines hochmodernen YOLO26-Modells erfordert weitaus weniger Boilerplate-Code und vermeidet die komplexen Distillations-Pipelines von DAMO-YOLO. Zudem zeichnen sich Ultralytics-Modelle durch einen außergewöhnlich niedrigen CUDA-Speicherbedarf während des Trainings aus, verglichen mit schweren, auf Transformern basierenden Modellen.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
Cloud-Training und -Bereitstellung

Du kannst Modelle automatisch annotieren, trainieren und mit der Ultralytics Plattform am Edge bereitstellen, die für dich die gesamte Datenversionierung und Cloud-GPU-Bereitstellung übernimmt.

Link to this sectionFazit#

Die Wahl zwischen DAMO-YOLO und YOLOX hängt von spezifischen Einschränkungen ab: DAMO-YOLO bietet außergewöhnliche Geschwindigkeits-Genauigkeits-Verhältnisse auf bestimmten GPUs mittels NAS, während YOLOX ein sauberes, anchor-freies Design bietet, das ideal für leichtgewichtige Edge-Szenarien ist.

Für Teams, die eine moderne, zukunftssichere Lösung mit einer aktiven Community suchen, ist die Ultralytics YOLO26 Architektur jedoch die definitive Wahl. Ihr NMS-freies Design, die schnelle CPU-Inferenz und die einheitliche API für Erkennungs-, Segmentierungs- und Pose-Aufgaben machen sie beispiellos für den reibungslosen Übergang von der Forschung in eine robuste, reale Produktion.

Für Entwickler, die an der Erkundung anderer moderner Architekturen interessiert sind, empfehlen wir auch einen Blick auf Ultralytics YOLO11 oder auf Transformer-basierte Modelle wie RT-DETR, die in der umfassenden Ultralytics-Dokumentation verfügbar sind.

Mitwirkende

Kommentare