Zum Inhalt springen

DAMO-YOLO vs. YOLO26: Ein technischer Vergleich von Echtzeit-Objektdetektoren

Die Entwicklung der Echtzeit-Objekterkennung hat rasante Fortschritte gemacht, angetrieben durch den Bedarf an Modellen, die Geschwindigkeit, Genauigkeit und Bereitstellungseffizienz in Einklang bringen. Dieser Artikel bietet einen umfassenden technischen Vergleich zwischen DAMO-YOLO, entwickelt von der Alibaba Group, und YOLO26, der neuesten Iteration von Ultralytics. Wir werden ihre Architekturen, Leistungsmetriken und idealen Anwendungsfälle analysieren, um Entwicklern und Forschern bei der Auswahl des richtigen Tools für ihre Computer-Vision-Projekte zu helfen.

DAMO-YOLO Übersicht

DAMO-YOLO ist eine schnelle und genaue Objekterkennungsmethode, die Ende 2022 von Forschern der Alibaba Group eingeführt wurde. Sie wurde entwickelt, um die Leistungsgrenzen durch die Integration mehrerer Spitzentechnologien in das YOLO-Framework zu erweitern. Die Kernphilosophie hinter DAMO-YOLO ist die Verwendung von Neural Architecture Search (NAS), um effiziente Backbones automatisch zu entdecken, kombiniert mit einem stark re-parametrisierten Neck.

Wesentliche Architekturmerkmale umfassen:

  • MAE-NAS Backbone: Verwendung eines Masked Autoencoder (MAE)-Ansatzes zur Suche nach optimalen Backbone-Strukturen unter verschiedenen Latenzbeschränkungen.
  • Effizientes RepGFPN: Ein Generalized Feature Pyramid Network (GFPN), das stark mit Re-Parametrisierung optimiert wurde, um die Effizienz der Feature-Fusion zu verbessern, ohne die Geschwindigkeit während der Inferenz zu beeinträchtigen.
  • ZeroHead: Ein leichtes Head-Design, das den Rechenaufwand reduziert.
  • AlignedOTA: Eine verbesserte Strategie zur Label-Zuweisung, die Fehlausrichtungsprobleme zwischen Klassifizierungs- und Regressionsaufgaben löst.
  • Distillation Enhancement: Eine robuste Destillations-Pipeline wird verwendet, um die Genauigkeit kleinerer Modelle unter Verwendung größerer Lehrmodelle zu steigern.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation:Alibaba Group
Datum: 23. November 2022
Links:Arxiv, GitHub

Erfahren Sie mehr über DAMO-YOLO

YOLO26 Überblick

YOLO26, im Januar 2026 von Ultralytics veröffentlicht, stellt einen bedeutenden Fortschritt in der kantenoptimierten Computer Vision dar. Speziell für Edge- und stromsparende Geräte entwickelt, konzentriert es sich auf die Optimierung der Bereitstellungspipeline und verbessert gleichzeitig die Genauigkeit bei anspruchsvollen Aufgaben wie der Detektion kleiner Objekte.

YOLO26 zeichnet sich durch mehrere bedeutende Innovationen aus:

  • End-to-End NMS-freies Design: Durch die Eliminierung der Notwendigkeit einer Non-Maximum Suppression (NMS)-Nachbearbeitung vereinfacht YOLO26 die Bereitstellungslogik und reduziert die Latenzvariabilität, ein Konzept, das erstmals in YOLOv10 eingeführt wurde.
  • DFL-Entfernung: Die Entfernung von Distribution Focal Loss (DFL) vereinfacht die Ausgabestruktur des Modells, wodurch der Export in Formate wie ONNX und TensorRT einfacher und mit einer breiteren Palette von Hardware kompatibel wird.
  • MuSGD Optimizer: Ein neuartiger Hybrid-Optimizer, der SGD und Muon kombiniert, inspiriert von LLM-Trainingsmethoden von Moonshot AIs Kimi K2. Dies führt zu stabileren Trainingsdynamiken und schnellerer Konvergenz.
  • ProgLoss + STAL: Die Kombination aus Progressive Loss Balancing und Small-Target-Aware Label Assignment (STAL) steigert die Leistung bei kleinen Objekten erheblich und behebt eine häufige Schwäche von Echtzeit-Detektoren.

Autoren: Glenn Jocher und Jing Qiu
Organisation:Ultralytics
Datum: 14. Januar 2026
Links:Ultralytics Docs, GitHub

Erfahren Sie mehr über YOLO26

Vergleichende Analyse

Architektur und Designphilosophie

Der auffälligste Unterschied liegt in der Inferenz-Pipeline. DAMO-YOLO folgt einem traditionellen Detektor-Workflow, der NMS zum Filtern überlappender Bounding Boxes erfordert. Obwohl effektiv, kann NMS in Hochdurchsatzanwendungen einen Engpass darstellen und die Bereitstellung auf bestimmten Beschleunigern erschweren.

Im Gegensatz dazu ist YOLO26 nativ End-to-End. Das Modell prognostiziert direkt den endgültigen Satz von Bounding Boxes. Dieses NMS-freie Design reduziert nicht nur die Inferenzlatenz – insbesondere auf CPU-gebundenen Edge-Geräten, wo NMS kostspielig ist –, sondern vereinfacht auch den Integrationscode, der für den Betrieb des Modells in Produktionsumgebungen erforderlich ist.

Vereinfachte Bereitstellung

Die NMS-freie Architektur von YOLO26 bedeutet, dass bei der Bereitstellung auf Edge-Geräten keine komplexe Nachbearbeitungslogik in C++ oder CUDA implementiert werden muss. Die Modellausgabe ist das finale Detektionsergebnis.

Trainingsmethoden

DAMO-YOLO stützt sich stark auf Knowledge Distillation, um seine hohe Leistung zu erzielen, insbesondere bei seinen kleineren Varianten. Dies erhöht die Komplexität der Trainings-Pipeline, da zuerst ein leistungsstarkes Lehrmodell trainiert werden muss.

YOLO26 führt den MuSGD-Optimizer ein, der die Lücke zwischen der Optimierung von Large Language Models (LLM) und Computer Vision schließt. Dies ermöglicht YOLO26 eine hochmoderne Konvergenz zu erreichen, ohne notwendigerweise auf komplexe Destillations-Setups angewiesen zu sein, obwohl Ultralytics Trainingsmodi verschiedene erweiterte Konfigurationen unterstützen. Darüber hinaus passt YOLO26s ProgLoss die Verlustgewichte während des Trainings dynamisch an, um den Lernprozess zu stabilisieren.

Leistungsmetriken

Beim Vergleich der Leistung auf dem COCO-Datensatz zeigen beide Modelle beeindruckende Ergebnisse, es zeigen sich jedoch deutliche Kompromisse hinsichtlich Geschwindigkeit und Effizienz.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Analyse:

  • Parameter-Effizienz: YOLO26 zeigt eine deutlich bessere Parametereffizienz. Zum Beispiel: YOLO26s erreicht 48,6 mAP mit nur 9,5 Mio. Parametern, während DAMO-YOLOs 46,0 mAP mit 16,3 Mio. Parametern erreicht. Dies macht YOLO26-Modelle leichter zu speichern und schneller zu laden.
  • Inferenzgeschwindigkeit: YOLO26n ist extrem schnell und erreicht 1,7 ms auf einer T4 GPU mit TensorRT, im Vergleich zu etwa 2,32 ms für die Tiny DAMO-Variante. Die CPU-Geschwindigkeit von YOLO26 ist ebenfalls ein wichtiges Highlight, speziell optimiert für Geräte wie den Raspberry Pi oder Mobiltelefone, bei denen GPUs nicht verfügbar sind.
  • Genauigkeit: Bei ähnlichen Skalierungen (z. B. Medium/Large) übertrifft YOLO26 DAMO-YOLO konsistent in mAP, wahrscheinlich aufgrund der fortschrittlichen STAL-Zuweisungsstrategie und der verfeinerten Architektur.

Vielseitigkeit und Aufgabenunterstützung

Während DAMO-YOLO hauptsächlich auf Objektdetektion fokussiert ist, stellt das Ultralytics-Ökosystem sicher, dass YOLO26 ein Multi-Task-Kraftpaket ist.

Diese Vielseitigkeit ermöglicht Entwicklern die Nutzung einer einzigen, vereinheitlichten API für diverse Computer-Vision-Probleme, wodurch die Lernkurve und die technische Schuld reduziert werden.

Benutzerfreundlichkeit und Ökosystem

Einer der größten Vorteile von YOLO26 ist das umgebende Ultralytics-Ökosystem.

DAMO-YOLO bietet eine Codebasis, die Forscher zur Reproduktion von Ergebnissen nutzen können, es mangelt jedoch möglicherweise an der umfassenden Dokumentation, Wartung und Community-Unterstützung, die in produktorientierteren Bibliotheken zu finden ist.

YOLO26 profitiert von:

Codebeispiel: YOLO26 ausführen

from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Anwendungsfälle

Wann DAMO-YOLO wählen

  • Forschungsanwendungen: Wenn Ihre Arbeit die Untersuchung von Neural Architecture Search (NAS) oder die Erforschung neuartiger Re-Parameterisierungstechniken umfasst, bietet DAMO-YOLO eine fruchtbare Grundlage für die akademische Forschung.
  • Spezifische Legacy-Einschränkungen: Wenn eine bestehende Pipeline streng auf dem spezifischen Ausgabeformat oder den Ankerzuweisungsstrategien von DAMO-YOLO basiert und ein Refactoring nicht praktikabel ist.

Wann YOLO26 wählen

  • Edge-Bereitstellung: Für Anwendungen auf Raspberry Pi, Mobilgeräten oder eingebetteten Systemen, wo die CPU-Inferenzgeschwindigkeit und ein geringer Speicherbedarf entscheidend sind.
  • Echtzeitsysteme: Die NMS-freie Natur macht YOLO26 ideal für Anforderungen an extrem niedrige Latenzzeiten in der Robotik oder beim autonomen Fahren.
  • Multi-Task-Projekte: Wenn Ihr Projekt das gleichzeitige Erkennen von Objekten, Segmentieren von Masken und Schätzen von Posen erfordert, deckt YOLO26 alle Bereiche mit einem einzigen Framework ab.
  • Kommerzielle Entwicklung: Die Stabilität, der Support und die einfache Exportierbarkeit in Formate wie CoreML und OpenVINO machen es zur überlegenen Wahl für Produktionssoftware.

Fazit

Beide Modelle stellen bedeutende Errungenschaften in der Computer Vision dar. DAMO-YOLO führte beeindruckende Konzepte in NAS und effizienter Feature-Fusion ein. YOLO26 verfeinert jedoch den Stand der Technik, indem es sich auf Praktikabilität der Bereitstellung, Trainingsstabilität und Recheneffizienz konzentriert. Mit seinem End-to-End NMS-freien Design, überlegener Parametereffizienz und der Unterstützung des robusten Ultralytics-Ökosystems zeichnet sich YOLO26 als die empfohlene Wahl für moderne Echtzeit-Computer-Vision-Anwendungen aus.

Für diejenigen, die andere Optionen innerhalb der Ultralytics-Familie erkunden möchten, bleiben Modelle wie YOLO11 und YOLOv8 leistungsstarke Alternativen für allgemeine Erkennungsaufgaben.


Kommentare