Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs. YOLO26#

Die Welt der Computer Vision entwickelt sich ständig weiter, angetrieben von der Notwendigkeit für Architekturen, die hohe Genauigkeit mit latenzarmer Inferenz in Einklang bringen. Dieser Vergleich befasst sich mit den technischen Feinheiten von DAMO-YOLO und Ultralytics YOLO26 und untersucht deren architektonische Innovationen, Trainingsmethoden und ideale Anwendungsbereiche.

Egal, ob du Vision-Modelle auf Edge-Geräten einsetzt oder Cloud-Pipelines mit hohem Durchsatz entwickelst – das Verständnis der Unterschiede zwischen diesen Modellen ist entscheidend, um fundierte architektonische Entscheidungen in der modernen KI-Entwicklung zu treffen.

Link to this sectionDAMO-YOLO: Neural Architecture Search in großem Maßstab#

DAMO-YOLO, entwickelt von der Alibaba Group, wurde am 23. November 2022 veröffentlicht. Das von Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun entworfene Modell konzentriert sich stark auf die automatisierte Entdeckung effizienter Architekturen mittels Neural Architecture Search (NAS).

Du kannst die ursprüngliche Forschung in ihrem ArXiv-Paper nachlesen oder den Quellcode im DAMO-YOLO GitHub-Repository erkunden.

Link to this sectionWichtige architektonische Merkmale#

DAMO-YOLO führt mehrere technische Innovationen ein, die darauf ausgelegt sind, die Grenzen der Echtzeit-Objekterkennung zu erweitern:

  • MAE-NAS Backbones: DAMO-YOLO verwendet eine evolutionäre Multi-Objektiv-Suche, um optimale Backbones zu finden. Dieser NAS-Ansatz entdeckt Architekturen, die die Erkennungsgenauigkeit präzise gegen die Inferenzgeschwindigkeit auf spezifischer Hardware abwägen.
  • Effizientes RepGFPN: Ein Heavy-Neck-Design, das die Feature-Fusion erheblich verbessert, was bei der Analyse komplexer Szenen, wie sie in der Luftbildaufnahme vorkommen, von großem Nutzen ist.
  • ZeroHead Design: Ein stark vereinfachter Detection-Head, der die rechnerische Komplexität der abschließenden Vorhersageschichten minimiert.
  • AlignedOTA und Distillation: DAMO-YOLO verwendet Aligned Optimal Transport Assignment (AlignedOTA), um Mehrdeutigkeiten bei der Label-Zuweisung aufzulösen, kombiniert mit einer robusten Strategie zur Wissensdestillation, um die Genauigkeit kleinerer Studenten-Modelle mithilfe größerer Lehrer-Netzwerke zu steigern.

Erfahre mehr über DAMO-YOLO

Link to this sectionDer Ultralytics-Vorteil: YOLO26#

Am 14. Januar 2026 von Glenn Jocher und Jing Qiu bei Ultralytics veröffentlicht, stellt YOLO26 den Höhepunkt zugänglicher Hochleistungs-Vision-KI dar. Aufbauend auf dem Erbe von YOLO11 und YOLOv10, wurde YOLO26 von Grund auf für Edge-First-Deployment, multimodale Vielseitigkeit und beispiellose Benutzerfreundlichkeit konzipiert.

Link to this sectionYOLO26 Innovationen#

Ultralytics YOLO26 führt mehrere bahnbrechende Funktionen ein, die es zur definitiven Wahl für moderne Computer-Vision-Anwendungen machen:

  • End-to-End NMS-Free Design: YOLO26 eliminiert nativ die Non-Maximum Suppression (NMS) Nachverarbeitung. Dieser ursprünglich in YOLOv10 entwickelte End-to-End-Ansatz vereinfacht Bereitstellungspipelines drastisch und sorgt für deterministische Inferenz mit niedriger Latenz.
  • Bis zu 43 % schnellere CPU-Inferenz: Architektonisch für Edge-Computing optimiert, liefert YOLO26 außergewöhnliche Geschwindigkeit auf Edge-Geräten und Standard-CPUs und macht es damit perfekt für batteriebetriebene IoT-Geräte.
  • MuSGD Optimizer: Inspiriert vom LLM-Training (wie bei Moonshot AIs Kimi K2), integriert YOLO26 eine Mischung aus SGD und Muon. Dies bringt die Stabilität des Large-Language-Model-Trainings in die Computer Vision, was zu einer schnelleren und zuverlässigeren Konvergenz führt.
  • DFL-Entfernung: Durch das Entfernen von Distribution Focal Loss wird der Modellgraph vereinfacht, was einen reibungslosen Export in Formate wie ONNX und TensorRT ermöglicht.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen bieten bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, eine kritische Funktion für Drohneneinsätze und Landwirtschaft.
Aufgabenspezifische Erweiterungen

YOLO26 enthält spezialisierte Verbesserungen für mehrere Modalitäten: ein Multi-Scale-Proto für Instance Segmentation, Residual Log-Likelihood Estimation (RLE) für Pose Estimation und fortschrittlichen Winkelverlust zur Minderung von Grenzproblemen bei der Oriented Bounding Box (OBB)-Erkennung.

Erfahre mehr über YOLO26

Link to this sectionLeistungsvergleich#

Bei der Bewertung dieser Modelle ist das Gleichgewicht zwischen Genauigkeit (mAP) und rechnerischer Effizienz (Geschwindigkeit/FLOPs) von größter Bedeutung. Die folgende Tabelle hebt hervor, wie diese Modelle unter Verwendung des Industriestandards COCO-Datensatz im Vergleich abschneiden.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050,8-7.1842.197.3
YOLO26n64040,938,91.72.45,4
YOLO26s64048,687.22,59,520,7
YOLO26m64053,1220.04.720,468,2
YOLO26l64055,0286.26.224,886,4
YOLO26x64057.5525.811.855,7193,9

Wie oben zu sehen ist, liefert YOLO26 durchweg eine höhere Genauigkeit bei deutlich weniger Parametern und FLOPs, was zu einer weitaus effizienteren Architektur für Training und Inferenz führt.

Link to this sectionTrainingseffizienz und Benutzerfreundlichkeit#

Link to this sectionDie Komplexität von DAMO-YOLO#

Während DAMO-YOLO eine wettbewerbsfähige Genauigkeit erreicht, ist seine Trainingsmethodik sehr komplex. Die Abhängigkeit von Neural Architecture Search (NAS) und starker Wissensdestillation bedeutet, dass das Training eines benutzerdefinierten Modells oft erhebliche GPU-Ressourcen und Fachwissen erfordert. Dieser mehrstufige Prozess – das Trainieren eines massiven Lehrer-Modells, um es in ein kleineres Studenten-Modell zu destillieren – kann agile Engineering-Teams ausbremsen, die schnell auf benutzerdefinierten Datensätzen iterieren möchten.

Link to this sectionDas optimierte Ultralytics-Erlebnis#

Im Gegensatz dazu ist Ultralytics YOLO26 auf "Zero-to-Hero"-Benutzerfreundlichkeit ausgelegt. Der gesamte Lebenszyklus von Training, Validierung und Bereitstellung ist hinter einer sauberen, einheitlichen Python-API und CLI abstrahiert. Darüber hinaus benötigt YOLO26 während des Trainings deutlich weniger CUDA-Speicher im Vergleich zu Transformer-basierten Modellen wie RT-DETR, was es Forschern ermöglicht, hochmoderne Modelle auf Hardware für Endverbraucher zu trainieren.

Hier ist ein Beispiel dafür, wie einfach es ist, ein YOLO26-Modell mit dem Ultralytics SDK zu trainieren, auszuwerten und zu exportieren:

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the model's performance on the validation set
metrics = model.val()

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export the model to ONNX format for deployment
model.export(format="onnx")

Für Teams, die eine No-Code-Umgebung bevorzugen, bietet die Ultralytics Platform eine intuitive Oberfläche für Datensatz-Annotation, Cloud-Training und nahtlose Bereitstellung.

Link to this sectionAnwendungen in der Praxis#

Die Wahl der richtigen Architektur hängt stark von der Zielumgebung und den Hardwarebeschränkungen ab.

Link to this sectionIndustrielle Qualitätskontrolle#

Für die Hochgeschwindigkeits-Fertigungsautomatisierung kann DAMO-YOLO auf dedizierter GPU-Hardware gut funktionieren. Dennoch ist YOLO26 die bevorzugte Wahl für moderne Montagelinien. Sein End-to-End NMS-Free Design garantiert deterministische, jitterfreie Latenz, was bei der Synchronisierung visueller Daten mit Roboter-Aktuatoren in Echtzeit unerlässlich ist.

Link to this sectionEdge-KI und Mobilgeräte#

Der Einsatz von Computer Vision auf batteriebetriebenen Geräten erfordert extreme Effizienz. Während sich DAMO-YOLO auf spezifische RepGFPN-Necks stützt, ist YOLO26n (Nano) speziell für Edge-Computing optimiert. Seine DFL-Entfernung und die 43 % schnellere CPU-Inferenz machen es zur ultimativen Lösung für intelligente Kameras, mobile Anwendungen und Sicherheitsalarmsysteme.

Link to this sectionMultimodale Projektanforderungen#

Wenn ein Projekt mehr als nur Objekterkennung erfordert – etwa die Analyse von Spielermechaniken im Sport mithilfe von Pose Estimation oder die Extraktion präziser Pixelgrenzen durch Instance Segmentation –, bietet YOLO26 native Unterstützung für all diese Aufgaben innerhalb einer einzigen, vereinheitlichten Codebasis. DAMO-YOLO ist strikt auf Bounding-Box-Erkennung beschränkt.

Link to this sectionAnwendungsfälle und Empfehlungen#

Die Wahl zwischen DAMO-YOLO und YOLO26 hängt von deinen spezifischen Projektanforderungen, Bereitstellungseinschränkungen und Ökosystem-Präferenzen ab.

Link to this sectionWann du dich für DAMO-YOLO entscheiden solltest#

DAMO-YOLO ist eine gute Wahl für:

  • Hochdurchsatz-Videoanalytik: Verarbeitung von Video-Streams mit hoher FPS auf fester NVIDIA-GPU-Infrastruktur, bei der der Durchsatz bei Batch-Größe 1 die primäre Metrik ist.
  • Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenzbeschränkungen auf dedizierter Hardware, wie z. B. Qualitätsprüfung in Echtzeit an Montagelinien.
  • Forschung zur Neural Architecture Search: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten, reparametrisierten Backbones auf die Erkennungsleistung.

Link to this sectionWann man YOLO26 wählen sollte#

YOLO26 wird empfohlen für:

  • NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
  • Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.

Link to this sectionFazit#

Beide Architekturen stellen bedeutende Errungenschaften im Bereich des Deep Learning dar. DAMO-YOLO bietet einen faszinierenden Einblick in die Leistungsfähigkeit von Neural Architecture Search und Destillationstechniken, die auf spezifische Hardware-Benchmarks zugeschnitten sind.

Für Entwickler, Forscher und Unternehmen, die jedoch eine produktionsreife Lösung suchen, sticht Ultralytics YOLO26 als die überlegene Wahl hervor. Seine Kombination aus End-to-End NMS-freiem Design, massiven CPU-Inferenzgewinnen, multimodaler Vielseitigkeit und der Integration in das gut gewartete Ultralytics-Ökosystem macht es zum robustesten und praktischsten Werkzeug, um heutige computergestützte Vision-Herausforderungen in der realen Welt zu lösen.

Für Nutzer, die daran interessiert sind, andere Modelle innerhalb des Ultralytics-Ökosystems zu erkunden, ist eine umfassende Dokumentation für YOLO11, YOLOv8 und das Transformer-basierte RT-DETR verfügbar.

Mitwirkende

Kommentare