Zum Inhalt springen

DAMO-YOLO vs. YOLO26: Analyse von Echtzeit-Objekterkennungsarchitekturen der nächsten Generation

Die Landschaft der Computervision entwickelt sich ständig weiter, angetrieben durch den Bedarf an Architekturen, die eine hohe Genauigkeit mit einer Inferenz mit geringer Latenz in Einklang bringen. Dieser Vergleich befasst sich mit den technischen Feinheiten von YOLO und Ultralytics und untersucht deren architektonische Innovationen, Trainingsmethoden und ideale Anwendungsfälle.

Unabhängig davon, ob Sie Bildverarbeitungsmodelle auf Edge-Geräten einsetzen oder Cloud-Pipelines mit hohem Durchsatz aufbauen, ist es für fundierte Architekturentscheidungen in der modernen KI-Entwicklung entscheidend, die Nuancen zwischen diesen Modellen zu verstehen.

YOLO: Neuronale Architektursuche in großem Maßstab

DAMO-YOLO, entwickelt von der Alibaba Group, wurde am 23. November 2022 veröffentlicht. Entworfen von Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun, konzentriert sich das Modell stark auf die automatisierte Entdeckung effizienter Architekturen mittels Neural Architecture Search (NAS).

Sie können die ursprüngliche Forschungsarbeit in ihrem ArXiv-Artikel nachlesen oder den Quellcode im YOLO -Repository einsehen.

Wesentliche Architekturmerkmale

DAMO-YOLO führt mehrere technische Innovationen ein, die darauf abzielen, die Grenzen der Echtzeit-Objekterkennung zu erweitern:

  • MAE-NAS-Backbones: DAMO-YOLO nutzt eine multiobjektive evolutionäre Suche, um optimale Backbones zu finden. Dieser NAS-Ansatz entdeckt Architekturen, die die Erkennungsgenauigkeit strikt gegen die Inferenzgeschwindigkeit auf spezifischer Hardware abwägen.
  • Effizientes RepGFPN: Ein Heavy-Neck-Design, das die Merkmalsfusion erheblich verbessert, was bei der Analyse komplexer Szenen, wie sie in Luftbildaufnahmen vorkommen, äußerst vorteilhaft ist.
  • ZeroHead Design: Ein stark vereinfachter Detektionskopf, der die rechnerische Komplexität der finalen Vorhersageschichten minimiert.
  • AlignedOTA und Destillation: DAMO-YOLO verwendet Aligned Optimal Transport Assignment (AlignedOTA), um Ambiguitäten bei der Label-Zuweisung zu lösen, gepaart mit einer robusten Strategie zur Verbesserung der Wissensdestillation, um die Genauigkeit kleinerer Schülermodelle mithilfe größerer Lehrernetzwerke zu steigern.

Erfahren Sie mehr über DAMO-YOLO

Ultralytics von Ultralytics : YOLO26

Veröffentlicht am 14. Januar 2026 von Glenn Jocher und Jing Qiu bei Ultralyticsveröffentlicht, stellt YOLO26 den Gipfel der zugänglichen, leistungsstarken Bildverarbeitungs-KI dar. Aufbauend auf dem Erbe von YOLO11 und YOLOv10wurde YOLO26 von Grund auf für den Edge-First-Einsatz, multimodale Vielseitigkeit und beispiellose Benutzerfreundlichkeit entwickelt.

YOLO26 Innovationen

Ultralytics bietet mehrere bahnbrechende Funktionen, die es zur ersten Wahl für moderne Computer-Vision-Anwendungen machen:

  • End-to-End NMS-freies Design: YOLO26 eliminiert nativ die Non-Maximum Suppression (NMS)-Nachbearbeitung. Ursprünglich in YOLOv10 entwickelt, vereinfacht dieser End-to-End-Ansatz Bereitstellungspipelines drastisch und gewährleistet eine deterministische Inferenz mit geringer Latenz.
  • Bis zu 43 % schnellere CPU-Inferenz: Architektonisch für Edge Computing optimiert, liefert YOLO26 außergewöhnliche Geschwindigkeit auf Edge-Geräten und Standard-CPUs, was es perfekt für batteriebetriebene IoT-Geräte macht.
  • MuSGD-Optimierer: Inspiriert vom LLM-Training (wie Moonshot AIs Kimi K2) integriert YOLO26 einen Hybrid aus SGD und Muon. Dies bringt die Trainingsstabilität großer Sprachmodelle in die Computer Vision, was zu einer schnelleren und zuverlässigeren Konvergenz führt.
  • DFL-Entfernung: Durch die Entfernung von Distribution Focal Loss wird der Modellgraph vereinfacht, was einen reibungslosen Export in Formate wie ONNX und TensorRT ermöglicht.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen bieten bemerkenswerte Verbesserungen bei der Kleinstobjekterkennung, ein entscheidendes Merkmal für Drohnenoperationen und Landwirtschaft.

Aufgabenspezifische Verbesserungen

YOLO26 umfasst spezielle Verbesserungen für mehrere Modalitäten: einen multiskaligen Proto für die Instanzsegmentierung, Residual Log-Likelihood Estimation (RLE) für die Posenschätzung und einen erweiterten Winkelverlust zur Minderung von Grenzproblemen bei der Erkennung von Oriented Bounding Boxes (OBB).

Erfahren Sie mehr über YOLO26

Leistungsvergleich

Bei der Bewertung dieser Modelle ist das Gleichgewicht zwischen Genauigkeit (mAP) und Recheneffizienz (Geschwindigkeit/FLOPs) von entscheidender Bedeutung. Die folgende Tabelle zeigt einen Vergleich dieser Modelle unter Verwendung des branchenüblichen COCO .

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Wie oben gezeigt, liefert YOLO26 durchweg eine höhere Genauigkeit mit deutlich weniger Parametern und FLOPs, was zu einer wesentlich effizienteren Architektur für Training und Inferenz führt.

Trainingseffizienz und Benutzerfreundlichkeit

Die Komplexität vonYOLO

YOLO zwar eine wettbewerbsfähige Genauigkeit, seine Trainingsmethodik ist jedoch äußerst komplex. Die Abhängigkeit von Neural Architecture Search (NAS) und umfangreicher Wissensdestillation bedeutet, dass das Training eines benutzerdefinierten Modells oft erhebliche GPU und Spezialwissen erfordert. Dieser mehrstufige Prozess – das Training eines umfangreichen Lehrer-Modells, um es in ein kleineres Schüler-Modell zu destillieren – kann agile Engineering-Teams, die versuchen, schnell auf benutzerdefinierten Datensätzen zu iterieren, behindern.

Das optimierte Ultralytics

Im Gegensatz dazu ist Ultralytics YOLO26 auf eine „Zero-to-Hero“-Benutzerfreundlichkeit ausgelegt. Der gesamte Lebenszyklus von Training, Validierung und Bereitstellung ist hinter einer sauberen, vereinheitlichten Python API und CLI abstrahiert. Darüber hinaus benötigt YOLO26 während des Trainings deutlich weniger CUDA-Speicher im Vergleich zu transformatorbasierten Modellen wie RT-DETR, was es Forschern ermöglicht, hochmoderne Modelle auf handelsüblicher Hardware zu trainieren.

Hier ist ein Beispiel dafür, wie einfach es ist, ein YOLO26-Modell mit dem Ultralytics zu trainieren, zu bewerten und zu exportieren:

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the model's performance on the validation set
metrics = model.val()

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export the model to ONNX format for deployment
model.export(format="onnx")

Für Teams, die eine No-Code-Umgebung bevorzugen, bietet Ultralytics eine intuitive Benutzeroberfläche für die Annotation von Datensätzen, Cloud-Training und nahtlose Bereitstellung.

Anwendungen in der realen Welt

Die Wahl der richtigen Architektur hängt stark von der Zielbereitstellungsumgebung und den Hardwarebeschränkungen ab.

Industrielle Qualitätskontrolle

Für die automatisierte Hochgeschwindigkeitsfertigung eignet sich YOLO gut für den Einsatz auf dedizierter GPU . Für moderne Fertigungsstraßen ist jedoch YOLO26 die bevorzugte Wahl. Sein End-to-End-Design NMS gewährleistet eine deterministische, jitterfreie Latenz, was für die Echtzeitsynchronisation von Bilddaten mit Roboteraktuatoren unerlässlich ist.

Edge-KI und mobile Geräte

Die Bereitstellung von Computer Vision auf batteriebetriebenen Geräten erfordert extreme Effizienz. Während DAMO-YOLO auf spezifische RepGFPN-Necks setzt, ist YOLO26n (Nano) speziell für Edge Computing optimiert. Die Entfernung von DFL und die 43% schnellere CPU-Inferenz machen es zur ultimativen Lösung für Smart Cameras, mobile Anwendungen und Sicherheitsalarmsysteme.

Anforderungen an multimodale Projekte

Wenn ein Projekt mehr als nur die Objekterkennung erfordert – beispielsweise die Analyse der Spielmechanik im Sport mithilfe von Posenschätzung oder die Extraktion exakter Pixelgrenzen mithilfe von Instanzsegmentierung –, bietetYOLO26 native Unterstützung für all diese Aufgaben innerhalb einer einzigen, einheitlichen Codebasis.YOLO streng auf die Erkennung von Begrenzungsrahmen beschränkt.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen DAMO-YOLO und YOLO26 hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann DAMO-YOLO wählen?

DAMO-YOLO ist eine gute Wahl für:

  • Hochdurchsatz-Videoanalyse: Verarbeitung von Hoch-FPS-Videoströmen auf fester NVIDIA-GPU-Infrastruktur, wo der Batch-1-Durchsatz die primäre Metrik ist.
  • Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenz-Beschränkungen auf dedizierter Hardware, wie z.B. Echtzeit-Qualitätsinspektion an Montagelinien.
  • Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten reparametrisierten Backbones auf die Detektionsleistung.

Wann man YOLO26 wählen sollte

YOLO26 wird empfohlen für:

  • NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
  • Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Fazit

Beide Architekturen stellen bedeutende Errungenschaften im Bereich des Deep Learning dar. DAMO-YOLO bietet einen faszinierenden Einblick in die Leistungsfähigkeit von Neural Architecture Search und Destillationstechniken, die auf spezifische Hardware-Benchmarks zugeschnitten sind.

Für Entwickler, Forscher und Unternehmen, die nach einer produktionsreifen Lösung suchen, ist Ultralytics jedoch die beste Wahl. Die Kombination aus einem durchgängigen NMS Design, enormen CPU , multimodaler Vielseitigkeit und der Integration in das gut gepflegte Ultralytics macht es zum robustesten und praktischsten Werkzeug für die Lösung realer Herausforderungen im Bereich Computer Vision.

Für Nutzer, die sich für andere Modelle innerhalb des Ultralytics interessieren, steht eine umfassende Dokumentation zur Verfügung für YOLO11, YOLOv8und das transformatorbasierte Modell RT-DETR.


Kommentare