Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs. DAMO-YOLO#

Die rasante Entwicklung der Computer Vision hat eine Reihe leistungsstarker Architekturen hervorgebracht, die auf unterschiedliche Einsatzbeschränkungen und Genauigkeitsanforderungen zugeschnitten sind. Zwei bemerkenswerte Vertreter in diesem Bereich sind YOLOv9, das für seinen robusten Umgang mit Informationsengpässen bekannt ist, und DAMO-YOLO, das einen starken Fokus auf Neural Architecture Search (NAS) und effiziente Feature Pyramids legt.

Dieser Leitfaden bietet einen tiefgehenden, technischen Vergleich von YOLOv9 und DAMO-YOLO und beleuchtet deren architektonische Unterschiede, Trainingsmethoden und ideale Einsatzszenarien. Wir untersuchen außerdem, wie das Ultralytics ecosystem einen nahtlosen Weg von der Entwicklung bis zur Produktion bietet und warum moderne Modelle wie YOLO26 zum empfohlenen Standard für neue Projekte geworden sind.

Link to this sectionArchitektonischer Deep Dive#

Das Verständnis der Kernmechanismen hinter jedem Modell verdeutlicht, warum sie bei verschiedenen Metriken unterschiedlich abschneiden.

Link to this sectionYOLOv9: Programmierbare Gradienteninformation#

YOLOv9 wurde entwickelt, um dem Informationsverlust entgegenzuwirken, der beim Datenfluss durch tiefe neuronale Netze auftritt.

Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 21. Februar 2024
Links: Arxiv, GitHub, Docs

Erfahre mehr über YOLOv9

YOLOv9 führt Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) ein. PGI stellt sicher, dass wichtige räumliche und semantische Informationen während des Feed-Forward-Prozesses erhalten bleiben, wodurch eine Verschlechterung der für Gewichts-Updates genutzten Gradienten verhindert wird. GELAN ergänzt dies durch die Maximierung der Parametereffizienz, was es dem Modell ermöglicht, eine State-of-the-Art mean Average Precision (mAP) mit weniger FLOPs als viele konventionelle CNNs zu erreichen.

Link to this sectionDAMO-YOLO: NAS-gesteuerte Effizienz#

Das von der Alibaba Group entwickelte DAMO-YOLO verfolgt einen anderen Ansatz und nutzt automatisierte Architektursuche, um das optimale Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu finden.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 23. November 2022
Links: Arxiv, GitHub

Erfahre mehr über DAMO-YOLO

DAMO-YOLO stützt sich auf ein MAE-NAS-Backbone (Masked Autoencoders for Neural Architecture Search), um automatisch effiziente Netzwerkstrukturen zu generieren. Es nutzt ein RepGFPN (Reparameterized Generalized Feature Pyramid Network) für eine robuste Merkmalsfusion und ein "ZeroHead"-Design, um die Rechenlast des Detection-Heads zu minimieren. Zusätzlich integriert es AlignedOTA für die Label-Zuweisung sowie Knowledge Distillation, um die Leistung kleinerer Varianten zu steigern.

Die Rolle von NAS in der Computer Vision

Neural Architecture Search (NAS) automatisiert den Entwurf künstlicher neuronaler Netze. Während dadurch hoch effiziente Modelle wie DAMO-YOLO entstehen können, erfordert dies oft enorme Rechenressourcen zur Durchsuchung des Architekturraums, was im Gegensatz zur deterministischeren Designphilosophie von Modellen wie YOLOv9 steht.

Link to this sectionVergleich von Leistung und Metriken#

Bei der Auswahl eines object detection-Modells ist das Abwägen von Genauigkeit, Geschwindigkeit und Rechenaufwand entscheidend.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050,8-7.1842.197.3

Link to this sectionAnalyse#

  • Genauigkeit vs. Parameter: YOLOv9 zeigt im Allgemeinen ein überlegenes Verhältnis von Parametern zu Genauigkeit. So erreicht YOLOv9c 53,0% mAP mit 25,3M Parametern, während DAMO-YOLOl 50,8% mAP erreicht, aber deutlich mehr Parameter (42,1M) benötigt.
  • Inferenzgeschwindigkeit: Die Architektur von DAMO-YOLO bietet wettbewerbsfähige TensorRT-Inferenzgeschwindigkeiten auf T4-GPUs und übertrifft YOLOv9 in den mittleren Stufen leicht. Die Effizienz von YOLOv9 bei FLOPs und der Parameteranzahl führt jedoch zu einer außergewöhnlichen GPU memory efficiency.
  • Speicheranforderungen: Ultralytics YOLO-Modelle, einschließlich YOLOv9, weisen im Vergleich zu komplexen NAS-generierten Modellen oder schweren Transformer-Architekturen typischerweise einen geringeren Speicherverbrauch während des Trainings und der Inferenz auf, wodurch sie sehr zugänglich für den Einsatz auf Edge-Hardware mit begrenzten Ressourcen sind.

Link to this sectionDer Vorteil des Ultralytics-Ökosystems#

Während theoretische Metriken wichtig sind, bestimmt die praktische Umsetzung maßgeblich den Erfolg eines Projekts. Hier übertreffen die Ultralytics Platform und ihr umfassendes Software-Ökosystem eigenständige Repositories wie DAMO-YOLO.

Link to this sectionBenutzerfreundlichkeit und Trainingseffizienz#

Das Training eines benutzerdefinierten YOLOv9-Modells erfordert nur minimalen Boilerplate-Code. Die Ultralytics Python API abstrahiert komplexe Prozesse wie data augmentation, verteiltes Training und Hardware-Optimierung.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Umgekehrt erfordert die Verwendung von DAMO-YOLO oft das Navigieren durch starre Konfigurationsdateien und komplexe Abhängigkeitsketten, die spezifisch für seine eigene Trainings-Pipeline sind, was zu einer steileren Lernkurve führt.

Link to this sectionVielseitigkeit bei Aufgaben#

Ein Markenzeichen von Ultralytics-Modellen ist ihre inhärente Vielseitigkeit. Über die Standard-BBox-Erkennung hinaus unterstützt das Ultralytics-Framework nahtlos Aufgaben wie Instance Segmentation, Pose Estimation, Image Classification und Oriented Bounding Box (OBB)-Erkennung. DAMO-YOLO ist strikt auf 2D-Objekterkennung optimiert und erfordert erheblichen technischen Aufwand, um an andere visuelle Paradigmen angepasst zu werden.

Export auf Edge-Geräte

Ultralytics vereinfacht die Deployment-Pipeline durch One-Click-model export in Formate wie TensorRT, OpenVINO und CoreML, was maximale Leistung unabhängig von deiner Zielhardware sicherstellt.

Link to this sectionAnwendungsfälle und Empfehlungen#

Die Entscheidung zwischen YOLOv9 und DAMO-YOLO hängt von deinen spezifischen Projektanforderungen, Einsatzbeschränkungen und Vorlieben bezüglich des Ökosystems ab.

Link to this sectionWann du dich für YOLOv9 entscheiden solltest#

YOLOv9 ist eine starke Wahl für:

  • Informationsengpass-Forschung: Akademische Projekte, die Programmable Gradient Information (PGI) und Generalized Efficient Layer Aggregation Network (GELAN)-Architekturen untersuchen.
  • Studien zur Optimierung des Gradientenflusses: Forschung, die sich auf das Verständnis und die Minderung von Informationsverlusten in tiefen Netzwerkschichten während des Trainings konzentriert.
  • Benchmarking hochgenauer Erkennung: Szenarien, in denen die starke COCO-Benchmark-Leistung von YOLOv9 als Referenzpunkt für architektonische Vergleiche benötigt wird.

Link to this sectionWann du dich für DAMO-YOLO entscheiden solltest#

DAMO-YOLO wird empfohlen für:

  • Hochdurchsatz-Videoanalytik: Verarbeitung von Video-Streams mit hoher FPS auf fester NVIDIA-GPU-Infrastruktur, bei der der Durchsatz bei Batch-Größe 1 die primäre Metrik ist.
  • Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenzbeschränkungen auf dedizierter Hardware, wie z. B. Qualitätsprüfung in Echtzeit an Montagelinien.
  • Forschung zur Neural Architecture Search: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten, reparametrisierten Backbones auf die Erkennungsleistung.

Link to this sectionWann du Ultralytics wählen solltest (YOLO26)#

Für die meisten neuen Projekte bietet Ultralytics YOLO26 die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
  • Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.

Link to this sectionDie Zukunft: Umstieg auf YOLO26#

Während YOLOv9 und DAMO-YOLO wichtige historische Meilensteine darstellen, hat sich die moderne Computer Vision in Richtung nativer End-to-End-Architekturen bewegt. Für jede Neuentwicklung ist YOLO26 der empfohlene Standard.

YOLO26 wurde 2026 veröffentlicht und baut auf den Erfolgen seiner Vorgänger auf, wobei es einen Sprung sowohl bei der Genauigkeit als auch bei der Einfachheit der Bereitstellung bietet.

Link to this sectionWichtige YOLO26-Innovationen#

  • End-to-End NMS-freies Design: YOLO26 eliminiert die Non-Maximum Suppression (NMS)-Nachverarbeitung vollständig. Dies schafft eine optimierte Deployment-Pipeline, die nativ End-to-End ist – ein Durchbruch, der erstmals in YOLOv10 eingeführt wurde.
  • DFL-Entfernung: Distribution Focal Loss wurde für einen vereinfachten Export und eine bessere Kompatibilität mit Edge-/Low-Power-Geräten entfernt.
  • Bis zu 43% schnellere CPU-Inferenz: Durch das Entfernen komplexer Nachverarbeitung und die Optimierung der Kernfaltungen ist YOLO26 einzigartig für Edge-Computing-Szenarien ohne dedizierte GPUs geeignet.
  • MuSGD Optimizer: Inspiriert von Innovationen beim Training von LLMs nutzt YOLO26 eine Mischung aus SGD und Muon (MuSGD), um stabilere Trainingsläufe und merklich schnellere Konvergenzzeiten zu garantieren.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen bieten bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, was YOLO26 ideal für Luftaufnahmen aus großer Höhe und IoT-Geräte macht.

Wenn du aktuell YOLO11 oder YOLOv8 für dein nächstes Projekt prüfst, stellt ein Upgrade auf YOLO26 sicher, dass du das am stärksten optimierte, moderne Vision-AI-Framework verwendest, das heute verfügbar ist.

Link to this sectionZusammenfassung#

Die Wahl des richtigen Modells hängt von deinen spezifischen betrieblichen Einschränkungen ab:

  • DAMO-YOLO bietet einen faszinierenden Einblick in die NAS-gesteuerte Optimierung und liefert konkurrenzfähige Geschwindigkeiten für sehr spezifische Hardwareprofile, bei denen seine RepGFPN-Architektur glänzt.
  • YOLOv9 ist eine exzellente Wahl für Forscher, die sich auf die Erhaltung feinkörniger visueller Details konzentrieren und dabei die PGI-Architektur nutzen, um Informationsverluste in tiefen Netzwerken zu verhindern.
  • Ultralytics YOLO26 ist die definitive Wahl für moderne Unternehmens- und Forschungsanwendungen. Die beispiellose Benutzerfreundlichkeit, die NMS-freie Architektur und die hochmodernen MuSGD-Trainingsoptimierungen machen es zum zuverlässigsten, genauesten und am einfachsten bereitzustellenden Modell in der Computer-Vision-Landschaft.
Mitwirkende

Kommentare