DAMO-YOLO vs. YOLOv9: Ein technischer Vergleich

In der sich rasant entwickelnden Welt der Computer Vision ist die Auswahl des optimalen Objekterkennungsmodells eine zentrale Entscheidung, die sich auf alles auswirkt, von der Systemlatenz bis zur Erkennungsgenauigkeit. Dieser umfassende Leitfaden bietet einen technischen Vergleich zwischen YOLO, einem Hochgeschwindigkeitsdetektor der Alibaba Group, und YOLOv9einer Architektur, die auf Informationserhalt und Effizienz ausgerichtet ist. Wir analysieren ihre architektonischen Innovationen, Leistungsmetriken und idealen Anwendungsfälle, um Entwicklern und Forschern zu helfen, eine fundierte Entscheidung zu treffen.

Obwohl beide Modelle erhebliche Verbesserungen gegenüber ihren Vorgängern bieten, liefert YOLOv9, insbesondere wenn es innerhalb des Ultralytics-Ökosystems genutzt wird, eine überzeugende Mischung aus modernster Genauigkeit, entwicklerfreundlichen Tools und vielseitigen Bereitstellungsoptionen.

DAMO-YOLO: Geschwindigkeitsorientiertes Design mittels Neuronaler Architektursuche

DAMO-YOLO ist ein von Alibaba entwickeltes Objekterkennungs-Framework, das nach einer „Once-for-All“-Methodik konzipiert wurde. Es priorisiert geringe Latenz und hohen Durchsatz, was es zu einem starken Kandidaten für industrielle Anwendungen macht, die streng definierte Geschwindigkeitsbeschränkungen auf spezifischer Hardware erfordern.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, und Xiuyu Sun
Organisation:Alibaba Group
Datum: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHub:https://github.com/tinyvision/DAMO-YOLO

Architektonische Innovationen

DAMO-YOLO zeichnet sich durch automatisierte Designprozesse und effiziente Komponenten aus:

Neural Architecture Search (NAS): Anstatt Backbones manuell zu entwerfen, nutzt DAMO-YOLO Neural Architecture Search (NAS), um effiziente Strukturen (TinyNAS) zu entdecken, die auf unterschiedliche Rechenbudgets zugeschnitten sind.
RepGFPN Neck: Es führt eine effiziente Variante des Generalized Feature Pyramid Network (GFPN) ein, genannt RepGFPN. Diese Komponente optimiert die Merkmalsfusion und unterstützt die Re-Parametrisierung, was schnellere Inferenzgeschwindigkeiten ermöglicht.
ZeroHead: Das Modell verwendet einen leichtgewichtigen „ZeroHead“-detection head, der den Rechenaufwand reduziert, der typischerweise mit komplexen detection heads verbunden ist.
AlignedOTA: Um die Trainingsstabilität und -genauigkeit zu verbessern, wird AlignedOTA verwendet, eine Strategie zur Zuweisung von Labels, die Fehlausrichtungsprobleme zwischen Klassifizierungs- und Regressionsaufgaben behebt.

Stärken und Einschränkungen

Die Hauptstärke von DAMO-YOLO liegt in seiner Inferenzgeschwindigkeit. Die Architektur ist stark auf hohen GPU-Durchsatz optimiert, was sie für Videoanalyse-Pipelines geeignet macht, bei denen das Verarbeitungsvolumen entscheidend ist. Zusätzlich verbessert der Einsatz von Distillation die Leistung seiner kleineren Modelle.

Allerdings steht DAMO-YOLO vor Herausforderungen hinsichtlich der Ökosystemreife. Im Vergleich zu den robusten Tools, die für Ultralytics-Modelle verfügbar sind, finden Benutzer möglicherweise weniger Ressourcen für Bereitstellung, Formatkonvertierung und Community-Support. Seine Aufgabenvielfalt ist auch im Allgemeinen auf die Objekterkennung beschränkt, während moderne Frameworks oft Segmentierung und Pose-Schätzung nativ unterstützen.

Erfahren Sie mehr über DAMO-YOLO

YOLOv9: Programmierbare Gradienten für maximale Effizienz

YOLOv9 stellt einen Paradigmenwechsel in der Echtzeit-Objektdetektion dar, indem es das grundlegende Problem des Informationsverlusts in tiefen neuronalen Netzen angeht. Indem sichergestellt wird, dass kritische Daten über die gesamte Netzwerktiefe erhalten bleiben, erreicht YOLOv9 eine überragende Genauigkeit bei bemerkenswerter Parametereffizienz.

Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Documentation:https://docs.ultralytics.com/models/yolov9/

Kernarchitektur: PGI und GELAN

YOLOv9 führt zwei bahnbrechende Technologien ein, die es auszeichnen:

Programmierbare Gradienteninformation (PGI): Tiefe Netzwerke leiden oft unter einem Informationsengpass, bei dem Eingabedaten verloren gehen, wenn sie Schichten durchlaufen. PGI bietet einen unterstützenden Überwachungszweig, der zuverlässige Gradienten generiert und sicherstellt, dass tiefe Schichten vollständige Informationen für genaue Gewichtsaktualisierungen erhalten.
Generalisiertes Effizientes Schichtaggregationsnetzwerk (GELAN): Diese neuartige Architektur kombiniert die Stärken von CSPNet und ELAN. GELAN wurde entwickelt, um die Parameternutzung zu maximieren und ein Modell zu liefern, das sowohl leichtgewichtig als auch unglaublich leistungsstark ist.

Warum PGI wichtig ist

In traditionellen Deep-Learning-Modellen fehlt der Verlustfunktion in der Ausgabeschicht oft ausreichende Informationen, um die Aktualisierungen flacher Schichten effektiv zu steuern. PGI fungiert als Brücke, bewahrt Eingabeinformationen und stellt sicher, dass das gesamte Netzwerk robuste Merkmale lernt, was zu einer besseren Konvergenz und höheren Genauigkeit führt.

Der Ultralytics Vorteil

Bei der Verwendung von YOLOv9 innerhalb des Ultralytics-Ökosystems erhalten Entwickler erhebliche Vorteile gegenüber eigenständigen Implementierungen:

Benutzerfreundlichkeit: Die Ultralytics Python API und CLI abstrahieren komplexe Trainingspipelines in einfache Befehle.
Trainingseffizienz: Ultralytics-Methoden gewährleisten eine optimale Ressourcennutzung. YOLOv9 benötigt während des Trainings typischerweise weniger CUDA memory im Vergleich zu Transformer-basierten Detektoren, wodurch es auf einer breiteren Palette von Hardware zugänglich ist.
Vielseitigkeit: Während sich das Kernpapier zu YOLOv9 auf die detect konzentriert, ermöglicht das Ultralytics-Framework die Erweiterung dieser Architekturen auf andere Aufgaben und gewährleistet einen nahtlosen Export in Formate wie ONNX, TensorRT und OpenVINO.

Erfahren Sie mehr über YOLOv9

Leistungsanalyse: Genauigkeit vs. Effizienz

Der folgende Vergleich hebt die Kompromisse zwischen DAMO-YOLO und YOLOv9 hervor. Während DAMO-YOLO auf spezifischer Hardware wettbewerbsfähige Geschwindigkeiten bietet, liefert YOLOv9 durchweg eine höhere Mean Average Precision (mAP) mit weniger Parametern, was eine überlegene architektonische Effizienz demonstriert.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Wichtige Erkenntnisse:

Parameter-Effizienz: YOLOv9s erreicht einen höheren mAP (46,8) als DAMO-YOLOs (46,0), während es weniger als die Hälfte der Parameter verwendet (7,1 Mio. vs. 16,3 Mio.). Dies macht YOLOv9 deutlich speicherfreundlicher und einfacher über Funk für Edge AI-Geräte zu aktualisieren.
Höchste Genauigkeit: Die größten YOLOv9-Varianten (c und e) verschieben die Genauigkeitsgrenzen weit über die Limits von DAMO-YOLO hinaus und erreichen 55,6 mAP.
Geschwindigkeit: Während DAMO-YOLO einen leichten Vorteil bei der rohen TensorRT-Latenz für mittlere Modelle aufweist, ist YOLOv9t extrem schnell (2,3 ms), was es ideal für Echtzeit-Mobilanwendungen macht.

Trainingsmethoden und Benutzerfreundlichkeit

Das Trainingserlebnis unterscheidet sich erheblich zwischen den beiden Modellen. Die Abhängigkeit von DAMO-YOLO von NAS impliziert eine komplexe Suchphase zur Ableitung der Architektur oder die Verwendung von vorab gesuchten Backbones. Sein „Once-for-all“-Ansatz kann rechenintensiv sein, wenn eine Anpassung der Backbone-Struktur erforderlich ist.

Im Gegensatz dazu bietet YOLOv9, unterstützt von Ultralytics, einen optimierten Trainingsmodus. Benutzer können Modelle auf benutzerdefinierten Datensätzen wie Open Images V7 oder spezialisierten Sammlungen mit minimaler Konfiguration feinabstimmen. Die Integration mit dem Ultralytics HUB ermöglicht cloudbasiertes Training, Visualisierung und One-Click-Bereitstellung, wodurch der Zugang zu fortschrittlicher KI demokratisiert wird, ohne tiefgreifendes Fachwissen in NAS oder Hyperparameter-Tuning zu erfordern.

Code-Beispiel: YOLOv9 trainieren

Die Implementierung von YOLOv9 ist mit dem Ultralytics Python-Paket unkompliziert.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Ideale Anwendungsfälle

Wann DAMO-YOLO wählen?

Videoverarbeitung im großen Maßstab: Wenn Sie Tausende von Videostreams auf spezifischen Server-GPUs verarbeiten, wo jede Millisekunde Latenz zu erheblichen Einsparungen bei den Infrastrukturkosten führt, könnte die Optimierung von DAMO-YOLO für hohen Durchsatz vorteilhaft sein.
Feste Hardware-Beschränkungen: Für Szenarien, in denen die Hardware bekannt und statisch ist, können die NAS-abgeleiteten Architekturen so ausgewählt werden, dass sie das verfügbare Rechenbudget perfekt ausfüllen.

Wann YOLOv9 wählen?

Mehrzweck-Computer Vision: Für die Mehrheit der Entwickler, die in den Bereichen Robotik, Sicherheit oder Einzelhandelsanalysen tätig sind, bietet YOLOv9 die beste Balance aus Genauigkeit und Benutzerfreundlichkeit.
Edge Deployment: Aufgrund seiner überlegenen Parametereffizienz (z. B. YOLOv9s) passt es besser auf ressourcenbeschränkte Geräte wie den Raspberry Pi oder NVIDIA Jetson und lässt mehr Raum für andere Anwendungen.
Forschung und Entwicklung: Die PGI-Architektur bietet eine faszinierende Grundlage für weitere Forschungen zur Effizienz von Deep Learning.
Erfordert ein ausgereiftes Ökosystem: Wenn Ihr Projekt zuverlässiges Tracking, einfachen Export nach CoreML oder TFLite und aktiven Community-Support erfordert, ist das Ultralytics-Ökosystem rund um YOLOv9 unübertroffen.

Fazit

Sowohl DAMO-YOLO als auch YOLOv9 demonstrieren die schnelle Innovation im Bereich der Objektdetektion. DAMO-YOLO beweist den Wert der Neural Architecture Search, um maximale Geschwindigkeitsleistung herauszuholen. Allerdings erweist sich YOLOv9 als die vielseitigere und leistungsfähigere Lösung für die meisten Benutzer.

Durch die Lösung des Deep-Supervision-Informationsengpasses mit PGI und die Optimierung von Schichten mit GELAN liefert YOLOv9 Spitzenpräzision mit bemerkenswerter Effizienz. In Kombination mit dem Ultralytics-Ökosystem bietet es eine robuste, gut gewartete und benutzerfreundliche Plattform, die den Weg vom Konzept zur Bereitstellung beschleunigt. Für Entwickler, die mit Zuversicht innovative Vision-Anwendungen erstellen möchten, bleiben Ultralytics YOLO-Modelle die überlegene Wahl.

Andere Modelle entdecken

Wenn Sie daran interessiert sind, andere modernste Optionen innerhalb der Ultralytics-Familie zu erkunden oder weitere Vergleiche anzustellen, ziehen Sie diese Ressourcen in Betracht:

Ultralytics YOLO11 – Das neueste SOTA-Modell für vielseitige Bildverarbeitungsaufgaben.
YOLOv8 vs. DAMO-YOLO
RT-DETR vs. DAMO-YOLO
YOLOv10 vs. DAMO-YOLO
YOLOX vs. DAMO-YOLO