Zum Inhalt springen

DAMO-YOLO vs. YOLOv9: Ein technischer Vergleich

Die Wahl des richtigen Objekterkennungsmodells ist eine wichtige Entscheidung, bei der ein Gleichgewicht zwischen dem Bedarf an Genauigkeit, Geschwindigkeit und Recheneffizienz gefunden werden muss. Diese Seite bietet einen detaillierten technischen Vergleich zwischen zwei leistungsstarken Modellen: DAMO-YOLO von der Alibaba Group und YOLOv9. Wir werden ihre architektonischen Innovationen, Leistungsmetriken und idealen Anwendungsfälle untersuchen, um Ihnen bei der Auswahl des besten Modells für Ihre Computer-Vision-Projekte zu helfen. Während beide Modelle bedeutende Fortschritte darstellen, bietet YOLOv9, insbesondere innerhalb des Ultralytics-Ökosystems, eine überzeugende Kombination aus modernster Leistung und entwicklerfreundlichen Funktionen.

DAMO-YOLO: Eine schnelle und genaue Methode von Alibaba

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO ist ein Objekterkennungsmodell, das von Alibaba entwickelt wurde und sich darauf konzentriert, ein optimales Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu erreichen. Es führt mehrere neuartige Techniken ein, um die Leistung über eine breite Palette von Hardware zu verbessern, von Edge-Geräten bis hin zu Cloud-GPUs. Die Architektur ist das Ergebnis einer "Once-for-all"-Methodik, bei der ein Supernetz trainiert und dann spezialisierte Subnetzwerke mithilfe von Neural Architecture Search (NAS) abgeleitet werden, um verschiedenen Rechenbeschränkungen gerecht zu werden.

Architektur und Hauptmerkmale

Die Architektur von DAMO-YOLO umfasst mehrere wichtige Innovationen:

  • NAS-generierte Backbones: Anstelle eines manuell entworfenen Backbones verwendet DAMO-YOLO Backbones, die durch NAS entdeckt wurden und für die Effizienz der Feature-Extraktion optimiert sind.
  • Effizientes RepGFPN-Neck: Es verwendet ein neues Feature-Pyramiden-Netzwerk-Neck, RepGFPN, das für eine effiziente Feature-Fusion entwickelt wurde und mit Re-Parametrisierungstechniken kompatibel ist, um die Geschwindigkeit während der Inferenz zu erhöhen.
  • ZeroHead: Ein vereinfachter, leichtgewichtiger Erkennungs-Head, der den Rechenaufwand reduziert und gleichzeitig eine hohe Leistung aufrechterhält.
  • AlignedOTA Label Assignment: Eine verbesserte Strategie zur Zuweisung von Labels, die Probleme mit der Fehlausrichtung zwischen Klassifizierungs- und Regressionsaufgaben behebt, was zu genaueren Vorhersagen führt.
  • Distillationsverbesserung: Knowledge Distillation wird verwendet, um Wissen von einem größeren Lehrer-Modell auf ein kleineres Studenten-Modell zu übertragen, wodurch die Genauigkeit der kompakten Modelle weiter verbessert wird.

Stärken

  • Hohe GPU-Geschwindigkeit: DAMO-YOLO ist hochgradig für schnelle Inferenz auf GPUs optimiert und eignet sich daher für Echtzeit-Videoverarbeitung und andere latenzempfindliche Anwendungen.
  • Skalierbare Modelle: Es bietet eine Familie von Modellen (Tiny, Small, Medium, Large), die einen klaren Kompromiss zwischen Geschwindigkeit und Genauigkeit bieten, sodass Entwickler die beste Lösung für ihre Hardware auswählen können.
  • Innovative Techniken: Der Einsatz von NAS, einem effizienten Neck und einem fortschrittlichen Label Assigner demonstriert einen modernen Ansatz für das Detektordesign.

Schwächen

  • Aufgabenspezifität: DAMO-YOLO ist primär für die Objekterkennung konzipiert und es fehlt ihm die integrierte Vielseitigkeit für andere Aufgaben wie Instanzsegmentierung oder Pose-Schätzung, die in umfassenden Frameworks wie Ultralytics zu finden sind.
  • Ökosystem und Benutzerfreundlichkeit: Obwohl leistungsstark, ist sein Ökosystem weniger ausgereift als das von Ultralytics. Benutzer finden möglicherweise, dass es mehr Aufwand für das Training, die Bereitstellung und die Integration in Produktionspipelines erfordert.
  • Community Support: Die Community und die verfügbaren Ressourcen könnten kleiner sein als bei häufiger verwendeten Modellen wie denen aus der YOLO-Serie.

Erfahren Sie mehr über DAMO-YOLO

YOLOv9: Verbesserung von Genauigkeit und Effizienz

Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Dokumentation: https://docs.ultralytics.com/models/yolov9/

YOLOv9 stellt einen bedeutenden Fortschritt in der Echtzeit-Objekterkennung dar und führt bahnbrechende Konzepte ein, um den Informationsverlust in tiefen neuronalen Netzen zu adressieren. Seine Kerninnovationen, Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN), ermöglichen es, eine überlegene Genauigkeit und Parametereffizienz zu erreichen. Bei der Integration in das Ultralytics-Framework kombiniert YOLOv9 diese hochmoderne Leistung mit einer beispiellosen Benutzererfahrung.

Architektur und Hauptmerkmale

Die Stärke von YOLOv9 liegt in seinen neuartigen architektonischen Komponenten:

  • Programmable Gradient Information (PGI): Dieser Mechanismus hilft, das Problem des Informationsengpasses zu mindern, indem er zuverlässige Gradienten durch einen reversiblen Hilfszweig erzeugt und so sicherstellt, dass tiefere Schichten vollständige Eingangsinformationen für genaue Aktualisierungen erhalten.
  • Generalized Efficient Layer Aggregation Network (GELAN): Eine fortschrittliche Netzwerkarchitektur, die auf den Prinzipien von CSPNet und ELAN aufbaut. GELAN ist auf optimale Parameternutzung und Recheneffizienz ausgelegt, was es sowohl leistungsstark als auch schnell macht.

Stärken

  • Modernste Genauigkeit: YOLOv9 setzt einen neuen Standard für die Genauigkeit auf dem COCO-Datensatz und übertrifft viele frühere Modelle bei ähnlichen oder geringeren Rechenkosten.
  • Überlegene Effizienz: Wie in der Leistungstabelle dargestellt, erreichen YOLOv9-Modelle oft eine höhere Genauigkeit mit weniger Parametern und FLOPs im Vergleich zu Mitbewerbern, was sie ideal für den Einsatz auf einer Reihe von Hardware von Edge-Geräten bis hin zu leistungsstarken Servern macht.
  • Gut gepflegtes Ökosystem: Integriert in das Ultralytics-Ökosystem profitiert YOLOv9 von Benutzerfreundlichkeit durch eine optimierte Python API und CLI, umfassende Dokumentation und aktive Community-Unterstützung.
  • Trainingseffizienz: Die Ultralytics-Implementierung gewährleistet effiziente Trainingsprozesse mit leicht verfügbaren, vortrainierten Gewichten, geringerem Speicherbedarf und nahtloser Integration mit Tools wie Ultralytics HUB für No-Code-Training und MLOps.
  • Vielseitigkeit: Während sich das Original-Paper auf die Erkennung konzentriert, ist die GELAN-Architektur sehr anpassungsfähig. Das Ultralytics-Ökosystem erweitert seine Fähigkeiten auf andere Bildverarbeitungsaufgaben und stimmt mit der Multi-Task-Unterstützung in Modellen wie YOLOv8 überein.

Schwächen

  • Neueres Modell: Als neuere Architektur wächst die Anzahl der von der Community beigetragenen Tutorials und Integrationen von Drittanbietern noch, obwohl die Aufnahme in die Ultralytics-Bibliothek die Akzeptanz erheblich beschleunigt hat.
  • Ressourcenanforderungen: Die größten YOLOv9-Varianten, wie YOLOv9-E, benötigen erhebliche Rechenressourcen für das Training, bieten aber eine erstklassige Genauigkeit für ihre Größe.

Erfahren Sie mehr über YOLOv9

Leistungsanalyse: Genauigkeit und Geschwindigkeit

Beim Vergleich von DAMO-YOLO und YOLOv9 wird deutlich, dass beide Modellfamilien die Grenzen der Echtzeit-Objekterkennung verschieben. Ein genauerer Blick auf die Metriken zeigt jedoch die überlegene Effizienz von YOLOv9.

Modell Größe
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Aus der Tabelle lassen sich folgende Schlussfolgerungen ziehen:

  • Genauigkeit: YOLOv9-Modelle erzielen durchweg höhere mAP-Werte. Beispielsweise übertrifft YOLOv9m DAMO-YOLOl mit einer mAP von 51,4 gegenüber 50,8 mAP. Das größte Modell, YOLOv9-E, erreicht beeindruckende 55,6 mAP und setzt damit einen neuen Maßstab.
  • Effizienz: YOLOv9 demonstriert eine bemerkenswerte Parameter- und Recheneffizienz. YOLOv9m liefert eine bessere Genauigkeit als DAMO-YOLOl und verwendet dabei weniger als die Hälfte der Parameter (20,0M vs. 42,1M) und weniger FLOPs (76,3B vs. 97,3B). Dies macht YOLOv9 zu einer effizienteren Wahl für das Erreichen einer hohen Leistung.
  • Inferenzgeschwindigkeit: Auf einer T4-GPU sind die Inferenzgeschwindigkeiten konkurrenzfähig. Zum Beispiel liegen DAMO-YOLOs (3,45 ms) und YOLOv9s (3,54 ms) geschwindigkeitstechnisch sehr nahe beieinander, aber YOLOv9s erzielt eine höhere mAP (46,8 vs. 46,0).

Fazit: Welches Modell sollten Sie wählen?

Sowohl DAMO-YOLO als auch YOLOv9 sind ausgezeichnete Objektdetektoren mit einzigartigen Stärken. DAMO-YOLO bietet eine schnelle und skalierbare Lösung mit innovativen Techniken wie NAS und einem effizienten RepGFPN-Neck, was es zu einer soliden Wahl für Anwendungen macht, die eine schnelle GPU-Inferenz erfordern.

Für die meisten Entwickler und Forscher ist YOLOv9 jedoch die empfohlene Wahl, insbesondere bei Verwendung innerhalb des Ultralytics-Ökosystems. Es bietet nicht nur hochmoderne Genauigkeit und überlegene Effizienz, sondern auch erhebliche Vorteile in Bezug auf Benutzerfreundlichkeit und Support. Das Ultralytics-Framework abstrahiert die Komplexität und bietet einen optimierten Workflow vom Training bis zur Bereitstellung. Die Kombination aus PGI und GELAN in YOLOv9 bietet eine fortschrittlichere und effizientere Architektur, während das robuste Ultralytics-Ökosystem sicherstellt, dass Sie über die Tools, die Dokumentation und den Community-Support verfügen, die Sie für den Erfolg benötigen.

Andere Modelle entdecken

Wenn Sie daran interessiert sind, wie DAMO-YOLO und YOLOv9 im Vergleich zu anderen führenden Modellen abschneiden, sollten Sie sich diese anderen Vergleiche in der Ultralytics-Dokumentation ansehen:



📅 Vor 1 Jahr erstellt ✏️ Vor 1 Monat aktualisiert

Kommentare