Zum Inhalt springen

EfficientDet vs. YOLOv9: Ein technischer Vergleich

Die Wahl des optimalen Objekterkennungsmodells ist entscheidend für Computer-Vision-Aufgaben und bringt Genauigkeit, Geschwindigkeit und Rechenressourcen in Einklang. Diese Seite bietet einen detaillierten technischen Vergleich zwischen Googles EfficientDet und Ultralytics YOLOv9, zwei bedeutenden Modellen in der Landschaft der Objekterkennung. Wir werden uns mit ihren architektonischen Designs, Leistungsbenchmarks und geeigneten Anwendungen befassen, um Sie bei einer fundierten Entscheidung für Ihre Projekte zu unterstützen.

EfficientDet: Skalierbare und effiziente Architektur

EfficientDet wurde 2019 von Forschern bei Google Research vorgestellt und entwickelte sich schnell zu einem Maßstab für effiziente Objekterkennung. Es wurde eine Familie von Modellen vorgeschlagen, die mithilfe einer systematischen Compound-Scaling-Methode von leichtgewichtigen, Edge-kompatiblen Versionen bis hin zu hochgenauen, Cloud-basierten Versionen skaliert werden konnten.

Architektur und Hauptmerkmale

Die Architektur von EfficientDet basiert auf drei Schlüsselkomponenten:

  • EfficientNet Backbone: Es verwendet das hocheffiziente EfficientNet als sein Backbone für die Merkmalsextraktion, das mithilfe einer Neural Architecture Search (NAS) entworfen wurde, um sowohl die Genauigkeit als auch die FLOPs zu optimieren.
  • BiFPN (Bi-directional Feature Pyramid Network): Anstelle eines traditionellen FPN verwendet EfficientDet BiFPN, das eine reichhaltigere, multiskalige Feature-Fusion mit gewichteten Verbindungen ermöglicht und die Genauigkeit mit minimalem Rechenaufwand verbessert.
  • Compound Scaling: Eine neuartige Methode, die die Tiefe, Breite und Auflösung des Backbones, des Feature-Netzwerks und des Erkennungskopfes einheitlich skaliert. Dies ermöglicht die Erstellung einer Familie von Modellen (D0 bis D7), die verschiedenen Ressourcenbeschränkungen gerecht werden.

Stärken

  • Skalierbarkeit: Die Hauptstärke von EfficientDet ist seine Modellfamilie, die eine große Auswahl an Optionen für verschiedene Bereitstellungsziele bietet, von mobilen Geräten bis hin zu Rechenzentren.
  • Pioneering Efficiency: Zum Zeitpunkt seiner Veröffentlichung setzte es einen neuen Standard für Effizienz und erreichte eine hohe Genauigkeit mit weniger Parametern und FLOPs als konkurrierende Modelle.

Schwächen

  • Alter und Leistung: Obwohl grundlegend, stammt die Architektur aus dem Jahr 2019. Neuere Modelle wie YOLOv9 haben sie sowohl in Bezug auf Geschwindigkeit als auch Genauigkeit übertroffen, insbesondere auf moderner Hardware wie GPUs.
  • Inferenzgeschwindigkeit: Die größeren EfficientDet-Modelle können langsam sein, insbesondere im Vergleich zu den hochoptimierten Inferenzgeschwindigkeiten von YOLO-Modellen.
  • Aufgabenspezifität: EfficientDet ist rein für die Objekterkennung konzipiert und es fehlt ihm die integrierte Vielseitigkeit für andere Aufgaben wie Instanzsegmentierung oder Pose-Schätzung, die in modernen Frameworks zu finden sind.
  • Ökosystem: Das offizielle Repository ist weniger auf die Benutzererfahrung ausgerichtet und wird nicht so aktiv gepflegt oder unterstützt wie das umfassende Ultralytics-Ökosystem.

Anwendungsfälle

EfficientDet ist nach wie vor eine praktikable Option für:

  • Anwendungen, bei denen ein bestimmter Kompromiss, der von einer der skalierten Varianten (D0-D7) angeboten wird, perfekt passt.
  • Projekte, die den Einsatz auf CPUs erfordern, wo ihre kleineren Modelle eine wettbewerbsfähige Leistung zeigen.
  • Ältere Systeme, in denen das Modell bereits integriert ist und angemessen funktioniert.

Erfahren Sie mehr über EfficientDet

YOLOv9: Modernste Genauigkeit und Effizienz

Ultralytics YOLOv9, das 2024 von Chien-Yao Wang und Hong-Yuan Mark Liao vorgestellt wurde, stellt einen bedeutenden Fortschritt in der Echtzeit-Objekterkennung dar. Es befasst sich mit der Herausforderung des Informationsverlusts in tiefen Netzen durch innovative Architekturelemente und setzt neue Maßstäbe.

Architektur und Hauptmerkmale

Die überlegene Leistung von YOLOv9 beruht auf zwei Hauptinnovationen:

  • Programmable Gradient Information (PGI): Dieses Konzept wurde entwickelt, um das Problem des Informationsengpasses in tiefen neuronalen Netzen anzugehen. PGI erzeugt zuverlässige Gradienten, um sicherzustellen, dass das Modell vollständige Informationen lernen kann, was zu genaueren Feature-Darstellungen führt.
  • Generalized Efficient Layer Aggregation Network (GELAN): YOLOv9 führt GELAN ein, eine neuartige und hocheffiziente Architektur, die auf den Prinzipien von CSPNet und ELAN aufbaut. Sie optimiert die Parameternutzung und die Recheneffizienz, wodurch das Modell mit weniger Ressourcen eine höhere Genauigkeit erzielen kann.

Stärken

  • Modernste Genauigkeit: YOLOv9 erreicht eine überragende Genauigkeit bei der Objekterkennung und übertrifft Wettbewerber wie EfficientDet bei ähnlicher oder geringerer Parameteranzahl, wie in der zugehörigen Veröffentlichung "YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information" detailliert beschrieben.
  • Außergewöhnliches Leistungsverhältnis: Es bietet einen hervorragenden Kompromiss zwischen Genauigkeit, Inferenzgeschwindigkeit und Modellgröße, wodurch es für eine breite Palette von Anwendungen geeignet ist, von Edge AI bis hin zu hochleistungsfähigen Cloud-Servern.
  • Benutzerfreundlichkeit: Bei Verwendung innerhalb des Ultralytics-Frameworks profitiert YOLOv9 von einer optimierten Benutzererfahrung, einer einfachen Python API und umfangreicher Dokumentation.
  • Gut gepflegtes Ökosystem: Das Ultralytics-Ökosystem bietet aktive Entwicklung, eine große und unterstützende Community, häufige Aktualisierungen und Integration mit Tools wie Ultralytics HUB für Training ohne Code und MLOps.
  • Trainingseffizienz: YOLO-Modelle haben typischerweise einen geringeren Speicherbedarf während des Trainings als andere Architekturen. Das Framework bietet effiziente Trainingsprozesse und leicht verfügbare, vortrainierte Gewichte.
  • Vielseitigkeit: Während sich das Original-Paper auf die Erkennung konzentriert, ist die zugrunde liegende GELAN-Architektur vielseitig. Das Original-Repository deutet auf Unterstützung für Aufgaben wie Instanzsegmentierung und Panoptic Segmentation hin, was mit den Multi-Task-Fähigkeiten anderer Ultralytics-Modelle wie YOLOv8 übereinstimmt.

Schwächen

  • Neuheit: Als neueres Modell sind Beispiele für den Einsatz in der realen Welt möglicherweise weniger zahlreich als bei älteren, etablierten Modellen wie EfficientDet, obwohl die Akzeptanz innerhalb der Ultralytics-Community schnell erfolgt.
  • Trainingsressourcen: Obwohl das Training der größten YOLOv9-Varianten (z. B. YOLOv9-E) für ihre Leistung rechentechnisch effizient ist, kann es dennoch erhebliche Rechenressourcen erfordern.

Anwendungsfälle

YOLOv9 eignet sich besonders gut für Anwendungen, bei denen Genauigkeit und Effizienz von größter Bedeutung sind, wie z. B.:

Erfahren Sie mehr über YOLOv9

Performance-Analyse: YOLOv9 vs. EfficientDet

Die folgende Tabelle bietet einen direkten Vergleich der Leistungsmetriken für verschiedene Modellgrößen von EfficientDet und YOLOv9, die auf dem COCO-Datensatz gemessen wurden.

Modell Größe
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Aus den Daten ergeben sich mehrere wichtige Erkenntnisse:

  • Genauigkeit und Effizienz: YOLOv9 bietet durchweg einen besseren Kompromiss. Zum Beispiel erreicht YOLOv9-C einen höheren mAP-Wert (53,0) als EfficientDet-D6 (52,6) mit etwa der Hälfte der Parameter und FLOPs.
  • Inferenzgeschwindigkeit: Auf einer modernen GPU mit TensorRT-Optimierung sind YOLOv9-Modelle deutlich schneller. YOLOv9-E ist über 7x schneller als EfficientDet-D7 und dabei auch genauer. Selbst das kleinste YOLOv9t-Modell ist viel schneller als das kleinste EfficientDet-d0.
  • Ressourcennutzung: YOLOv9-Modelle sind parametereffizienter. YOLOv9-S (7,1 Mio. Parameter) übertrifft die Genauigkeit von EfficientDet-D3 (12,0 Mio. Parameter). Diese Effizienz ist entscheidend für den Einsatz auf Geräten mit beschränkten Ressourcen.

Fazit und Empfehlungen

Während EfficientDet ein bahnbrechendes Modell war, das die Grenzen der Effizienz verschoben hat, hat sich der Bereich Computer Vision rasant weiterentwickelt. Für neue Projekte, die heute beginnen, ist YOLOv9 die klare Wahl. Es bietet modernste Genauigkeit, überlegene Inferenzgeschwindigkeit auf moderner Hardware und eine höhere Recheneffizienz.

Die Integration von YOLOv9 in das Ultralytics-Ökosystem festigt seinen Vorteil weiter und bietet Entwicklern ein benutzerfreundliches, gut unterstütztes und vielseitiges Framework, das den gesamten Workflow vom Training bis zur Bereitstellung beschleunigt. EfficientDet bleibt ein historisch wichtiges Modell und kann für die Wartung von Altsystemen geeignet sein, aber für neue, leistungsstarke Anwendungen bietet YOLOv9 einen entscheidenden Vorteil.

Andere Modelle entdecken

Wenn Sie verschiedene State-of-the-Art-Modelle erforschen, sollten Sie sich unbedingt unsere anderen Vergleichsseiten ansehen:



📅 Vor 1 Jahr erstellt ✏️ Vor 1 Monat aktualisiert

Kommentare