Zum Inhalt springen

YOLOv9 vs. EfficientDet: Ein umfassender technischer Vergleich

Die Auswahl des richtigen Objekterkennungsmodells ist eine zentrale Entscheidung bei der Entwicklung von Computer Vision, die sich direkt auf die Geschwindigkeit, Genauigkeit und Ressourceneffizienz Ihrer Anwendung auswirkt. Dieser Leitfaden bietet einen detaillierten technischen Vergleich zwischen Ultralytics YOLOv9 und EfficientDet und analysiert deren architektonische Innovationen, Leistungsmetriken und Eignung für moderne Einsatzszenarien.

Leistungsanalyse

Die Entwicklung der Objekterkennung ist rasant, wobei neuere Architekturen ihre Vorgänger deutlich übertreffen. Die nachstehende Tabelle zeigt einen direkten Vergleich der wichtigsten Kennzahlen und hebt die Fortschritte bei YOLOv9 in Bezug auf Inferenzgeschwindigkeit und Parametereffizienz im Vergleich zur älteren EfficientDet-Familie.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Wichtigste Erkenntnisse:

  • Dominanz der Geschwindigkeit: Die YOLOv9 weisen auf GPU eine deutlich höhere Inferenzgeschwindigkeit auf. Zum Beispiel ist YOLOv9c (53,0 % mAP) mehr als 12 Mal schneller als das vergleichbar genaue EfficientDet-d6 (52,6 % mAP).
  • Parameter-Effizienz: Die Architektur von YOLOv9 ermöglicht es, mit weniger Parametern eine höhere Genauigkeit zu erreichen. YOLOv9s erreicht 46,8% mAP mit nur 7,1M Parametern, während EfficientDet die größere D3-Variante (12,0M Parameter) benötigt, um eine ähnliche Genauigkeit von 47,5% zu erreichen.
  • Hochmoderne Genauigkeit: Das größte Modell, YOLOv9e, setzt mit 55,6 % mAP eine hohe Messlatte und übertrifft damit das schwerste Modell EfficientDet-d7 bei einem Bruchteil der Latenz.

YOLOv9: Eine neue Ära der programmierbaren Gradienteninformation

YOLOv9, das Anfang 2024 eingeführt wird, stellt einen bedeutenden Fortschritt in der YOLO dar. Es wurde von Chien-Yao Wang und Hong-Yuan Mark Liao entwickelt und befasst sich mit grundlegenden Problemen des Deep Learning im Zusammenhang mit dem Informationsverlust bei der Übertragung von Merkmalen.

Technische Details:

Architektonische Innovationen

YOLOv9 führt zwei Kernkonzepte ein, um das Problem des "Informationsengpasses" zu lösen:

  1. Programmierbare Gradienteninformation (PGI): Ein Hilfsrahmen für die Überwachung, der zuverlässige Gradienten für die Aktualisierung der Netzgewichte erzeugt und sicherstellt, dass das Modell wichtige Informationen in allen tiefen Schichten beibehält.
  2. Generalized Efficient Layer Aggregation Network (GELAN): Eine neuartige, leichtgewichtige Architektur, die die Stärken von CSPNet und ELAN kombiniert. Sie legt den Schwerpunkt auf die Planung von Gradientenpfaden und ermöglicht so eine höhere Parametereffizienz und schnellere Inferenzgeschwindigkeiten ohne Einbußen bei der Genauigkeit.

Wussten Sie schon?

Die GELAN-Architektur ist so konzipiert, dass sie hardwareunabhängig ist und die Inferenz nicht nur für High-End-GPUs, sondern auch für Endgeräte mit begrenzten Rechenressourcen optimiert.

Stärken und Anwendungsfälle

  • Ausgewogene Leistung: YOLOv9 bietet einen außergewöhnlichen Kompromiss zwischen Geschwindigkeit und Genauigkeit und ist damit ideal für Echtzeit-Inferenzanwendungen wie autonomes Fahren und Videoanalyse.
  • Ultralytics : Die Integration mit Ultralytics bietet eine optimierte Python und CLI, die Schulung, Validierung und Bereitstellung vereinfachen.
  • Effizientes Training: Dank seiner effizienten Architektur benötigt YOLOv9 im Vergleich zu transformatorbasierten Alternativen in der Regel weniger Speicher während des Trainings, was ein einfacheres benutzerdefiniertes Training auf Consumer-GPUs ermöglicht.

Code-Beispiel: Verwendung von YOLOv9 mit Ultralytics

Mit dem Ultralytics können Sie problemlos Inferenzen durchführen oder YOLOv9 trainieren.

from ultralytics import YOLO

# Load a pre-trained YOLOv9c model
model = YOLO("yolov9c.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Train the model on a custom dataset (e.g., COCO8)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Erfahren Sie mehr über YOLOv9

EfficientDet: Wegweisende skalierbare Architektur

EfficientDet, das Ende 2019 von Google Research veröffentlicht wurde, war ein bahnbrechendes Modell, das eine systematische Methode zur Skalierung von Objektdetektoren einführte. Es konzentriert sich auf die Optimierung der Effizienz über ein breites Spektrum von Ressourcenbeschränkungen.

Technische Details:

Architektonische Highlights

EfficientDet baut auf dem EfficientNet-Backbone auf und führt mehrere Schlüsselfunktionen ein:

  1. Bi-direktionales Merkmalspyramidennetzwerk (BiFPN): Im Gegensatz zu herkömmlichen FPNs ermöglicht das BiFPN eine einfache Merkmalsfusion auf mehreren Ebenen, indem es lernfähige Gewichte für verschiedene Eingangsmerkmale einführt.
  2. Zusammengesetzte Skalierung: Diese Methode skaliert einheitlich die Auflösung, Tiefe und Breite des Backbone, des Feature-Netzwerks und der Box/Klassenvorhersagenetzwerke und ermöglicht so eine Familie von Modellen (D0 bis D7), die auf unterschiedliche Ressourcenbudgets zugeschnitten sind.

Stärken und Schwächen

  • Skalierbarkeit: Die Struktur der D0-D7-Familie ermöglicht es den Benutzern, ein Modell zu wählen, das ihrem spezifischen FLOPs-Budget entspricht.
  • Historische Bedeutung: Sie setzte den Standard für Effizienz im Jahr 2020 und beeinflusste die nachfolgende Forschung im Bereich der Suche mit neuronalen Architekturen stark.
  • Veraltete Leistung: Obwohl EfficientDet zu seiner Zeit sehr effizient war, hinkt es heute in Bezug auf die Latenzzeit auf GPUs modernen Detektoren wie YOLOv9 hinterher. Die starke Verwendung von tiefenmäßig trennbaren Faltungen ist zwar FLOP-effizient, führt aber oft zu einer langsameren Inferenz auf Hardware wie dem NVIDIA T4 im Vergleich zu den optimierten dichten Faltungen, die in YOLO verwendet werden.

Erfahren Sie mehr über EfficientDet

Detaillierte vergleichende Analyse

Bei der Wahl zwischen YOLOv9 und EfficientDet spielen mehrere Faktoren eine Rolle, die über das reine mAP hinausgehen. Hier ist eine Aufschlüsselung, wie sie in praktischen Entwicklungsumgebungen vergleichen.

Geschwindigkeit und Latenzzeit

Der deutlichste Unterschied liegt in der Geschwindigkeit der Inferenz. YOLOv9 nutzt die GELAN-Architektur, die für eine massive Parallelisierung auf GPUs optimiert ist. Im Gegensatz dazu kann die Abhängigkeit von EfficientDet von komplexer Merkmalsfusion (BiFPN) und tiefenmäßig trennbaren Faltungen zu Engpässen beim Speicherzugriff auf Beschleunigern führen. Wie in der Leistungstabelle zu sehen ist, sind die YOLOv9 durchweg 2x bis 10x schneller auf TensorRT als ihre EfficientDet-Gegenstücke mit ähnlicher Genauigkeit.

Ökosystem und Benutzerfreundlichkeit

Das Ultralytics bietet einen erheblichen Vorteil für YOLOv9. Während EfficientDet eine TensorFlow und oft komplexe Setup-Skripte erfordert, ist YOLOv9 in ein benutzerfreundliches Paket integriert, das unterstützt:

  • Einzeleinbau: pip install ultralytics
  • Breite Exportförderung: Nahtloser Export nach ONNX, TensorRT, CoreML, OpenVINO und mehr über die model.export() Funktion.
  • Aktive Wartung: Häufige Updates, Unterstützung durch die Community und umfangreiche Anleitungen zu Aufgaben wie Objektverfolgung und -bereitstellung.

Flexibilität bei der Bereitstellung

YOLOv9 , die mit Ultralytics trainiert wurden, können mit Formaten wie TFLite oder Edge TPU problemlos auf Edge-Geräten eingesetzt werden. Weitere Details finden Sie in unserem TFLite .

Trainingseffizienz und Gedächtnis

Das Training moderner Computer-Vision-Modelle kann sehr ressourcenintensiv sein. DieYOLO Ultralytics sind für ihre effiziente Nutzung des GPU bekannt. Dies ermöglicht es Entwicklern, im Vergleich zu älteren Architekturen oder schweren transformatorbasierten Modellen größere Stapel auf Consumer-Hardware zu trainieren. Darüber hinaus stellt Ultralytics bereits trainierte Gewichte zur Verfügung, die ein Transfer-Lernen ermöglichen, das viel schneller konvergiert als das Training von EfficientDet von Grund auf.

Vielseitigkeit

Während EfficientDet ein reiner Objektdetektor ist, erstrecken sich die architektonischen Prinzipien hinter YOLOv9 (und der breiteren Ultralytics YOLO ) auf mehrere Aufgaben. Der Ultralytics unterstützt:

Diese Vielseitigkeit ermöglicht es Entwicklern, eine einzige, einheitliche API für verschiedene Computer Vision Herausforderungen zu verwenden.

Fazit

Für die Mehrzahl der neuen Projekte istYOLOv9 die beste Wahl. Es bietet eine hochmoderne Genauigkeit mit deutlich schnelleren Inferenzgeschwindigkeiten und ist daher für Echtzeitanwendungen geeignet. Seine Integration in das Ultralytics gewährleistet eine reibungslose Entwicklung, von der Datenaufbereitung bis zur Modellbereitstellung.

EfficientDet ist nach wie vor ein wertvolles Nachschlagewerk für das Verständnis von Verbundskalierung und Merkmalsfusion, fällt aber im Allgemeinen bei der Leistung pro Watt und den Latenzmetriken auf moderner Hardware zurück.

Entwickler, die auf der Suche nach der allerneuesten Computer Vision Technologie sind, sollten sich auch mit YOLO11entdecken, das auf diesen Fortschritten aufbaut und noch mehr Effizienz und Leistung bietet.

Andere Modelle entdecken

Wenn Sie an weiteren Vergleichen interessiert sind, sollten Sie sich diese verwandten Modelle ansehen:

  • YOLO11 vs. YOLOv9: Sehen Sie, wie die neueste Generation YOLOv9 übertrifft.
  • RT-DETR: Ein Detektor auf Transformatorbasis, der eine hohe Genauigkeit für Echtzeitszenarien bietet.
  • YOLOv8: Eine äußerst vielseitige Modellfamilie, die Erkennung, Segmentierung und Posenschätzung unterstützt.

Kommentare