EfficientDet vs. YOLOv5: Ein detaillierter technischer Vergleich

Die Landschaft der Objekterkennung hat sich rasant entwickelt, angetrieben durch die ständige Notwendigkeit, Genauigkeit mit Recheneffizienz in Einklang zu bringen. Zwei Architekturen, die dieses Feld maßgeblich beeinflusst haben, sind EfficientDet, entwickelt vom Google Brain Team, und YOLOv5, erstellt von Ultralytics. Während beide Modelle darauf abzielen, Objekte in Bildern effizient zu detect, gehen sie das Problem mit grundlegend unterschiedlichen Designphilosophien und architektonischen Strategien an.

Dieser Leitfaden bietet einen detaillierten technischen Vergleich, um Entwicklern, Forschern und Ingenieuren bei der Auswahl des richtigen Tools für ihre spezifischen Computer-Vision-Anwendungen zu helfen.

EfficientDet: Skalierbar und effizient

Ende 2019 veröffentlicht, entstand EfficientDet aus dem Forschungsziel, sowohl Genauigkeit als auch Effizienz gleichzeitig zu optimieren. Es führte das Konzept des „Compound Scaling“ in die Objektdetektion ein, eine Methode, die Auflösung, Tiefe und Breite des Backbone-Netzwerks gleichmäßig skaliert.

Autoren: Mingxing Tan, Ruoming Pang, und Quoc V. Le
Organisation:Google Brain
Datum: 20. November 2019
Arxiv:EfficientDet: Skalierbare und effiziente Objektdetektion

Architektur-Highlights

EfficientDet baut auf dem EfficientNet-Backbone auf und führt ein neuartiges Feature-Fusion-Netzwerk namens BiFPN (Bidirectional Feature Pyramid Network) ein. Im Gegensatz zu traditionellen Feature Pyramid Networks (FPN), die den Informationsfluss auf eine Top-Down-Weise beschränken, ermöglicht BiFPN einen komplexen, bidirektionalen Informationsfluss zwischen verschiedenen Auflösungsebenen.

Das Modell nutzt zudem Compound Scaling, das es Benutzern ermöglicht, aus einer Modellfamilie (D0 bis D7) je nach ihren Ressourcenbeschränkungen zu wählen. Dies stellt sicher, dass bei mehr verfügbarer Rechenleistung die Modellgröße linear erhöht werden kann, um eine bessere Genauigkeit zu erzielen.

Stärken und Schwächen

Die Hauptstärke von EfficientDet liegt in seiner theoretischen Effizienz. Es erreicht hohe mAP-Werte mit bemerkenswert geringen FLOPs (Floating Point Operations). Dies macht es zu einem interessanten Kandidaten für die akademische Forschung, wo Parametereffizienz eine Schlüsselmetrik ist.

Allerdings leidet EfficientDet unter einem praktischen Nachteil: Inferenzlatenz. Die komplexen Verbindungen im BiFPN und die intensive Nutzung von Depth-wise Separable Convolutions—obwohl mathematisch effizient—sind auf GPU-Hardware oft nicht vollständig optimiert im Vergleich zu Standard-Faltungen. Folglich kann EfficientDet trotz geringerer FLOPs auf GPUs langsamer laufen als Modelle mit höheren theoretischen Rechenkosten.

Erfahren Sie mehr über EfficientDet

Ultralytics YOLOv5: Praktische Leistung und Benutzerfreundlichkeit

Ultralytics YOLOv5 stellte bei seiner Veröffentlichung im Jahr 2020 einen Paradigmenwechsel dar. Im Gegensatz zu seinen Vorgängern war es das erste YOLO-Modell, das nativ in PyTorch implementiert wurde, wodurch es einem riesigen Entwickler-Ökosystem zugänglich gemacht wurde. Es priorisierte die „Bereitstellungsfreundlichkeit“ neben der Rohleistung.

Autor: Glenn Jocher
Organisation:Ultralytics
Datum: 26. Juni 2020
GitHub:ultralytics/yolov5

Architektur-Highlights

YOLOv5 verwendet einen CSPDarknet-Backbone, der den Gradientenfluss optimiert und den Rechenaufwand reduziert. Es war Vorreiter bei der Verwendung von Mosaic Augmentation während des Trainings—einer Technik, die vier Bilder zusammenfügt—wodurch die Fähigkeit des Modells verbessert wird, kleine Objekte zu erkennen, und der Bedarf an großen Mini-Batch-Größen reduziert wird.

Die Architektur ist auf Geschwindigkeit ausgelegt. Durch die Verwendung von Standardfaltungen und einer optimierten Head-Struktur maximiert YOLOv5 die Parallelverarbeitungsfähigkeiten moderner GPUs, was zu einer außergewöhnlich niedrigen Inferenzlatenz führt.

Der Vorteil des Ultralytics-Ökosystems

Einer der wesentlichsten Vorteile von YOLOv5 ist das umgebende Ökosystem. Ultralytics bietet einen nahtlosen Workflow, der die Auto-Anchor-Generierung, die Hyperparameter-Evolution und die native Exportunterstützung für ONNX, TensorRT, CoreML und TFLite umfasst. Dieser „Batteries-included“-Ansatz reduziert die Zeit von der Konzeption bis zur Produktion drastisch.

Stärken und Schwächen

YOLOv5 zeichnet sich durch Echtzeit-Inferenz und Benutzerfreundlichkeit aus. Seine einfache API und robuste Dokumentation ermöglichen es Entwicklern, benutzerdefinierte Modelle in wenigen Minuten auf ihren eigenen Daten zu trainieren. Es balanciert Geschwindigkeit und Genauigkeit auf eine Weise, die optimal für Edge AI und Cloud-Bereitstellungen ist. Während neuere Modelle wie YOLO11 es inzwischen in der Genauigkeit übertroffen haben, bleibt YOLOv5 ein zuverlässiges, branchenübliches Arbeitspferd.

Erfahren Sie mehr über YOLOv5

Leistungskennzahlen: Geschwindigkeit vs. Genauigkeit

Die folgende Tabelle vergleicht die Leistung von EfficientDet und YOLOv5 auf dem COCO val2017 Datensatz. Die zentrale Erkenntnis ist die Unterscheidung zwischen theoretischen Kosten (FLOPs) und tatsächlicher Geschwindigkeit (Latenz).

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Wie dargestellt, YOLOv5 dominiert bei der GPU-Latenz. Zum Beispiel, YOLOv5s (37.4 mAP) läuft mit 1,92 ms auf einer T4 GPU, während EfficientDet-d0 (34.6 mAP) dauert 3,92 ms—macht YOLOv5 etwa 2x schneller während gleichzeitig eine höhere Genauigkeit erzielt wird. Diese Diskrepanz vergrößert sich bei größeren Modellen; YOLOv5l (49,0 mAP) ist fast 5x schneller als die vergleichbare EfficientDet-d4 (49,7 mAP).

Im Gegensatz dazu glänzt EfficientDet in reinen CPU-Umgebungen, wo niedrige FLOPs oft besser in Leistung umgesetzt werden, wie bei den ONNX CPU-Geschwindigkeiten für die kleineren D0-Varianten zu sehen ist.

Ideale Anwendungsfälle

Die Wahl zwischen diesen Modellen hängt von Ihren spezifischen Einschränkungen ab:

Wann EfficientDet wählen?

Akademisches Benchmarking: Wenn das Hauptziel darin besteht, Parametereffizienz oder architektonische Skalierungsgesetze zu demonstrieren.
Strikte CPU-Beschränkungen: Wenn die Bereitstellung streng auf ältere CPU-Hardware beschränkt ist, bei der FLOPs der absolute Engpass sind, bieten die kleinsten EfficientDet-Varianten (D0-D1) eine wettbewerbsfähige Leistung.
Forschung: Für die Untersuchung von Feature Pyramid Network-Variationen wie BiFPN.

Wann Ultralytics YOLOv5 wählen?

Echtzeitanwendungen: Unerlässlich für autonome Fahrzeuge, Robotik und Videoüberwachung, wo geringe Latenz nicht verhandelbar ist.
Produktionseinsatz: Das gut gepflegte Ökosystem und der einfache Export zu Engines wie TensorRT und OpenVINO machen YOLOv5 überlegen für kommerzielle Produkte.
Trainingseffizienz: YOLOv5-Modelle trainieren typischerweise schneller und benötigen weniger Speicher als komplexe Architekturen wie EfficientDet oder transformatorbasierte Modelle, wodurch die Cloud-Rechenkosten gesenkt werden.
Vielseitigkeit: Über einfache Bounding Boxes hinaus ermöglicht das Ultralytics Framework einen nahtlosen Übergang zu Segmentierungs- und Klassifizierungsaufgaben.

Code-Beispiel: Einfachheit von Ultralytics

Eines der prägenden Merkmale von Ultralytics-Modellen ist die Benutzerfreundlichkeit. Während die Implementierung von EfficientDet oft komplexe TensorFlow-Konfigurationen oder spezifische Repository-Klone erfordert, kann YOLOv5 mit nur wenigen Zeilen python-Code über PyTorch Hub geladen und ausgeführt werden.

import torch

# Load the YOLOv5s model from the official Ultralytics repository
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image (URL or local path)
img = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img)

# Display results
results.print()  # Print predictions to console
results.show()  # Show image with bounding boxes

Fazit und Zukunftsausblick

Während EfficientDet einen bedeutenden Meilenstein in der Computer Vision darstellte, indem es den Wert von Compound Scaling und effizienter Feature-Fusion bewies, revolutionierte YOLOv5 die Branche, indem es hochleistungsfähige Objekterkennung zugänglich, schnell und bereitstellbar machte.

Für Entwickler, die heute ein neues Projekt starten, empfehlen wir, die neuesten Fortschritte in der Ultralytics-Linie zu betrachten. YOLO11 baut auf dem starken Fundament von YOLOv5 auf und bietet:

Noch höhere Genauigkeit und Geschwindigkeit.
Native Unterstützung für Posenschätzung, Instanzsegmentierung und obb.
Ein vereinheitlichtes python-Paket ultralytics das den gesamten MLOps-Lebenszyklus vereinfacht.

Für weitere Lektüre zum Vergleich von Ultralytics-Modellen mit anderen Architekturen erkunden Sie unsere Vergleiche mit YOLOv8 und RT-DETR.

Kommentare