YOLOv5 vs EfficientDet: Ein detaillierter technischer Vergleich
Diese Seite bietet einen umfassenden technischen Vergleich zwischen zwei einflussreichen Objekterkennungsmodellen: Ultralytics YOLOv5 und Googles EfficientDet. Während beide Modelle auf hohe Leistung ausgelegt sind, stammen sie aus unterschiedlichen Forschungsphilosophien und architektonischen Designs. Wir werden uns mit ihren wichtigsten Unterschieden in Architektur, Leistungskennzahlen und idealen Anwendungsfällen befassen, um Ihnen bei der Auswahl des besten Modells für Ihre Computer-Vision-Projekte zu helfen.
Ultralytics YOLOv5: Das vielseitige und weit verbreitete Modell
Autor: Glenn Jocher
Organisation: Ultralytics
Datum: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Docs: https://docs.ultralytics.com/models/yolov5/
Ultralytics YOLOv5 ist ein Single-Stage-Objektdetektor, der aufgrund seiner außergewöhnlichen Balance aus Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit schnell zu einem Industriestandard wurde. Vollständig in PyTorch aufgebaut, verfügt seine Architektur über ein CSPDarknet53 Backbone, einen PANet-Neck zur effektiven Feature-Aggregation und einen effizienten ankerbasierten Erkennungsskopf. YOLOv5 ist hoch skalierbar und bietet eine Reihe von Modellen von Nano (n) bis Extra-Large (x), sodass Entwickler den perfekten Kompromiss für ihre spezifischen Rechen- und Leistungsanforderungen auswählen können.
Stärken
- Außergewöhnliche Geschwindigkeit: YOLOv5 ist hochgradig für schnelle Inferenz optimiert und ist daher eine ausgezeichnete Wahl für Echtzeit-Anwendungen, bei denen eine geringe Latenz entscheidend ist, wie z. B. bei der Videoüberwachung.
- Benutzerfreundlichkeit: Ein großer Vorteil ist die optimierte Benutzererfahrung. Mit einer einfachen Python API und CLI, einer umfangreichen Dokumentation und unkomplizierten Trainingsabläufen senkt YOLOv5 die Einstiegshürde für die benutzerdefinierte Objekterkennung erheblich.
- Gut gepflegtes Ökosystem: YOLOv5 wird durch das robuste Ultralytics-Ökosystem unterstützt, das aktive Entwicklung, eine große und hilfsbereite Community, häufige Updates und leistungsstarke Tools wie Ultralytics HUB für No-Code-Modelltraining und -verwaltung umfasst.
- Trainingseffizienz: Das Modell ist auf effizientes Training ausgelegt und profitiert von leicht verfügbaren vortrainierten Gewichten auf Datensätzen wie COCO und schnelleren Konvergenzzeiten. Es hat auch geringere Speicheranforderungen während des Trainings und der Inferenz im Vergleich zu komplexeren Architekturen wie Transformatoren.
- Vielseitigkeit: Über die Objekterkennung hinaus unterstützt YOLOv5 Aufgaben wie Instanzsegmentierung und Bildklassifizierung und bietet so eine flexible Lösung innerhalb eines einzigen Frameworks.
Schwächen
- Obwohl sehr genau, können größere EfficientDet-Modelle manchmal höhere mAP-Werte auf akademischen Benchmarks erzielen, insbesondere bei der Erkennung sehr kleiner Objekte.
- Seine Abhängigkeit von vordefinierten Ankerboxen erfordert möglicherweise eine Optimierung für Datensätze mit unkonventionellen Objektformen und -größen, um eine optimale Leistung zu erzielen.
Ideale Anwendungsfälle
- Echtzeit-Videoanalyse für Sicherheitssysteme und Verkehrsüberwachung.
- Bereitstellung auf ressourcenbeschränkten Edge-Geräten wie NVIDIA Jetson und Raspberry Pi.
- Wahrnehmung mit niedriger Latenz für Robotik und autonome Fahrzeuge.
- Mobile Anwendungen, die eine schnelle Inferenz auf dem Gerät erfordern.
EfficientDet: Skalierbare und effiziente Architektur
Autoren: Mingxing Tan, Ruoming Pang und Quoc V. Le
Organisation: Google
Datum: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
Docs: https://github.com/google/automl/tree/master/efficientdet#readme
EfficientDet, entwickelt vom Google Brain Team, führte eine Familie von skalierbaren und effizienten Objektdetektoren ein. Zu den wichtigsten Innovationen gehören die Verwendung des hocheffizienten EfficientNet als Backbone, ein neuartiges Bi-directional Feature Pyramid Network (BiFPN) für die schnelle Multi-Scale-Feature-Fusion und eine Compound-Scaling-Methode. Diese Methode skaliert die Tiefe, Breite und Auflösung des Modells einheitlich, wodurch eine Reihe von Modellen (D0-D7) erstellt werden kann, die für unterschiedliche Rechenbudgets optimiert sind.
Stärken
- Hohe Genauigkeit und Effizienz: EfficientDet-Modelle sind dafür bekannt, dass sie im Vergleich zu anderen Modellen zum Zeitpunkt ihrer Veröffentlichung eine hochmoderne Genauigkeit mit weniger Parametern und FLOPs erreichen.
- Skalierbarkeit: Der Compound-Scaling-Ansatz bietet einen klaren Weg, das Modell zu vergrößern oder zu verkleinern, wodurch es an verschiedene Hardwarebeschränkungen von Mobilgeräten bis hin zu Cloud-Servern angepasst werden kann.
- Effektive Merkmalsfusion: Das BiFPN ermöglicht eine reichhaltigere Merkmalsfusion durch die Einbeziehung gewichteter, bidirektionaler Verbindungen, was zu seiner hohen Genauigkeit beiträgt.
Schwächen
- Langsamere Inferenzgeschwindigkeit: Trotz seiner Parametereffizienz ist EfficientDet im Allgemeinen langsamer als YOLOv5, insbesondere in realen Einsatzszenarien. Dies macht es weniger geeignet für Anwendungen, die Echtzeitleistung erfordern.
- Komplexität: Die Architektur, insbesondere die BiFPN, ist komplexer als das unkomplizierte Design von YOLOv5. Dies kann es für Entwickler schwieriger machen, sie zu verstehen, anzupassen und zu debuggen.
- Weniger integriertes Ökosystem: Obwohl von Google unterstützt, wird das Open-Source-Repository nicht so aktiv gepflegt oder ist so benutzerfreundlich wie das Ultralytics-Ökosystem. Es mangelt an umfassender Dokumentation, Tutorials und integrierten Tools, die den MLOps-Lebenszyklus vereinfachen.
Ideale Anwendungsfälle
- Offline-Analyse von hochauflösenden Bildern, bei denen maximale Genauigkeit von größter Bedeutung ist.
- Medizinische Bildanalyse zur Erkennung von subtilen Anomalien.
- Hochpräzise Qualitätskontrolle in der Fertigung, wo Inferenz in Batches durchgeführt werden kann.
- Akademische Forschung und Benchmarking, bei denen Genauigkeit die primäre Metrik ist.
Erfahren Sie mehr über EfficientDet
Performance und Benchmarks: Ein direkter Vergleich
Die Wahl zwischen YOLOv5 und EfficientDet läuft oft auf den Kompromiss zwischen Geschwindigkeit und Genauigkeit hinaus. Die folgende Tabelle und Analyse bieten einen klaren Vergleich ihrer Leistung auf dem COCO val2017 Datensatz.
Modell | Größe (Pixel) |
mAPval 50-95 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4 TensorRT10 (ms) |
Parameter (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Die Tabelle verdeutlicht die unterschiedlichen Designschwerpunkte der beiden Modelle. EfficientDet-Modelle, insbesondere die größeren Varianten wie D7, erzielen den höchsten mAP-Wert von 53,7. Sie weisen auch eine hohe Effizienz in Bezug auf die Rechenkosten auf, wobei EfficientDet-d0 die niedrigsten FLOPs aufweist. Wenn es jedoch um den Einsatz für Echtzeitanwendungen geht, ist die Inferenzgeschwindigkeit von größter Bedeutung. Hier zeigt Ultralytics YOLOv5 einen entscheidenden Vorteil, insbesondere auf GPU-Hardware. Das YOLOv5n-Modell erreicht eine rasante Inferenzzeit von 1,12 ms auf einer T4-GPU mit TensorRT, wodurch es über dreimal schneller ist als das leichteste EfficientDet-Modell. Darüber hinaus sind YOLOv5-Modelle extrem leichtgewichtig, wobei YOLOv5n nur 2,6 Millionen Parameter hat, was es ideal für den Einsatz auf ressourcenbeschränkten Edge-Geräten macht. Dieses Leistungsgleichgewicht aus Geschwindigkeit, Genauigkeit und geringer Modellgröße macht YOLOv5 zu einer äußerst praktischen Wahl für eine Vielzahl von Produktionsumgebungen.
Fazit: Welches Modell sollten Sie wählen?
Sowohl EfficientDet als auch Ultralytics YOLOv5 sind leistungsstarke Modelle zur Objekterkennung, aber sie bedienen unterschiedliche Prioritäten. EfficientDet zeichnet sich aus, wenn maximale Genauigkeit das primäre Ziel ist und die Inferenzlatenz weniger wichtig ist. Seine skalierbare Architektur macht es zu einem starken Kandidaten für akademische Benchmarks und Offline-Verarbeitungsaufgaben.
Für die überwiegende Mehrheit der realen Anwendungen zeichnet sich Ultralytics YOLOv5 jedoch als die bessere Wahl aus. Sein außergewöhnliches Gleichgewicht zwischen Geschwindigkeit und Genauigkeit macht es ideal für Echtzeitsysteme. Die wichtigsten Vorteile von YOLOv5 liegen in seiner Benutzerfreundlichkeit, seinem umfassenden und gut gepflegten Ökosystem und seiner bemerkenswerten Trainingseffizienz. Entwickler können schnell loslegen, benutzerdefinierte Modelle mit minimalem Aufwand trainieren und sie auf einer Vielzahl von Hardware bereitstellen. Die aktive Community und Tools wie Ultralytics HUB bieten eine beispiellose Unterstützung und machen es zu einem äußerst praktischen und entwicklerfreundlichen Framework.
Für diejenigen, die die neuesten Fortschritte nutzen möchten, lohnt es sich auch, neuere Modelle im Ultralytics-Ökosystem zu erkunden, wie z. B. das äußerst vielseitige YOLOv8 oder das hochmoderne YOLO11, die auf dem starken Fundament von YOLOv5 aufbauen, um eine noch bessere Leistung und mehr Funktionen zu bieten. Weitere Vergleiche finden Sie auf der Ultralytics Modellvergleichsseite.