DAMO-YOLO vs. EfficientDet: Ein technischer Vergleich
In der sich schnell entwickelnden Landschaft der Computer Vision ist die Auswahl der richtigen Architektur für die Objekterkennung entscheidend für den Erfolg der Anwendung. Diese umfassende Analyse vergleicht YOLO, ein Hochleistungsmodell von Alibaba, mit EfficientDet, einer skalierbaren und effizienten Architektur von Google. Beide Modelle brachten bedeutende Innovationen in das Feld ein und lösen den ewigen Kompromiss zwischen Geschwindigkeit, Genauigkeit und Rechenkosten.
Modellübersichten
Bevor man sich mit den Leistungskennzahlen befasst, ist es wichtig, die Herkunft und die architektonische Philosophie hinter jedem Modell zu verstehen.
DAMO-YOLO
YOLO (Distillation-Enhanced Neural Architecture Search-based YOLO) wurde von der Alibaba Group entwickelt und konzentriert sich auf die Maximierung der Inferenzgeschwindigkeit, ohne die Genauigkeit zu beeinträchtigen. Es führt Technologien wie Neural Architecture Search (NAS) für Backbones, ein effizientes RepGFPN (Reparameterized Generalized Feature Pyramid Network) und einen leichtgewichtigen Erkennungskopf mit der Bezeichnung ZeroHead ein.
YOLO Details:
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Organisation:Alibaba-Gruppe
- Datum: 2022-11-23
- Arxiv:YOLO: Ein Bericht über den Entwurf einer Echtzeit-Objektdetektion
- GitHub:YOLO
Erfahren Sie mehr über DAMO-YOLO
EfficientDet
EfficientDet, das vom Google Brain-Team entwickelt wurde, revolutionierte die Objekterkennung, indem es eine zusammengesetzte Skalierungsmethode vorschlug. Dieser Ansatz skaliert gleichmäßig die Auflösung, Tiefe und Breite des Backbone, des Merkmalnetzwerks und der Vorhersagenetzwerke. Es verfügt über das BiFPN (Bi-directional Feature Pyramid Network), das eine einfache und schnelle Merkmalsfusion ermöglicht.
EfficientDet Details:
- Autoren: Mingxing Tan, Ruoming Pang, und Quoc V. Le
- Organisation:Google
- Datum: 2019-11-20
- Arxiv:EfficientDet: Skalierbare und effiziente Objektdetektion
- GitHub:google
Erfahren Sie mehr über EfficientDet
Performance-Analyse: Geschwindigkeit, Genauigkeit und Effizienz
Das folgende Diagramm und die Tabelle bieten einen quantitativen Vergleich der Modelle EfficientDet und YOLO auf dem COCO . Diese Benchmarks verdeutlichen die unterschiedlichen Optimierungsziele der beiden Architekturen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Wichtige Erkenntnisse
Anhand der Daten können wir für jede Modellfamilie unterschiedliche Stärken feststellen:
- GPU : YOLO dominiert bei der GPU . Zum Beispiel,
DAMO-YOLOmerreicht eine mittlere durchschnittliche PräzisionmAP) von 49,2 mit einer Latenz von nur 5,09 ms auf einer GPU. Im Gegensatz dazu,EfficientDet-d4mit einem ähnlichen mAP von 49,7, ist mit 33,55 ms deutlich langsamer. - Parameter Wirkungsgrad: EfficientDet ist extrem leichtgewichtig in Bezug auf Parameter und Gleitkommaoperationen (FLOPs).
EfficientDet-d0verwendet nur 3,9 Mio. Parameter und ist damit sehr speichereffizient. Dies führt jedoch nicht immer zu einer schnelleren Inferenz auf modernen GPUs im Vergleich zu architekturoptimierten Modellen wie YOLO. - CPU : EfficientDet liefert zuverlässige CPU , was darauf hindeutet, dass es eine brauchbare Option für ältere Hardware ist, für die keine GPU verfügbar ist.
Architektur Hinweis
Der Geschwindigkeitsvorteil von YOLO ergibt sich aus der spezifischen Optimierung für die Hardware-Latenz durch Neural Architecture Search (NAS), während EfficientDet für theoretische FLOPs optimiert, die nicht immer linear mit der realen Latenz korrelieren.
Architektonischer Deep Dive
EfficientDet: Die Kraft des Compound Scaling
EfficientDet baut auf dem EfficientNet-Backbone auf, das mobile inverted bottleneck convolutions (MBConv) verwendet. Sein Hauptmerkmal ist das BiFPN, ein gewichtetes bidirektionales Merkmalspyramidennetzwerk. Im Gegensatz zu herkömmlichen FPNs, die nur Merkmale von oben nach unten summieren, ermöglicht das BiFPN, dass Informationen sowohl von oben nach unten als auch von unten nach oben fließen, wobei jede Merkmalsschicht mit lernbaren Gewichten behandelt wird. Auf diese Weise kann das Netz die Bedeutung der verschiedenen Eingangsmerkmale erkennen.
Das Modell skaliert mit einem zusammengesetzten Koeffizienten, phi, der gleichmäßig die Breite, Tiefe und Auflösung des Netzes erhöht, so dass größere Modelle (wie d7) bleiben in Bezug auf Genauigkeit und Effizienz ausgewogen.
YOLO: Auf Geschwindigkeit ausgerichtete Innovation
YOLO verfolgt einen anderen Ansatz und konzentriert sich auf die Echtzeit-Latenzzeit. Es verwendet MAE-NAS (Method of Automating Architecture Search), um die optimale Backbone-Struktur unter bestimmten Latenzvorgaben zu finden.
Zu den wichtigsten Innovationen gehören:
- RepGFPN: Eine Verbesserung gegenüber dem Standard-GFPN, erweitert um eine Neuparametrisierung zur Optimierung der Merkmalsfusionspfade im Hinblick auf Geschwindigkeit.
- ZeroHead: Ein vereinfachter Erkennungskopf, der den Rechenaufwand reduziert, der normalerweise mit den letzten Vorhersageschichten verbunden ist.
- AlignedOTA: Eine Strategie für die Zuweisung von Bezeichnungen, die eine falsche Ausrichtung zwischen Klassifizierungs- und Regressionsaufgaben während des Trainings behebt.
Anwendungsfälle und Anwendungen
Die architektonischen Unterschiede bestimmen, wo sich die einzelnen Modelle in der Praxis auszeichnen.
- EfficientDet ist ideal für speicherbeschränkte Umgebungen oder Anwendungen, die auf CPU angewiesen sind und bei denen die Minimierung der FLOPs entscheidend ist. Es wird häufig in mobilen Anwendungen und eingebetteten Systemen eingesetzt, bei denen die Batterielebensdauer (korreliert mit den FLOPs) ein Hauptanliegen ist.
- YOLO eignet sich hervorragend für die industrielle Automatisierung, das autonome Fahren und die Sicherheitsüberwachung, wo Echtzeit-Inferenzen auf GPUs erforderlich sind. Seine geringe Latenz ermöglicht die Verarbeitung von Videoströmen mit hoher Bildrate ohne Bildaussetzer.
Der Ultralytics
Während YOLO und EfficientDet fähige Modelle sind, ist das Ultralytics Ökosystem eine umfassendere Lösung für die moderne KI-Entwicklung. Modelle wie das hochmoderne YOLO11 und das vielseitige YOLOv8 bieten erhebliche Vorteile in Bezug auf Benutzerfreundlichkeit, Leistung und Funktionsumfang.
Warum Ultralytics wählen?
- Ausgewogene Leistung: Die Modelle Ultralytics sind so konzipiert, dass sie den besten Kompromiss zwischen Geschwindigkeit und Genauigkeit bieten. YOLO11 zum Beispiel bietet im Vergleich zu früheren Generationen eine überlegene mAP bei gleichzeitig außergewöhnlichen Inferenzgeschwindigkeiten sowohl auf CPUs als auch auf GPUs.
Benutzerfreundlichkeit: Nach dem Motto "Batterien inklusive" bietet Ultralytics eine einfache Python und eine leistungsstarke Befehlszeilenschnittstelle (CLI). Entwickler können in wenigen Minuten von der Installation bis zur Schulung gehen.
from ultralytics import YOLO # Load a pre-trained YOLO11 model model = YOLO("yolo11n.pt") # Run inference on an image results = model("path/to/image.jpg")Gut gepflegtes Ökosystem: Im Gegensatz zu vielen Forschungsmodellen, die nach der Veröffentlichung aufgegeben werden, unterhält Ultralytics ein aktives Repository mit häufigen Aktualisierungen, Fehlerkorrekturen und Community-Unterstützung über GitHub-Probleme und Diskussionen.
- Vielseitigkeit: Ultralytics sind nicht auf Bounding Boxes beschränkt. Sie unterstützen von Haus aus Instanzsegmentierung, Posenschätzung, Bildklassifizierung und orientierte Bounding Boxes (OBB), alles in einem einzigen, einheitlichen Rahmen.
- Speichereffizienz: DieYOLO Ultralytics sind so konzipiert, dass sie beim Training speichereffizient sind. Dies steht im Gegensatz zu transformatorbasierten Modellen oder älteren Architekturen, die oft einen beträchtlichen CUDA benötigen, und macht Ultralytics auf Consumer-Hardware zugänglich.
- Trainingseffizienz: Das Framework unterstützt Funktionen wie automatische gemischte Präzision (AMP), GPU und Zwischenspeicherung, um sicherzustellen, dass das Training benutzerdefinierter Datensätze schnell und kostengünstig ist.
Fazit
Sowohl YOLO als auch EfficientDet stellen bedeutende Meilensteine in der Geschichte des Computer Vision dar. EfficientDet demonstrierte die Leistungsfähigkeit von prinzipieller Skalierung und effizienter Merkmalsfusion, während YOLO die Grenzen der latenzbewussten Architektursuche verschob.
Für Entwickler, die eine produktionsreife Lösung suchen, die hohe Leistung mit einer außergewöhnlichen Entwicklererfahrung kombiniert, ist Ultralytics jedoch die richtige Wahl, Ultralytics YOLO11 die empfohlene Wahl. Seine Integration in ein robustes Ökosystem, die Unterstützung für mehrere Computer-Vision-Aufgaben und die kontinuierlichen Verbesserungen machen es zum praktischsten Werkzeug für die Umwandlung visueller Daten in umsetzbare Erkenntnisse.
Weitere Modellvergleiche entdecken
Um Ihnen bei der Modellauswahl weiterzuhelfen, sollten Sie sich die entsprechenden Vergleiche in der Ultralytics ansehen:
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. DAMO-YOLO
- RT-DETR vs. EfficientDet
- YOLOv10 vs. YOLO
- YOLOv9 vs. EfficientDet