Zum Inhalt springen

Technischer Vergleich: YOLOX vs. EfficientDet für die Objektdetektion

DieYOLO Ultralytics sind für ihre Geschwindigkeit und Genauigkeit bei der Objekterkennung bekannt. Diese Seite bietet einen detaillierten technischen Vergleich zwischen zwei bekannten Objekterkennungsmodellen: YOLOX und EfficientDet. Wir untersuchen ihre Architektur, Leistungsbenchmarks, Trainingsmethoden und optimalen Anwendungen, um Ihnen bei der Auswahl des am besten geeigneten Modells für Ihre Computer-Vision-Anforderungen zu helfen.

YOLOX: Leistungsstarker ankerloser Detektor

YOLOX ("You Only Look Once X") ist ein von Megvii entwickelter hochmoderner verankerungsfreier Objektdetektor. Er ist auf Einfachheit und hohe Leistung ausgelegt und überbrückt die Lücke zwischen Forschung und praktischen industriellen Anwendungen.

Architektur und Hauptmerkmale

YOLOX zeichnet sich durch ein ankerloses Erkennungsparadigma aus, das die Architektur vereinfacht und die Effizienz steigert. Zu den wichtigsten Highlights der Architektur gehören:

  • Ankerfreies Design: Eliminiert die Komplexität von Ankerboxen, was zu einer einfacheren Implementierung und potenziell besseren Verallgemeinerung führt, insbesondere für Objekte mit unterschiedlichen Seitenverhältnissen.
  • Entkoppelter Kopf: Trennt die Klassifizierungs- und Lokalisierungsköpfe, um die Optimierung für jede Aufgabe und die Gesamtgenauigkeit zu verbessern.
  • Fortgeschrittene Trainingsstrategien: Einsatz von Techniken wie SimOTA-Label-Zuweisung und starke Datenerweiterung (MixUp und Mosaic), um robustes Training und verbesserte Leistung zu gewährleisten.

Die Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, und Jian Sun Organisation: Megvii Datum: 2021-07-18 Arxiv-Link: https://arxiv.org/abs/2107.08430 GitHub-Link: https://github.com/Megvii-BaseDetection/YOLOX Dokumentation Link: https://yolox.readthedocs.io/en/latest/

Leistungsmetriken

YOLOX-Modelle bieten ein überzeugendes Gleichgewicht aus Geschwindigkeit und Genauigkeit. Wie in der Vergleichstabelle dargestellt, erreicht YOLOX wettbewerbsfähige mAP-Werte bei gleichzeitig hoher Inferenzgeschwindigkeit und ist damit für Echtzeitanwendungen geeignet. Detaillierte Leistungsdaten für verschiedene Modellgrößen finden Sie in der nachstehenden Tabelle.

Anwendungsfälle

  • Objekt-Erkennung in Echtzeit: Ideal für Anwendungen, die eine schnelle Erkennung erfordern, wie z. B. Sicherheitssysteme und Live-Videoanalyse.
  • Edge-Geräte: Effiziente Leistung auf ressourcenbeschränkten Geräten wie NVIDIA Jetson und mobilen Plattformen.
  • Autonome Systeme: Gut geeignet für Robotik und autonome Fahrzeuge, bei denen eine schnelle und genaue Wahrnehmung entscheidend ist.

Stärken und Schwächen

Stärken:

  • Hohe Inferenzgeschwindigkeit: Die verankerungsfreie Architektur und das optimierte Design tragen zu einer schnellen Verarbeitung bei.
  • Einfachheit: Dank des schlanken Designs ist es im Vergleich zu ankerbasierten Modellen einfacher zu trainieren und einzusetzen.
  • Gute Balance zwischen Genauigkeit und Geschwindigkeit: Bietet eine wettbewerbsfähige Genauigkeit ohne Einbußen bei der Ableitungsgeschwindigkeit.

Schwachstellen:

  • mAP: Obwohl es sehr effizient ist, kann es in bestimmten Szenarien etwas ungenauer sein als einige größere, komplexere Modelle.

Erfahren Sie mehr über YOLOX

EfficientDet: Skalierbare und effiziente Objektdetektion

EfficientDet, entwickelt von Google Research, ist bekannt für seine Skalierbarkeit und Effizienz bei der Objekterkennung. Es verwendet eine Familie von Modellen, die im Vergleich zu früheren Detektoren mit deutlich weniger Parametern und FLOPs die höchste Genauigkeit erreichen.

Architektur und Hauptmerkmale

EfficientDet führt mehrere Innovationen ein, um sowohl die Effizienz als auch die Genauigkeit zu verbessern:

  • BiFPN (Bi-direktionales Merkmalspyramidennetz): Ermöglicht die effiziente Fusion von Merkmalen in mehreren Maßstäben, so dass das Netzwerk Merkmale in verschiedenen Auflösungen effektiv nutzen kann.
  • Zusammengesetzte Skalierung: Skaliert alle Dimensionen des Netzes (Backbone, BiFPN und Box/Klassenvorhersagenetz) einheitlich mit einem einzigen Verbundkoeffizienten, wodurch der Skalierungsprozess vereinfacht und die Leistung optimiert wird.
  • Effizientes Backbone: Verwendet EfficientNet als Backbone-Netzwerk, das für seine Effizienz und seine starken Fähigkeiten zur Merkmalsextraktion bekannt ist.

Die Autoren: Mingxing Tan, Ruoming Pang, und Quoc V. Le Organisation: Google Datum: 2019-11-20 Arxiv-Link: https://arxiv.org/abs/1911.09070 GitHub-Link: https:google Dokumentation Link: https:google

Leistungsmetriken

EfficientDet-Modelle sind so konzipiert, dass sie über verschiedene Skalen hinweg hocheffizient sind, und bieten eine Reihe von Modellen von d0 bis d7. Sie erreichen hervorragende mAP-Werte mit einer relativ geringen Anzahl von Parametern und FLOPs, wodurch sie sich für den Einsatz in ressourcenbeschränkten Umgebungen eignen. Detaillierte Metriken finden Sie in der Vergleichstabelle.

Anwendungsfälle

  • Mobile und Edge-Bereitstellung: Die kleinen Modellgrößen und die hohe Effizienz von EfficientDet machen es ideal für mobile Geräte und Edge-Computing-Szenarien.
  • Anwendungen, die hohe Genauigkeit bei begrenzten Ressourcen erfordern: Geeignet für Anwendungen, bei denen es auf Genauigkeit ankommt, die Rechenressourcen aber begrenzt sind, wie z. B. bei der Qualitätsprüfung von Kantengeräten.
  • Batteriebetriebene Geräte: Das energieeffiziente Design ermöglicht den Einsatz in batteriebetriebenen Geräten und IoT-Anwendungen.

Stärken und Schwächen

Stärken:

  • Hohe Effizienz: Erzielt modernste Genauigkeit mit weniger Parametern und FLOPs, was zu einer schnelleren Inferenz und geringeren Rechenkosten führt.
  • Skalierbarkeit: Die Compound-Scaling-Methode ermöglicht eine einfache Skalierung des Modells, um unterschiedliche Genauigkeits- und Ressourcenanforderungen zu erfüllen.
  • Genauigkeit: Starke Leistung in Bezug auf mAP, insbesondere bei kleineren und mittleren Modellen.

Schwachstellen:

  • Inferenzgeschwindigkeit: Obwohl effizient, kann EfficientDet langsamer sein als Modelle, die speziell auf Geschwindigkeit optimiert sind, wie YOLOv10 oder YOLOv8insbesondere bei den größeren Varianten.

Erfahren Sie mehr über EfficientDet

Leistungsvergleichstabelle

Modell Größe
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0

Weitere aufschlussreiche Vergleiche zwischen Objekterkennungsmodellen finden Sie in den Ultralytics Docs:

📅 Erstellt vor 1 Jahr ✏️ Aktualisiert vor 1 Monat

Kommentare