Zum Inhalt springen

YOLOv6.0 gegen EfficientDet: Ausgleich zwischen Geschwindigkeit und Präzision bei der Objekterkennung

In der sich schnell entwickelnden Landschaft der Computer Vision ist die Auswahl der richtigen Architektur für die Objekterkennung entscheidend für den Erfolg Ihres Projekts. Dieser Vergleich befasst sich mit YOLOv6.0 und EfficientDet, zwei prominenten Modellen, die die Herausforderung der visuellen Erkennung aus unterschiedlichen Blickwinkeln angehen. Während sich EfficientDet auf Parametereffizienz und Skalierbarkeit konzentriert, wurde YOLOv6.0 speziell für industrielle Anwendungen entwickelt, bei denen Inferenzlatenz und Echtzeitgeschwindigkeit nicht verhandelbar sind.

Leistungsmetriken und technische Analyse

Der grundlegende Unterschied zwischen diesen beiden Architekturen liegt in ihrer Designphilosophie. EfficientDet stützt sich auf einen ausgeklügelten Mechanismus zur Merkmalsfusion, bekannt als BiFPN, der die Genauigkeit verbessert, aber oft auf Kosten der Rechengeschwindigkeit auf GPUs geht. Im Gegensatz dazu verwendet YOLOv6.0 ein Hardware-bewusstes Design und nutzt die Neuparametrisierung, um die Operationen während der Inferenz zu rationalisieren, was zu deutlich höheren FPS (Frames pro Sekunde) führt.

Die nachstehende Tabelle veranschaulicht diesen Zielkonflikt. Während EfficientDet-d7 eine hohe mAP erreicht, ist seine Latenzzeit erheblich. Im Gegensatz dazu bietet YOLOv6.0l eine vergleichbare Genauigkeit bei drastisch reduzierten Inferenzzeiten, wodurch es für Echtzeit-Inferenzszenarien weitaus besser geeignet ist.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Optimierung der Leistung

Für industrielle Anwendungen ist die Kombination von YOLOv6.0 mit TensorRT können massive Geschwindigkeitsverbesserungen erzielt werden. Die architektonische Einfachheit von YOLOv6 ermöglicht eine sehr effiziente Abbildung auf GPU im Vergleich zu den komplexen Feature-Pyramidennetzen älterer Modelle.

YOLOv6.0: Gebaut für die Industrie

YOLOv6.0 ist ein einstufiger Objektdetektor, der die Lücke zwischen akademischer Forschung und industriellen Anforderungen schließen soll. Er legt den Schwerpunkt auf Geschwindigkeit, ohne dabei die für Aufgaben wie die Qualitätsprüfung erforderliche Präzision zu opfern.

Die Autoren: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
Organisation:Meituan
Datum: 2023-01-13
Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
GitHub:YOLOv6
Docs:YOLOv6 Dokumentation

Architektur und Stärken

Das Herzstück von YOLOv6.0 ist sein effizientes Backbone und "RepOpt"-Design. Durch Reparametrisierung entkoppelt das Modell die Strukturen mit mehreren Verzweigungen zur Trainingszeit von den Strukturen mit nur einer Verzweigung zur Inferenzzeit. Das Ergebnis ist ein Modell, das einfach zu trainieren ist, mit reichhaltigen Gradienten, aber extrem schnell in der Ausführung.

  • Selbst-Destillation: Die Trainingsstrategie nutzt die Selbstdistillation, bei der die Vorhersage des Modells selbst als Soft-Label fungiert, um das Lernen zu steuern und die Genauigkeit ohne zusätzliche Daten zu verbessern.
  • Quantisierungsunterstützung: Es wurde mit Blick auf die Modellquantisierung entwickelt, um Genauigkeitseinbußen bei der Konvertierung in INT8 für den Edge-Einsatz zu minimieren.
  • Industrieller Schwerpunkt: Ideal für KI in der Fertigung und Robotik, wo Millisekunden-Latenzzeiten zählen.

Erfahren Sie mehr über YOLOv6.0

EfficientDet: Skalierbare Präzision

EfficientDet hat das Feld revolutioniert, indem es das Konzept der zusammengesetzten Skalierung für die Objekterkennung eingeführt hat. Es optimiert gleichzeitig die Netzwerktiefe, -breite und -auflösung, um eine hervorragende Leistung pro Parameter zu erzielen.

Die Autoren: Mingxing Tan, Ruoming Pang, und Quoc V. Le
Organisation:Google
Datum: 2019-11-20
Arxiv:EfficientDet: Scalable and Efficient Object Detection
GitHub:google

Architektur und Stärken

EfficientDet basiert auf dem EfficientNet-Backbone und führt das Bi-direktionale Feature Pyramid Network (BiFPN) ein. Diese komplexe Halsstruktur ermöglicht eine einfache und schnelle Multi-Skalen-Merkmalsfusion.

  • BiFPN: Im Gegensatz zu den traditionellen FPNs erlaubt BiFPN den Informationsfluss sowohl von oben nach unten als auch von unten nach oben, wobei die verschiedenen Eingangsmerkmale gewichtet werden, um ihre Bedeutung hervorzuheben.
  • Zusammengesetzte Skalierung: Mit einem einfachen Koeffizienten $\phi$ kann der Benutzer das Modell je nach verfügbaren Ressourcen hochskalieren (von d0 bis d7) und so eine vorhersehbare Kurve für die Genauigkeit der Berechnungen erstellen.
  • Parameter-Effizienz: Die kleineren Varianten (d0-d2) sind extrem leichtgewichtig in Bezug auf Plattengröße und FLOPs, was sie für speicherbeschränkte Umgebungen nützlich macht.

Architektonische Komplexität

Das BiFPN ist zwar hocheffektiv in Bezug auf die Genauigkeit, aber seine unregelmäßigen Speicherzugriffsmuster können es auf GPUs langsamer machen als die dichten, regelmäßigen Faltungsblöcke, die in YOLO verwendet werden. Dies ist der Grund, warum EfficientDet trotz weniger Parameter oft mit einer höheren Inferenzlatenz abschneidet.

Erfahren Sie mehr über EfficientDet

Anwendungsfälle in der Praxis

Die Wahl zwischen diesen Modellen hängt oft von den spezifischen Zwängen der Einsatzumgebung ab.

Ideale Szenarien für YOLOv6.0

  • Hochgeschwindigkeitsfertigung: Erkennung von Defekten an sich schnell bewegenden Förderbändern, bei denen eine hohe FPS erforderlich ist, um jedes Teil track .
  • Autonome Navigation: Ermöglichung der Navigation von Robotern in dynamischen Umgebungen durch die Verarbeitung von Videobildern in Echtzeit.
  • Edge Computing: Einsatz auf Geräten wie dem NVIDIA Jetson, wo die GPU für den Durchsatz maximiert werden müssen.

Ideale Szenarien für EfficientDet

  • Medizinische Analyse: Analyse statischer, hochauflösender Bilder, z. B. Tumorerkennung in Röntgenbildern, bei der die Verarbeitungszeit weniger entscheidend ist als die Präzision.
  • Fernerkundung: Offline-Verarbeitung von Satellitenbildern zur Ermittlung von Umweltveränderungen oder Stadtentwicklung.
  • IoT mit geringer Speicherkapazität: Geräte mit extrem begrenzter Speicherkapazität, die eine geringe Größe der Modelldatei erfordern (wie EfficientDet-d0).

Der Ultralytics-Vorteil: Warum YOLO11 wählen?

Während YOLOv6.0 und EfficientDet fähige Modelle sind, ist das Ultralytics YOLO11 repräsentiert den neuesten Stand der Computer Vision Technologie. YOLO11 verfeinert die besten Eigenschaften der vorherigen YOLO und integriert sie in ein nahtloses, benutzerfreundliches Ökosystem.

Die wichtigsten Vorteile von YOLO11

  1. Benutzerfreundlichkeit: Ultralytics legt großen Wert auf die Erfahrung der Entwickler. Mit einer Pythonic-API können Sie Modelle in nur wenigen Codezeilen trainieren, validieren und bereitstellen, im Gegensatz zu den komplexen Konfigurationsdateien, die für EfficientDet oft erforderlich sind.
  2. Vielseitigkeit: Im Gegensatz zu YOLOv6 und EfficientDet, bei denen es sich in erster Linie um Modelle zur Objekterkennung handelt, unterstützt YOLO11 von Haus aus mehrere Aufgaben, darunter Instanzsegmentierung, Posenschätzung, orientierte Bounding Boxes (OBB) und Klassifizierung.
  3. Ausgewogene Leistung: YOLO11 erreicht einen modernen Kompromiss zwischen Geschwindigkeit und Genauigkeit. Es übertrifft ältere Architekturen im COCO durchgängig, während die Latenzzeit niedrig bleibt.
  4. Gut gepflegtes Ökosystem: Ultralytics werden von einer aktiven Gemeinschaft unterstützt und häufig aktualisiert. Sie erhalten Zugang zu umfangreicher Dokumentation, Tutorials und nahtlosen Integrationen mit Tools wie Ultralytics HUB für Cloud-Training und Datensatzverwaltung.
  5. Trainingseffizienz: YOLO11 ist so konzipiert, dass es beim Training ressourceneffizient ist, oft schneller konvergiert und weniger GPU benötigt als komplexe transformatorbasierte Modelle oder ältere Architekturen.
from ultralytics import YOLO

# Load the YOLO11 model (recommended over older versions)
model = YOLO("yolo11n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Erfahren Sie mehr über YOLO11

Andere Modelle entdecken

Wenn Sie Optionen für Ihre Computer-Vision-Pipeline prüfen, sollten Sie auch andere Modelle aus dem Ultralytics in Betracht ziehen. Das YOLOv8 bietet eine robuste Leistung für eine breite Palette von Aufgaben, während der transformatorbasierte RT-DETR eine Alternative für Szenarien darstellt, die eine globale Kontexterkennung erfordern. Für mobilspezifische Anwendungen, YOLOv10 ebenfalls eine Untersuchung wert. Ein Vergleich mit EfficientDet kann Ihnen helfen, Ihre Auswahl auf Ihre spezifischen Hardware- und Genauigkeitsanforderungen abzustimmen.


Kommentare