Zum Inhalt springen

YOLOX vs. EfficientDet: Ein technischer Vergleich von Architekturen zur Objekterkennung

Die Auswahl der optimalen Architektur für die Objekterkennung ist eine wichtige Entscheidung, die sich auf die Latenz, Genauigkeit und Skalierbarkeit von Computer-Vision-Systemen auswirkt. Dieser Vergleich befasst sich mit den technischen Unterschieden zwischen YOLOX, einem leistungsstarken, ankerfreien Detektor von Megvii, und EfficientDet, der skalierbaren Architektur Google, die sich auf Effizienz konzentriert.

Beide Modelle haben die Landschaft der Computervision geprägt, doch moderne Anwendungen erfordern zunehmend Lösungen, die eine vereinfachte Bereitstellung und Edge-native Leistung bieten. Wir werden auch untersuchen, wie die hochmoderne YOLO26 auf diesen Errungenschaften aufbaut, um überlegene Ergebnisse zu erzielen.

Leistungsmetriken und Benchmarks

Die folgende Tabelle vergleicht die Leistung verschiedener Modellskalen im COCO . Zu den wichtigsten Kennzahlen gehören die mittlere durchschnittliche Präzision (mAP) und die Inferenzlatenz, die die Kompromisse zwischen Geschwindigkeit und Genauigkeit verdeutlichen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

YOLOX: Die ankerfreie Evolution

YOLOX stellt eine bedeutende Veränderung in der YOLO dar, da es einen ankerfreien Mechanismus verwendet und den Erkennungskopf entkoppelt. Dieses Design vereinfacht den Trainingsprozess und verbessert die Leistung bei verschiedenen Datensätzen.

Autor: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation: Megvii
Datum: 18.07.2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX

Wesentliche Architekturmerkmale

  • Entkoppelter Kopf: Im Gegensatz zu früheren YOLO , die einen gekoppelten Kopf für die Klassifizierung und Lokalisierung verwendeten, trennt YOLOX diese Aufgaben. Dies führt zu einer schnelleren Konvergenz und einer höheren Genauigkeit.
  • Ankerfreies Design: Durch den Wegfall von Ankerboxen macht YOLOX die manuelle Ankerabstimmung überflüssig und macht das Modell robuster gegenüber unterschiedlichen Objektformen.
  • SimOTA-Label-Zuweisung: YOLOX führt SimOTA ein, eine fortschrittliche Strategie zur Label-Zuweisung, die Ground-Truth-Objekte dynamisch mit Vorhersagen abgleicht und so die Verlustfunktion effektiv ausgleicht.

Stärken und Schwächen

YOLOX zeichnet sich in Szenarien aus, in denen ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit erforderlich ist, insbesondere wenn Probleme mit älteren ankerbasierten Systemen (wie Ungleichgewichte) auftraten. Allerdings kann seine Abhängigkeit von umfangreichen Datenvergrößerungspipelines manchmal die Trainingskonfiguration für benutzerdefinierte Datensätze erschweren.

EfficientDet: Skalierbare Effizienz

EfficientDet konzentriert sich auf die Optimierung der Effizienz durch eine zusammengesetzte Skalierungsmethode, die die Auflösung, Tiefe und Breite des Backbones, des Merkmalsnetzwerks und der Box-/Klassenvorhersagenetzwerke einheitlich skaliert.

Autor: Mingxing Tan, Ruoming Pang und Quoc V. Le
Organisation: Google
Datum: 20.11.2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: google

Wesentliche Architekturmerkmale

  • EfficientNet-Backbone: Nutzt EfficientNet, das für FLOPs und Parametereffizienz optimiert ist.
  • BiFPN (Bidirectional Feature Pyramid Network): Eine gewichtete Merkmalsfusionsebene, die eine einfache und schnelle Merkmalsfusion auf mehreren Ebenen ermöglicht.
  • Verbundskalierung: Eine spezielle Methode, bei der alle Dimensionen des Netzwerks gleichzeitig skaliert werden, anstatt nur die Tiefe oder Breite isoliert zu erhöhen.

Stärken und Schwächen

EfficientDet ist besonders effektiv für Anwendungen, bei denen die Modellgröße (Speicherplatz) eine wesentliche Einschränkung darstellt, wie beispielsweise bei mobilen Apps. Es erzielt zwar mAP hohen mAP, jedoch bleibt seine Inferenzgeschwindigkeit auf GPUs aufgrund der Komplexität des BiFPN und der tiefenweise trennbaren Faltungen, die in der Hardware manchmal weniger optimiert sind als Standardfaltungen, häufig hinter YOLO zurück.

Ultralytics von Ultralytics : Geben Sie YOLO26 ein

Während YOLOX und EfficientDet in den Jahren 2019 bis 2021 eine zentrale Rolle spielten, hat sich das Gebiet rasant weiterentwickelt. YOLO26, das Ultralytics Januar 2026 von Ultralytics veröffentlicht wurde, repräsentiert den neuesten Stand der Bildverarbeitungs-KI und behebt die Einschränkungen früherer Generationen mit bahnbrechenden Innovationen.

Erfahren Sie mehr über YOLO26

Benutzerfreundlichkeit und Ökosystem

Entwickler, die sich für Ultralytics entscheiden, Ultralytics von einem einheitlichen „Zero-to-Hero”-Ökosystem. Im Gegensatz zu den fragmentierten Forschungsrepositorien von YOLOX oder EfficientDet ermöglichen Ihnen die Ultralytics und die API das nahtlose Trainieren, Validieren und Bereitstellen von Modellen. Das Ökosystem unterstützt schnelle Iterationen mit Funktionen wie automatischer Annotation und Ein-Klick-Export in Formate wie ONNX und OpenVINO.

Leistungsmerkmale der nächsten Generation

YOLO26 bietet mehrere architektonische Neuerungen, die es für moderne Einsatzzwecke besonders geeignet machen:

  1. End-to-End-Design NMS: YOLO26 ist von Haus aus End-to-End, sodass keine Nachbearbeitung mit Non-Maximum Suppression (NMS) erforderlich ist. Dies reduziert Latenzschwankungen und vereinfacht die Bereitstellungspipelines, ein Konzept, das erstmals in YOLOv10 eingeführt und hier perfektioniert wurde.

  2. MuSGD-Optimierer: Inspiriert vom Training großer Sprachmodelle (LLM) kombiniert der MuSGD-Optimierer die Stabilität von SGD den Momentum-Eigenschaften von Muon. Dies führt zu einer schnelleren Konvergenz während des Trainings und robusteren Endergebnissen.

  3. Edge-First-Effizienz: Durch die Entfernung des Distribution Focal Loss (DFL) vereinfacht YOLO26 die Struktur der Ausgabeschicht. Diese Änderung führt in Kombination mit architektonischen Optimierungen zu CPU um bis zu 43 % schnelleren CPU im Vergleich zu früheren Generationen, wodurch es auf Edge-Hardware deutlich schneller als EfficientDet ist.

  4. ProgLoss + STAL: Die neuen Verlustfunktionen ProgLoss und STAL bieten deutliche Verbesserungen bei der Erkennung kleiner Objekte, einer häufigen Schwäche früherer ankerfreier Modelle. Dies ist für Anwendungen in der Luftbildfotografie und Robotik von entscheidender Bedeutung.

Trainingstipp

Der MuSGD-Optimierer von YOLO26 ermöglicht aggressivere Lernraten. Wenn Sie mit benutzerdefinierten Datensätzen trainieren, sollten Sie den Ultralytics Tuning Guide verwenden, um die Leistung zu maximieren.

Vielseitigkeit und Speicher

Im Gegensatz zu YOLOX und EfficientDet, die in erster Linie Detektoren sind, ist YOLO26 ein Multitasking-Kraftpaket. Es unterstützt nativ:

Darüber hinaus sind Ultralytics hinsichtlich ihrer Speichereffizienz optimiert. Das Training eines YOLO26-Modells erfordert in der Regel weniger CUDA als transformatorbasierte Alternativen wie RT-DETR, was größere Batch-Größen auf handelsüblichen GPUs ermöglicht.

Codebeispiel: Training von YOLO26

Der Wechsel zu YOLO26 ist mit der Ultralytics Python ganz einfach.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26n model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free output is generated natively
results = model("https://ultralytics.com/images/bus.jpg")

Fazit

Während YOLOX eine starke Basis für ankerfreie Forschung bietet und EfficientDet eine Studie zur Skalierungseffizienz liefert, sticht YOLO26 als pragmatische Wahl für 2026 und darüber hinaus hervor. Die Kombination aus NMS Inferenz, überlegener CPU und der robusten Unterstützung durch das Ultralytics macht es zum idealen Kandidaten für Entwickler, die die Grenzen der Echtzeit-Inferenz erweitern möchten.

Wenn Sie bereit für ein Upgrade sind, entdecken Sie die gesamten Funktionen von YOLO26 in unserer Dokumentation oder zitieren Sie andere moderne Optionen wie YOLO11 für Vergleiche mit älteren Versionen.


Kommentare