Zum Inhalt springen

YOLOv9 . EfficientDet: Ein technischer Vergleich von Architektur und Leistung

In der sich ständig weiterentwickelnden Landschaft der Computervision ist die Auswahl der richtigen Objektdetektionsarchitektur eine wichtige Entscheidung, die sich auf die Latenz, Genauigkeit und Komplexität der Bereitstellung des Systems auswirkt. Dieser Leitfaden enthält einen detaillierten technischen Vergleich zwischen YOLOv9, einem Anfang 2024 eingeführten hochmodernen Modell, und EfficientDet, einer sehr einflussreichen Architektur von Google , die für ihre effiziente Skalierbarkeit Google . Wir analysieren ihre strukturellen Unterschiede, Leistungskennzahlen und Eignung für reale Anwendungen.

Analyse von Leistungsmetriken

Die folgende Tabelle vergleicht die Leistung verschiedener Modellskalen. YOLOv9 weist im Vergleich zur älteren EfficientDet-Architektur im Allgemeinen ein besseres Verhältnis von Genauigkeit zu Parametern und schnellere Inferenzgeschwindigkeiten auf moderner Hardware auf.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Modellübersichten

YOLOv9

Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation: Institut für Informationswissenschaft, Academia Sinica, Taiwan
Datum: 21.02.2024
Links:Arxiv | GitHub | Docs

YOLOv9 bedeutende architektonische Innovationen YOLOv9 , um das Problem des „Informationsengpasses” in tiefen Netzwerken zu lösen. Der zentrale Beitrag ist die programmierbare Gradienteninformation (PGI), die über einen zusätzlichen Überwachungszweig zuverlässige Gradienten generiert, um sicherzustellen, dass tiefe Schichten wichtige Merkmalsinformationen beibehalten. Darüber hinaus nutzt es das Generalized Efficient Layer Aggregation Network (GELAN), eine leichtgewichtige Architektur, die die Parametereffizienz maximiert.

Erfahren Sie mehr über YOLOv9

EfficientDet

Autoren: Mingxing Tan, Ruoming Pang, Quoc V. Le
Organisation:Google
Datum: 20.11.2019
Links:Arxiv | GitHub

EfficientDet war eine Pionierarbeit im Bereich AutoML, mit der das bidirektionale Feature-Pyramiden-Netzwerk (BiFPN) eingeführt wurde. Im Gegensatz zu herkömmlichen FPNs ermöglicht BiFPN durch die Einführung lernbarer Gewichte eine einfache Fusion von Merkmalen auf mehreren Ebenen. Das Modell verwendet außerdem Compound Scaling, eine Methode, die Auflösung, Tiefe und Breite einheitlich skaliert, wodurch es über ein breites Spektrum von Ressourcenbeschränkungen (von D0 bis D7) hinweg eine hervorragende Leistung erzielt.

Architektonischer Deep Dive

Feature Fusion: GELAN vs. BiFPN

Der Hauptunterschied liegt darin, wie diese Modelle Merkmale aggregieren. EfficientDet basiert auf der komplexen BiFPN-Struktur, die zwar theoretisch in FLOPs effizient ist, jedoch speicherintensiv sein kann und für bestimmte Hardwarebeschleuniger wie TensorRT.

Im Gegensatz dazu vereint die GELAN-Architektur YOLOv9 die besten Aspekte von CSPNet und ELAN. Sie priorisiert die Gradientenpfadplanung gegenüber komplexen Fusionsverbindungen. Das Ergebnis ist ein Netzwerk, das nicht nur weniger Parameter hat, sondern auch „hardwarefreundlicher” ist, was zu GPU höheren GPU während des Trainings und der Inferenz führt.

Gradientenfluss und Informationsverlust

EfficientDet basiert auf Standard-Backpropagation durch ein sehr tiefes EfficientNet-Backbone. YOLOv9 das Problem, dass tiefe Netzwerke Details der Eingabedaten „vergessen”. Durch PGI YOLOv9 einen zusätzlichen reversiblen Zweig, der den Lernprozess steuert und sicherstellt, dass der Hauptzweig robuste semantische Merkmale erfasst, ohne dass während der Inferenz Rechenaufwand für die Aufrechterhaltung dieser zusätzlichen Zweige entsteht.

Ermahnung: PGI-Leistung

YOLOv9 programmierbarer Gradienteninformationen (PGI) YOLOv9 eine bessere Konvergenz mit weniger Daten, was besonders bei benutzerdefinierten Datensätzen von Vorteil ist, bei denen annotierte Beispiele möglicherweise rar sind.

Ökosystem und Benutzerfreundlichkeit

Einer der grundlegendsten Unterschiede für Entwickler ist das Ökosystem, das diese Modelle umgibt.

EfficientDet basiert in erster Linie auf dem TensorFlow . Es ist zwar leistungsstark, aber seine Nutzung erfordert oft die Navigation durch komplexe Abhängigkeitsketten oder ältere Repositorys, die möglicherweise nicht regelmäßig aktualisiert werden.

YOLOv9, das in das Ultralytics integriert ist, bietet eine optimierte Benutzererfahrung. Entwickler können über eine einfache Python auf das Modell zugreifen, wodurch Training, Validierung und Bereitstellung in wenigen Minuten möglich sind. Das Ultralytics übernimmt die Datenvergrößerung und Protokollierung (z. B. in MLflow oder Comet) und den Export automatisch.

from ultralytics import YOLO

# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for deployment
model.export(format="onnx")

Dieser Ausschnitt verdeutlicht die Benutzerfreundlichkeit der Ultralytics . Das Framework unterstützt außerdem Automatic Mixed Precision (AMP) undGPU von Haus aus und gewährleistet so Trainingseffizienz.

Vielseitigkeit und Einsatzmöglichkeiten

Aufgabenunterstützung

EfficientDet wurde grundsätzlich für die Objekterkennung entwickelt. Die Anpassung für Aufgaben wie Segmentierung oder Posenschätzung erfordert erhebliche architektonische Änderungen und benutzerdefinierten Code.

Ultralytics , darunter YOLOv9 seine Nachfolger, basieren auf einer vielseitigen Codebasis, die nativ Folgendes unterstützt:

Edge-Kompatibilität und Speicher

Während EfficientDet-D0 klein ist, verursacht die Skalierung auf D7 aufgrund der Auflösungsskalierung (bis zu 1536x1536) enorme Speicherkosten. YOLOv9 für die meisten Benchmarks eine Standardauflösung von 640x640 YOLOv9 und erzielt dabei eine überragende Genauigkeit. Diese niedrigere Eingabeauflösung reduziert den Speicherbedarf für VRAM erheblich, was größere Batch-Größen und schnellere Experimente auf Consumer-GPUs ermöglicht.

Darüber hinaus unterstützen Ultralytics den Export mit einem Klick in Formate wie TFLite für Mobilgeräte, OpenVINO für Intel und CoreML Apple-Geräte, wodurch eine umfassende Edge-Kompatibilität gewährleistet ist.

Anwendungsfälle in der Praxis

Die Wahl des Modells entscheidet oft über den Erfolg einer bestimmten Anwendung:

  • Einzelhandelsanalyse: Zum Zählen von Produkten in Regalen YOLOv9 aufgrund seiner hohen Genauigkeit (mAP) bei kleinen Objekten überlegen, was auf die Fähigkeit von PGI zurückzuführen ist, feine Details beizubehalten.
  • Autonome Drohnen: In Szenarien, die Echtzeit-Inferenz auf eingebetteter Hardware erfordern (z. B. Jetson Orin), bietet die effiziente GELAN-Architektur YOLOv9 die erforderliche Bildwiederholrate, die die komplexen BiFPN-Schichten von EfficientDet oft nur schwer erreichen können.
  • Legacy-Systeme:EfficientDet bleibt relevant für Forschungsvergleiche oder ältere Google TPU , bei denen die spezifische Modellarchitektur fest in die Hardware-Pipeline integriert ist.

Die Zukunft: YOLO26

YOLOv9 zwar eine außergewöhnliche Leistung, doch der Bereich der KI entwickelt sich rasant weiter. Ultralytics seine Innovationen mit YOLO26 Ultralytics , der empfohlenen Wahl für neue Projekte.

YOLO26 baut auf den Stärken früherer YOLO auf, führt jedoch ein natives End-to-End-Design NMS ein, wodurch die Latenz und Komplexität der Nachbearbeitung durch Non-Maximum Suppression entfällt. Es verfügt über den MuSGD Optimizer– eine Mischung aus SGD Muon – und entfernt Distribution Focal Loss (DFL) für einen einfacheren Export. Diese Änderungen führen zu CPU um bis zu 43 % schnelleren CPU und einer verbesserten Trainingsstabilität.

Erfahren Sie mehr über YOLO26

Darüber hinaus verfügt YOLO26 über ProgLoss + STAL (Soft-Target Anchor Loss), was zu deutlichen Verbesserungen bei der Erkennung kleiner Objekte führt, was für die Robotik und Luftbildaufnahmen von entscheidender Bedeutung ist. Für Entwickler, die das optimale Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und einfacher Implementierung suchen, stellt YOLO26 den neuen Standard dar.

Fazit

Beide Architekturen haben sich ihren Platz in der Geschichte der Computervision verdient. EfficientDet demonstrierte die Leistungsfähigkeit der zusammengesetzten Skalierung, während YOLOv9 zeigte, wie programmierbare Gradienten Informationen in tiefen Netzwerken wiederherstellen können. Für moderne Produktionsumgebungen bietet das Ultralytics , das sowohl YOLOv9 das neuere YOLO26 unterstützt, jedoch einen deutlichen Vorteil in Bezug auf Wartbarkeit, Trainingsgeschwindigkeit und Flexibilität bei der Bereitstellung.

Siehe auch


Kommentare