PP-YOLOE+ vs. YOLOv9: Ein umfassender Vergleich von Architekturen zur Objekterkennung
Die Echtzeit-Objekterkennung entwickelt sich weiterhin rasant weiter, wobei Forscher ständig die Grenzen hinsichtlich Genauigkeit, Latenz und Parametereffizienz erweitern. Zwei wichtige Meilensteine auf diesem Weg sind PP-YOLOE+, entwickelt vom PaddlePaddle bei Baidu, und YOLOv9, erstellt von den ursprünglichen YOLOv7 . Dieser Vergleich untersucht die architektonischen Innovationen, Leistungskennzahlen und Einsatzrealitäten dieser beiden leistungsstarken Modelle.
Modell-Metadaten
PP-YOLOE+
Autoren: PaddlePaddle
Organisation: Baidu
Datum: 02.04.2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddleDetection-Repository
Dokumente: Offizielle PaddleDocs
YOLOv9
Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation: Institut für Informationswissenschaften, Academia Sinica, Taiwan
Datum: 21.02.2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: YOLOv9
Dokumente: Ultralytics YOLOv9
Leistungsanalyse
Beim Vergleich dieser Modelle betrachten Entwickler in der Regel den Kompromiss zwischen mAP (Mean Average Precision) und der Inferenzgeschwindigkeit. Die folgende Tabelle zeigt, dass PP-YOLOE+ zwar 2022 ein hochmoderner ankerfreier Detektor war, YOLOv9 2024) jedoch neuere Architekturprinzipien nutzt, um eine überlegene Parametereffizienz zu erzielen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Zu den wichtigsten Erkenntnissen gehören:
- Parametereffizienz: YOLOv9t erreicht eine wettbewerbsfähige Genauigkeit mit weniger als der Hälfte der Parameter von PP-YOLOE+t (2,0 Mio. gegenüber 4,85 Mio.), wodurch es sich weitaus besser für Edge-Geräte mit begrenzter Speicherkapazität eignet.
- Genauigkeit bei großem Umfang: Bei größeren Modellen übertrifft YOLOv9e PP-YOLOE+x in mAP 55,6 % gegenüber 54,7 %), wobei deutlich weniger Parameter verwendet werden (57,3 Mio. gegenüber 98,42 Mio.).
- Geschwindigkeit: YOLOv9 extrem wettbewerbsfähige Inferenzgeschwindigkeiten auf NVIDIA -GPUs, insbesondere für die kleineren Varianten.
Architektonische Unterschiede
PP-YOLOE+: Verfeinerte ankerfreie detect-ion
PP-YOLOE+ ist eine Weiterentwicklung von PP-YOLOv2, bei der der Schwerpunkt auf einem ankerfreien Paradigma liegt. Es verwendet ein CSPResNet-Backbone und einen vereinfachten CSPPAN-Neck. Zu den wichtigsten Merkmalen gehören:
- Task Alignment Learning (TAL): Eine Strategie zur Zuordnung von Labels, die positive Beispiele dynamisch auf der Grundlage einer Kombination aus Klassifizierungs- und Lokalisierungswerten auswählt.
- ET-Head: Ein effizienter, aufgabenorientierter Kopf, der Geschwindigkeit und Genauigkeit in Einklang bringt.
- Dynamisches Matching: Verbessert die Konvergenzgeschwindigkeit während des Trainings im Vergleich zur statischen Ankerzuweisung.
YOLOv9: Programmierbare Gradienteninformation
YOLOv9 grundlegende Änderungen in der Art und Weise YOLOv9 , wie tiefe Netzwerke den Datenfluss verarbeiten. Es befasst sich mit dem Problem des „Informationsengpasses”, bei dem Daten beim Durchlaufen tiefer Schichten verloren gehen.
- GELAN-Architektur: Das Generalized Efficient Layer Aggregation Network kombiniert die besten Eigenschaften von CSPNet und ELAN, um die Parameterauslastung zu maximieren.
- PGI (Programmable Gradient Information): Dieses neuartige Konzept nutzt einen zusätzlichen reversiblen Zweig, um zuverlässige Gradienten für den Hauptzweig zu generieren, wodurch sichergestellt wird, dass tiefe Merkmale wichtige Informationen über das Eingangsbild beibehalten.
- Zusatzüberwachung: Ähnlich wie bei Segmentierungsmodellen YOLOv9 während des Trainings Zusatzköpfe, um die Leistung zu steigern, ohne die Inferenzgeschwindigkeit zu beeinträchtigen (da diese Köpfe während der Bereitstellung entfernt werden).
Warum Gradienteninformationen wichtig sind
In sehr tiefen neuronalen Netzen können die ursprünglichen Eingabedaten „vergessen“ werden, wenn die Merkmale die letzten Schichten erreichen. Die PGI YOLOv9 stellt sicher, dass das Modell ein vollständiges Verständnis des Objekts beibehält, was besonders hilfreich für die Erkennung kleiner oder verdeckter Objekte in komplexen Szenen ist.
Ökosystem und Benutzerfreundlichkeit
Der wichtigste Unterschied für Entwickler liegt im Ökosystem und im Workflow.
Der Ultralytics Vorteil
YOLOv9 vollständig in das Ultralytics integriert. Das bedeutet, dass Sie das Modell mit derselben einfachen API trainieren, validieren und bereitstellen können, die auch für YOLO11 und YOLO26 verwendet wird.
Wichtigste Vorteile:
- Einheitliche API: Wechseln Sie zwischen Aufgaben wie Objekterkennung und Posenschätzung, indem Sie einfach die Modellgewichtungsdatei ändern.
- Automatisierte MLOps: Die nahtlose Integration mit der Ultralytics ermöglicht Cloud-Training, Datensatzverwaltung und die Bereitstellung von Modellen mit einem Klick.
- Speichereffizienz: Die Ultralytics sind hochgradig optimiert und benötigen oft weniger VRAM als konkurrierende Frameworks. Dies ist ein entscheidender Vorteil gegenüber vielen transformatorbasierten Modellen, die enorme Rechenressourcen erfordern.
- Vielseitigkeit beim Export: Native Unterstützung für den Export nach ONNX, OpenVINO, CoreML und TensorRT , dass Ihr Modell überall ausgeführt werden kann.
from ultralytics import YOLO
# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to TensorRT for maximum GPU speed
model.export(format="engine")
PP-YOLOE+ Workflow
PP-YOLOE+ basiert auf dem PaddlePaddle . Dieses ist zwar leistungsstark, erfordert jedoch die Einführung eines spezifischen Ökosystems, das sich von dem von vielen Forschern bevorzugten PyTorch Workflow unterscheidet. Die Einrichtung umfasst häufig das Klonen des PaddleDetection Repository und die manuelle Verwaltung von Konfigurationsdateien, was im Vergleich zum pip install ultralytics Erfahrung.
Anwendungsfälle und Empfehlungen
Wann sollte man bei PP-YOLOE+ bleiben?
- Legacy-Integration: Wenn Ihre Produktionsumgebung bereits auf PaddlePaddle von Baidu basiert.
- Spezifische Hardware: Wenn Sie die Bereitstellung auf Hardware durchführen, die speziell für Paddle Lite optimiert ist.
Wann sollten Sie sich für Ultralytics YOLO entscheiden?
Für die überwiegende Mehrheit neuer Projekte YOLOv9 oder das neuere YOLO26 die empfohlenen Optionen.
- Forschung und Entwicklung: Die PGI-Architektur in YOLOv9 Forschern, die sich mit Gradientenfluss befassen, ein reichhaltiges Betätigungsfeld.
- Kommerzielle Bereitstellung: Die robusten Exportoptionen im Ultralytics erleichtern den Übergang von einem PyTorch zu einer C++-Produktionsanwendung unter Verwendung von TensorRT oder OpenVINO.
- Edge Computing: Mit ihrer überlegenen Parametereffizienz (mAP FLOP) eignen sich Ultralytics ideal für batteriebetriebene Geräte wie Drohnen oder Smart-Kameras.
Ausblick: Die Leistungsfähigkeit von YOLO26
Obwohl YOLOv9 ein ausgezeichnetes Modell YOLOv9 , hat sich das Gebiet mit der Veröffentlichung von YOLO26weitere Fortschritte erzielt. Wenn Sie heute ein neues Projekt starten, bietet YOLO26 gegenüber PP-YOLOE+ und YOLOv9 mehrere entscheidende Vorteile.
YOLO26 steht für die neueste Entwicklung im Bereich der Computervision-Effizienz:
- End-to-End NMS: Im Gegensatz zu PP-YOLOE+ und YOLOv9 eine Nachbearbeitung mit Non-Maximum Suppression (NMS) erfordern, ist YOLO26 von Haus aus NMS. Dies reduziert die Latenzschwankungen und vereinfacht die Bereitstellungspipelines erheblich.
- MuSGD-Optimierer: Inspiriert von Innovationen im LLM-Training (wie Moonshot AI's Kimi K2) nutzt YOLO26 den MuSGD-Optimierer für eine schnellere Konvergenz und stabilere Trainingsläufe.
- Verbesserte Erkennung kleiner Objekte: Mit ProgLoss + STAL zeichnet sich YOLO26 durch die Erkennung kleiner Objekte aus, was für viele Echtzeit-Detektoren traditionell eine Schwachstelle darstellt.
- CPU : Durch die Entfernung von Distribution Focal Loss (DFL) und andere Optimierungen erreicht YOLO26 CPU um bis zu 43 % schnellere CPU und ist damit die erste Wahl für serverlose Umgebungen oder Edge-Geräte ohne dedizierte NPUs.
Zusammenfassung
Sowohl PP-YOLOE+ als auch YOLOv9 Meilensteine in der Geschichte der Objekterkennung. PP-YOLOE+ verfeinerte den ankerfreien Ansatz, während YOLOv9 über PGI Konzepte der tiefen Überwachung YOLOv9 . Für Entwickler, die das beste Gleichgewicht zwischen Genauigkeit, Benutzerfreundlichkeit und zukunftssicherer Bereitstellung suchen, ist jedoch das Ultralytics – angeführt von YOLOv9 und dem revolutionären YOLO26– die robusteste Lösung.
Mehr erfahren
Interessiert an anderen Architekturen? Sehen Sie sich unsere Vergleiche für RT-DETR (Transformer-basiert) oder YOLO11 an, um die perfekte Lösung für Ihre Anwendung zu finden.