YOLOv9 . PP-YOLOE+: Ein technischer Einblick in die moderne Objekterkennung
Die Landschaft der Echtzeit-Objekterkennung entwickelt sich weiterhin rasant und bietet Computer-Vision-Ingenieuren eine Vielzahl von Möglichkeiten für den Einsatz hochpräziser Modelle auf Edge- und Cloud-Infrastrukturen. Zwei herausragende Modelle in diesem Bereich sind YOLOv9 und PP-YOLOE+. Beide Modelle setzen neue Maßstäbe in Sachen Genauigkeit und Geschwindigkeit, stammen jedoch aus unterschiedlichen Forschungszweigen und Software-Ökosystemen.
Dieser umfassende technische Vergleich untersucht ihre Architekturen, Trainingsmethoden, Leistungskennzahlen und idealen Anwendungsbereiche in der Praxis. Wir werden auch untersuchen, wie das breitere Ultralytics Entwicklern, die Wert auf Benutzerfreundlichkeit, Speichereffizienz und vielseitige Einsatzmöglichkeiten legen, erhebliche Vorteile bietet.
Modellursprünge und technische Spezifikationen
Das Verständnis des Hintergrunds dieser Modelle hilft dabei, ihre architektonischen Entscheidungen und Framework-Abhängigkeiten in einen Kontext zu setzen.
YOLOv9: Lösung des Informationsengpasses
YOLOv9 wurde Anfang 2024 eingeführt und YOLOv9 den Datenverlust, der beim Informationsfluss durch tiefe neuronale Netze auftritt. Es handelt sich um ein hochoptimiertes konvolutionelles neuronales Netz, das zur Maximierung der Parametereffizienz entwickelt wurde.
- Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organisation: Institute of Information Science, Academia Sinica, Taiwan
- Datum: 21. Februar 2024
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
- Dokumentation:Ultralytics YOLOv9 Dokumentation
PP-YOLOE+: Weiterentwicklung des Paddel-Ökosystems
PP-YOLOE+ wurde 2022 von Baidu veröffentlicht und ist eine iterative Verbesserung gegenüber PP-YOLOv2. Es nutzt ein ankerfreies Paradigma und führt eine dynamische Label-Zuweisungsstrategie ein, um die Konvergenz und Genauigkeit innerhalb des PaddlePaddle zu verbessern.
- Autoren: PaddlePaddle Autoren
- Organisation: Baidu
- Datum: 2. April 2022
- Arxiv:2203.16250
- GitHub:PaddleDetection
- Dokumente:PP-YOLOE+ Konfiguration
Erfahren Sie mehr über PP-YOLOE+
Architekturvergleich
Programmierbare Gradienteninformationen vs. CSPRepResStage
Die zentrale Innovation in YOLOv9 die programmierbare Gradienteninformation (PGI). PGI fungiert als zusätzliches Überwachungsframework, das sicherstellt, dass wichtige Gradienteninformationen erhalten bleiben und während des Trainings präzise an die flachen Schichten zurückgemeldet werden. Dies wird mit dem Generalized Efficient Layer Aggregation Network (GELAN) kombiniert, das die Stärken von CSPNet und ELAN vereint, um eine hohe Genauigkeit zu erzielen und gleichzeitig den Rechenaufwand (FLOPs) drastisch zu reduzieren.
PP-YOLOE+ basiert auf einem speziellen Backbone namens CSPRepResStageEs nutzt Reparametrisierungstechniken (ähnlich denen in RepVGG), um die Inferenz durch Zusammenführen von Faltungsschichten während der Bereitstellung zu beschleunigen. Darüber hinaus verwendet es den Efficient Task-aligned Head (ET-Head), um Klassifizierungs- und Regressionsaufgaben auszugleichen.
Während PP-YOLOE+ robust ist, benötigt die GELAN-Architektur YOLOv9 in der Regel sowohl während des Trainings als auch während der Inferenz weniger Speicherplatz, wodurch sie sich besonders gut für Edge-KI-Geräte eignet.
Leistungsvergleich
Bei der Bewertung von Modellen für die Produktion ist der Kompromiss zwischen mAP mittlere durchschnittliche Präzision), Inferenzgeschwindigkeit und Modellgröße entscheidend.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Analyse
- Parametereffizienz: YOLOv9 eine bemerkenswert höhere Effizienz. So erreicht YOLOv9c beispielsweise einen mAP 53,0 % mit nur 25,3 Millionen Parametern, während PP-YOLOE+l mehr als doppelt so viele Parameter (52,2 Millionen) benötigt, um einen etwas niedrigeren mAP 52,9 % zu erreichen. Dadurch werden die Speicheranforderungen für YOLOv9 drastisch gesenkt.
- Inferenzgeschwindigkeit: YOLOv9 weisen eine hervorragende Optimierung für Hardware-Beschleuniger wie TensorRTund erzielen damit wettbewerbsfähige Inferenzgeschwindigkeiten auf NVIDIA -GPUs, die für die Echtzeit-Inferenz entscheidend sind.
Trainingsmethoden und Ökosystem
Die Wahl zwischen diesen Modellen hängt oft vom Software-Ökosystem ab.
PP-YOLOE+ und PaddlePaddle
PP-YOLOE+ ist eng mit der PaddleDetection-Suite verbunden. Es ist zwar leistungsstark, erfordert jedoch von den Benutzern die Navigation in einer konfigurationsintensiven, kommandozeilenbasierten Umgebung. Für Teams, die tief in die PyTorch oder TensorFlow integriert sind, PaddlePaddle der Übergang zu PaddlePaddle erhebliche Reibungsverluste und eine steilere Lernkurve PaddlePaddle .
Ultralytics von Ultralytics : Optimierte Arbeitsabläufe
Im Gegensatz dazu YOLOv9 innerhalb des hochentwickelten Ultralytics . Ultralytics wurde für Entwickler und Forscher konzipiert und Ultralytics eine außergewöhnliche Benutzerfreundlichkeit. Die Python abstrahiert komplexen Boilerplate-Code vollständig.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for production deployment
model.export(format="onnx")
Dieser Workflow verdeutlicht die überlegene Trainingseffizienz der Ultralytics . Native Unterstützung für Datenvergrößerung, verteiltes Training und automatische Protokollierung auf Plattformen wie Weights & Biases oder MLflow ist standardmäßig enthalten.
Entdecken Sie die neuesten Entwicklungen im Bereich Vision AI
Obwohl YOLOv9 eine außergewöhnliche Leistung YOLOv9 , empfehlen wir dringend, das neu veröffentlichte Ultralytics für neue Projekte in Betracht zu ziehen. YOLO26 verfügt über ein natives NMS, das die Bereitstellung erheblich vereinfacht. Mit DFL Removal (Distribution Focal Loss entfernt für vereinfachten Export und bessere Kompatibilität mit Edge-/Low-Power-Geräten) bietet es CPU bis zu 43 % schnellere CPU für Edge-Computing. Angetrieben vom MuSGD Optimizer sorgt es für stabiles Training und schnelle Konvergenz. Darüber hinaus bietet ProgLoss + STAL verbesserte Verlustfunktionen mit bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für IoT, Robotik und Luftbildaufnahmen von entscheidender Bedeutung ist.
Vielseitigkeit und Aufgabenunterstützung
Moderne Computer-Vision-Projekte beschränken sich selten auf einfache Begrenzungsrahmen.
PP-YOLOE+ wurde in erster Linie für die Erkennung von Standardobjekten entwickelt. Die Anpassung seiner Architektur für andere Aufgaben erfordert umfangreiche kundenspezifische Entwicklungsarbeiten.
Umgekehrt ist das Ultralytics ein Multitasking-Kraftpaket. Durch die Verwendung einer einheitlichen API können Entwickler mühelos von der Standard-Objekterkennung zu komplexer Instanzsegmentierung, hochpräziser Posenschätzung, OBB- Erkennung (Oriented Bounding Box) für Luftbilder und Bildklassifizierung wechseln. Diese beispiellose Vielseitigkeit ist der Grund, warum Unternehmen sich immer wieder für Ultralytics wie YOLOv9, YOLO11und YOLO26.
Ideale Anwendungsfälle und Anwendungen
- Smart City Analytics & Verkehrsmanagement: Die hohe Parametereffizienz und geringe Latenz von YOLOv9 (und des nachfolgenden YOLO26) machen sie ideal für den Einsatz auf begrenzter Edge-Hardware (wie NVIDIA Geräten) zur Überwachung des Verkehrsflusses und der städtischen Sicherheit.
- Einzelhandelsinventarsysteme: Zur Erkennung dichter Anordnungen kleiner Artikel in Regalen behält das PGI YOLOv9 feine räumliche Details effektiv bei und übertrifft damit PP-YOLOE+ bei der Erkennung kleiner Objekte.
- Legacy-Bereitstellungen:PP-YOLOE+ bleibt eine praktikable Option ausschließlich für Teams, die ausdrücklich dazu verpflichtet sind, denPaddlePaddle in der bestehenden Legacy-Infrastruktur zu verwenden.
Für Forscher, die sich mit Transformer-basierten Architekturen beschäftigen, bietet Ultralytics native Unterstützung für RT-DETR innerhalb derselben benutzerfreundlichen API, sodass Sie stets Zugriff auf das optimale Modell für Ihre spezifischen Bereitstellungsanforderungen haben.