YOLOv9 . PP-YOLOE+: Ein technischer Einblick in die moderne Objekterkennung

Die Landschaft der Echtzeit-Objekterkennung entwickelt sich weiterhin rasant und bietet Computer-Vision-Ingenieuren eine Vielzahl von Möglichkeiten für den Einsatz hochpräziser Modelle auf Edge- und Cloud-Infrastrukturen. Zwei herausragende Modelle in diesem Bereich sind YOLOv9 und PP-YOLOE+. Beide Modelle setzen neue Maßstäbe in Sachen Genauigkeit und Geschwindigkeit, stammen jedoch aus unterschiedlichen Forschungszweigen und Software-Ökosystemen.

Dieser umfassende technische Vergleich untersucht ihre Architekturen, Trainingsmethoden, Leistungskennzahlen und idealen Anwendungsbereiche in der Praxis. Wir werden auch untersuchen, wie das breitere Ultralytics Entwicklern, die Wert auf Benutzerfreundlichkeit, Speichereffizienz und vielseitige Einsatzmöglichkeiten legen, erhebliche Vorteile bietet.

Modellursprünge und technische Spezifikationen

Das Verständnis des Hintergrunds dieser Modelle hilft dabei, ihre architektonischen Entscheidungen und Framework-Abhängigkeiten in einen Kontext zu setzen.

YOLOv9: Lösung des Informationsengpasses

YOLOv9 wurde Anfang 2024 eingeführt und YOLOv9 den Datenverlust, der beim Informationsfluss durch tiefe neuronale Netze auftritt. Es handelt sich um ein hochoptimiertes konvolutionelles neuronales Netz, das zur Maximierung der Parametereffizienz entwickelt wurde.

Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 21. Februar 2024
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Dokumentation:Ultralytics YOLOv9 Dokumentation

Erfahren Sie mehr über YOLOv9

PP-YOLOE+: Weiterentwicklung des Paddel-Ökosystems

PP-YOLOE+ wurde 2022 von Baidu veröffentlicht und ist eine iterative Verbesserung gegenüber PP-YOLOv2. Es nutzt ein ankerfreies Paradigma und führt eine dynamische Label-Zuweisungsstrategie ein, um die Konvergenz und Genauigkeit innerhalb des PaddlePaddle zu verbessern.

Autoren: PaddlePaddle Autoren
Organisation: Baidu
Datum: 2. April 2022
Arxiv:2203.16250
GitHub:PaddleDetection
Dokumentation:PP-YOLOE+ Konfiguration

Erfahren Sie mehr über PP-YOLOE+

Architekturvergleich

Programmierbare Gradienteninformationen vs. CSPRepResStage

Die zentrale Innovation in YOLOv9 die programmierbare Gradienteninformation (PGI). PGI fungiert als zusätzliches Überwachungsframework, das sicherstellt, dass wichtige Gradienteninformationen erhalten bleiben und während des Trainings präzise an die flachen Schichten zurückgemeldet werden. Dies wird mit dem Generalized Efficient Layer Aggregation Network (GELAN) kombiniert, das die Stärken von CSPNet und ELAN vereint, um eine hohe Genauigkeit zu erzielen und gleichzeitig den Rechenaufwand (FLOPs) drastisch zu reduzieren.

PP-YOLOE+ basiert auf einem speziellen Backbone namens CSPRepResStage. Es nutzt Re-Parametrisierungstechniken (ähnlich denen in RepVGG), um die Inferenz durch das Zusammenführen von Faltungsschichten während der Bereitstellung zu beschleunigen. Darüber hinaus verwendet es den Efficient Task-aligned head (ET-head), um Klassifikations- und Regressionsaufgaben auszugleichen.

Während PP-YOLOE+ robust ist, benötigt die GELAN-Architektur YOLOv9 in der Regel sowohl während des Trainings als auch während der Inferenz weniger Speicherplatz, wodurch sie sich besonders gut für Edge-KI-Geräte eignet.

Leistungsvergleich

Bei der Bewertung von Modellen für die Produktion ist der Kompromiss zwischen mAP mittlere durchschnittliche Präzision), Inferenzgeschwindigkeit und Modellgröße entscheidend.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Analyse

Parameter-Effizienz: YOLOv9 erreicht eine bemerkenswert höhere Effizienz. Zum Beispiel erreicht YOLOv9c einen mAP von 53,0 % mit nur 25,3 Mio. Parametern, während PP-YOLOE+l über doppelt so viele Parameter (52,2 Mio.) benötigt, um einen leicht niedrigeren mAP von 52,9 % zu erreichen. Dies senkt die Speicheranforderungen für YOLOv9 drastisch.
Inferenzgeschwindigkeit: YOLOv9-Modelle zeigen eine exzellente Optimierung für Hardware-Beschleuniger wie TensorRT, was zu wettbewerbsfähigen Inferenzgeschwindigkeiten auf NVIDIA T4 GPUs führt, die für Echtzeit-Inferenz entscheidend sind.

Trainingsmethoden und Ökosystem

Die Wahl zwischen diesen Modellen hängt oft vom Software-Ökosystem ab.

PP-YOLOE+ und PaddlePaddle

PP-YOLOE+ ist eng mit der PaddleDetection-Suite verbunden. Es ist zwar leistungsstark, erfordert jedoch von den Benutzern die Navigation in einer konfigurationsintensiven, kommandozeilenbasierten Umgebung. Für Teams, die tief in die PyTorch oder TensorFlow integriert sind, PaddlePaddle der Übergang zu PaddlePaddle erhebliche Reibungsverluste und eine steilere Lernkurve PaddlePaddle .

Ultralytics von Ultralytics : Optimierte Arbeitsabläufe

Im Gegensatz dazu YOLOv9 innerhalb des hochentwickelten Ultralytics . Ultralytics wurde für Entwickler und Forscher konzipiert und Ultralytics eine außergewöhnliche Benutzerfreundlichkeit. Die Python abstrahiert komplexen Boilerplate-Code vollständig.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for production deployment
model.export(format="onnx")

Dieser Workflow verdeutlicht die überlegene Trainingseffizienz der Ultralytics . Native Unterstützung für Datenvergrößerung, verteiltes Training und automatische Protokollierung auf Plattformen wie Weights & Biases oder MLflow ist standardmäßig enthalten.

Entdecken Sie die neuesten Entwicklungen im Bereich Vision AI

Obwohl YOLOv9 eine außergewöhnliche Leistung YOLOv9 , empfehlen wir dringend, das neu veröffentlichte Ultralytics für neue Projekte in Betracht zu ziehen. YOLO26 verfügt über ein natives NMS, das die Bereitstellung erheblich vereinfacht. Mit DFL Removal (Distribution Focal Loss entfernt für vereinfachten Export und bessere Kompatibilität mit Edge-/Low-Power-Geräten) bietet es CPU bis zu 43 % schnellere CPU für Edge-Computing. Angetrieben vom MuSGD Optimizer sorgt es für stabiles Training und schnelle Konvergenz. Darüber hinaus bietet ProgLoss + STAL verbesserte Verlustfunktionen mit bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für IoT, Robotik und Luftbildaufnahmen von entscheidender Bedeutung ist.

Vielseitigkeit und Aufgabenunterstützung

Moderne Computer-Vision-Projekte beschränken sich selten auf einfache Begrenzungsrahmen.

PP-YOLOE+ wurde in erster Linie für die Erkennung von Standardobjekten entwickelt. Die Anpassung seiner Architektur für andere Aufgaben erfordert umfangreiche kundenspezifische Entwicklungsarbeiten.

Im Gegensatz dazu ist das Ultralytics-Framework ein Multitasking-Kraftpaket. Durch die Nutzung einer vereinheitlichten API können Entwickler mühelos von der Standard-Objekterkennung zu komplexer Instanzsegmentierung, hochpräziser Pose Estimation, Oriented Bounding Box (OBB)-Erkennung für Luftbilder und Bild-Klassifizierung wechseln. Diese unübertroffene Vielseitigkeit ist der Grund, warum Unternehmensteams konsequent Ultralytics-Modelle wie YOLOv9, YOLO11 und YOLO26 wählen.

Ideale Anwendungsfälle und Anwendungen

Smart City Analysen & Verkehrsmanagement: Die hohe Parametereffizienz und geringe Latenz von YOLOv9 (und dem nachfolgenden YOLO26) machen sie ideal für den Einsatz auf ressourcenbeschränkter Edge-Hardware (wie NVIDIA Jetson-Geräten) zur Überwachung des Verkehrsflusses und der urbanen Sicherheit.
Einzelhandels-Bestandssysteme: Für das detect dichter Konfigurationen kleiner Artikel in Regalen bewahrt das PGI von YOLOv9 effektiv feinkörnige räumliche Details und übertrifft PP-YOLOE+ bei Aufgaben zur detect kleiner Objekte.
Legacy-Deployments:PP-YOLOE+ bleibt eine praktikable Option, die ausschließlich für Teams geeignet ist, die explizit angewiesen sind, den Baidu/PaddlePaddle-Software-Stack in bestehender Legacy-Infrastruktur zu verwenden.

Für Forscher, die sich mit Transformer-basierten Architekturen beschäftigen, bietet Ultralytics native Unterstützung für RT-DETR innerhalb derselben benutzerfreundlichen API, sodass Sie stets Zugriff auf das optimale Modell für Ihre spezifischen Bereitstellungsanforderungen haben.