Zum Inhalt springen

PP-YOLOE+ vs. YOLOv9: Ein technischer Vergleich

Bei der Auswahl der optimalen Architektur für Computer-Vision-Projekte muss man sich in einer Landschaft von sich schnell entwickelnden Modellen zurechtfinden. Diese Seite bietet einen detaillierten technischen Vergleich zwischen Baidus PP-YOLOE+ und YOLOv9zwei hochentwickelte einstufige Objektdetektoren. Wir analysieren ihre architektonischen Innovationen, Leistungsmetriken und die Integration in das Ökosystem, um Ihnen eine fundierte Entscheidung zu ermöglichen. Obwohl beide Modelle eine hohe Leistungsfähigkeit aufweisen, unterscheiden sie sich in ihrer Designphilosophie und den Framework-Abhängigkeiten.

PP-YOLOE+: Hohe Genauigkeit innerhalb des PaddlePaddle-Ökosystems

PP-YOLOE+ ist eine weiterentwickelte Version von PP-YOLOE, die von Baidu als Teil der PaddleDetection-Suite entwickelt wurde. Es wurde entwickelt, um einen ausgewogenen Kompromiss zwischen Präzision und Inferenzgeschwindigkeit zu bieten, speziell optimiert für die PaddlePaddle Deep Learning Framework optimiert.

Authors: PaddlePaddle Authors
Organisation:Baidu
Datum: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
Docs:PaddleDetection PP-YOLOE+ README

Architektur und Hauptmerkmale

PP-YOLOE+ arbeitet als ankerfreier, einstufiger Detektor. Es baut auf dem CSPRepResNet-Backbone auf und nutzt eine Task Alignment Learning (TAL)-Strategie, um die Ausrichtung zwischen Klassifizierungs- und Lokalisierungsaufgaben zu verbessern. Ein wesentliches Merkmal ist der Efficient Task-aligned Head (ET-Head), der den Rechenaufwand bei gleichbleibender Genauigkeit reduziert. Das Modell verwendet eine varifokale Verlustfunktion, um das Ungleichgewicht der Klassen während des Trainings zu behandeln.

Stärken und Schwächen

Die Hauptstärke von PP-YOLOE+ liegt in seiner Optimierung für Baidus Hardware- und Software-Stack. Es bietet skalierbare Modelle (s, m, l, x), die in Standard-Benchmarks zur Objekterkennung gut abschneiden.

Seine starke Abhängigkeit vom PaddlePaddle stellt jedoch eine erhebliche Hürde für die breitere KI-Gemeinschaft dar, die weitgehend auf PyTorch. Die Umstellung bestehender PyTorch auf PaddlePaddle kann ressourcenintensiv sein. Darüber hinaus erfordert PP-YOLOE+ im Vergleich zu neueren Architekturen mehr Parameter, um eine ähnliche Genauigkeit zu erreichen, was sich auf den Speicherplatz und die Speicherkapazität auf begrenzten Geräten auswirkt.

Erfahren Sie mehr über PP-YOLOE+

YOLOv9: Programmierbare Gradienteninformationen für verbessertes Lernen

Ultralytics YOLOv9 führt einen Paradigmenwechsel in der Echtzeit-Objekterkennung ein, indem es das Problem des "Informationsengpasses" in tiefen neuronalen Netzen angeht.

Authors: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Dokumentationultralytics

Architektur und Hauptmerkmale

YOLOv9 integriert zwei bahnbrechende Konzepte: Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN).

  • PGI: Mit zunehmender Netzwerktiefe gehen während des Feedforward-Prozesses häufig Informationen über die Eingabedaten verloren. PGI bietet einen zusätzlichen Überwachungszweig, der eine zuverlässige Gradientengenerierung gewährleistet und es dem Modell ermöglicht, sich wichtige Merkmale für die Objektverfolgung und -erkennung zu "merken", ohne zusätzliche Kosten für die Inferenz zu verursachen.
  • GELAN: Diese Architektur optimiert die Parametereffizienz, so dass das Modell im Vergleich zu herkömmlichen Backbones, die eine Faltung in der Tiefe verwenden, eine höhere Genauigkeit mit weniger Rechenressourcen (FLOPs) erreichen kann.

Wussten Sie das?

Die PGI-Technik von YOLOv9 löst das Problem des Informationsengpasses, das bisher umständliche Deep Supervision-Methoden erforderte. Das Ergebnis sind Modelle, die sowohl leichter als auch genauer sind, was die Leistungsbilanz erheblich verbessert.

Stärken und Schwächen

YOLOv9 zeichnet sich durch seine Trainingseffizienz und Parameternutzung aus. Es erzielt modernste Ergebnisse auf dem COCO und übertrifft frühere Iterationen in Bezug auf die Genauigkeit, während die Echtzeitgeschwindigkeit beibehalten wird. Seine Integration in das Ultralytics bedeutet, dass es von einem gut gepflegten Ökosystem profitiert, einschließlich der einfachen Bereitstellung über Exportmodi in Formate wie ONNX und TensorRT.

Eine mögliche Überlegung ist, dass die größten VariantenYOLOv9) erhebliche GPU für das Training erfordern. Der Speicherbedarf für die Inferenz bleibt jedoch konkurrenzfähig und vermeidet die hohen Kosten, die mit Transformator-basierten Modellen verbunden sind.

Erfahren Sie mehr über YOLOv9

Vergleichende Leistungsanalyse

In einem direkten Vergleich zeigt YOLOv9 eine überlegene Effizienz. So erreicht das Modell YOLOv9 eine höhere mAP (53,0 %) als das Modell PP-YOLOE+l (52,9 %) und benötigt dabei nur etwa die Hälfte der Parameter (25,3 Mio. gegenüber 52,2 Mio.). Diese drastische Reduzierung der Modellgröße ohne Beeinträchtigung der Genauigkeit unterstreicht die Effektivität der GELAN-Architektur.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Die Tabelle zeigt, dass YOLOv9 bei ähnlichen Genauigkeitszielen durchweg weniger Rechenressourcen benötigt. Das Modell YOLOv9 geht noch einen Schritt weiter und erreicht 55,6 % mAP, ein klarer Vorteil gegenüber der größten Variante PP-YOLOE+.

Der Ultralytics

PP-YOLOE+ ist zwar ein fähiger Detektor, aber die Wahl von YOLOv9 über den Ultralytics bietet deutliche Vorteile in Bezug auf Benutzerfreundlichkeit und Vielseitigkeit.

Optimierte Benutzererfahrung

Ultralytics legt den Schwerpunkt auf eine entwicklerfreundliche Erfahrung. Im Gegensatz zu den komplexen Konfigurationsdateien, die bei PaddleDetection oft erforderlich sind, können Ultralytics mit nur wenigen Zeilen Python geladen, trainiert und eingesetzt werden. Dadurch wird die Einstiegshürde für Ingenieure und Forscher erheblich gesenkt.

Vielseitigkeit und Ökosystem

Ultralytics unterstützt eine breite Palette von Aufgaben, die über die einfache Erkennung hinausgehen, einschließlich Instanzsegmentierung, Posenschätzung und OBB-Erkennung (Oriented Bounding Box). Diese Vielseitigkeit ermöglicht es Entwicklern, verschiedene Herausforderungen mit einer einzigen, vereinheitlichten API zu bewältigen. Darüber hinaus stellen die aktive Community und häufige Updates sicher, dass die Benutzer Zugang zu den neuesten Optimierungen und Integrationen mit Tools wie TensorBoard und MLflow haben.

Code-Beispiel: Verwendung von YOLOv9

Das folgende Beispiel zeigt, wie mühelos Sie mit YOLOv9 unter Verwendung der Ultralytics Python Inferenzen durchführen können. Diese Einfachheit steht im Gegensatz zu der ausführlichen Einrichtung, die für PP-YOLOE+ oft erforderlich ist.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display results
results[0].show()

Ideale Anwendungsfälle

  • PP-YOLOE+: Am besten geeignet für Teams, die bereits tief in das PaddlePaddle integriert sind, oder für spezielle industrielle Legacy-Anwendungen in Regionen, in denen PaddlePaddle vorherrscht.
  • YOLOv9: Ideal für Anwendungen, die ein Höchstmaß an Genauigkeit und Effizienz erfordern, wie z. B. autonome Fahrzeuge, Echtzeit-Videoanalyse und Edge Deployment, wo der Speicherbedarf und die Speicherkapazität eingeschränkt sind.

Fazit und Empfehlungen

Für die meisten Entwickler und Unternehmen istYOLOv9 aufgrund seiner modernen Architektur (GELAN/PGI), der überlegenen Parametereffizienz und der soliden Unterstützung durch das Ultralytics die beste Wahl. Es bietet eine zukunftssichere Lösung mit leicht verfügbaren vortrainierten Gewichten und nahtlosen Exportfunktionen.

Wenn Sie auf der Suche nach noch mehr Vielseitigkeit und Geschwindigkeit sind, empfehlen wir Ihnen auch den YOLO11, die neueste Generation der YOLO . YOLO11 verfeinert das Gleichgewicht zwischen Leistung und Latenz noch weiter und bietet modernste Funktionen für Erkennungs-, Segmentierungs- und Klassifizierungsaufgaben in einem kompakten Paket.

Für alle, die an einem bewährten Arbeitstier interessiert sind, YOLOv8 eine äußerst zuverlässige Option mit umfangreichen Community-Ressourcen und Drittanbieter-Integrationen.


Kommentare