YOLOv9 vs. PP-YOLOE+: Ein technischer Vergleich
Die Auswahl der optimalen Architektur für die Objekterkennung ist eine zentrale Entscheidung für Computer Vision Ingenieure, die den Bedarf an hoher Präzision mit den rechnerischen Einschränkungen abwägen müssen. Dieser umfassende Leitfaden vergleicht YOLOv9ein hochmodernes Modell, das neuartige Gradienteninformationstechniken einsetzt, und PP-YOLOE+, ein robuster Detektor, der für das PaddlePaddle optimiert wurde. Wir analysieren ihre architektonischen Innovationen, ihre Benchmark-Leistung und ihre Einsatzfähigkeit, um Ihnen zu helfen, die beste Lösung für Ihre Computer-Vision-Anwendungen zu finden.
YOLOv9: Programmierbare Gradienteninformationen für verbessertes Lernen
YOLOv9 stellt einen bedeutenden Sprung in der Entwicklung von Echtzeit-Objektdetektoren dar. Es wird Anfang 2024 veröffentlicht und befasst sich mit grundlegenden Problemen im Zusammenhang mit Informationsverlusten in tiefen neuronalen Netzen und setzt neue Maßstäbe für Genauigkeit und Parametereffizienz.
Authors: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Dokumentationultralytics
Mit der Architektur werden zwei bahnbrechende Konzepte eingeführt: Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN). Mit zunehmender Tiefe der Netze können die für die Berechnung der Verlustfunktion wesentlichen Daten verloren gehen - ein Phänomen, das als Informationsengpass bekannt ist. PGI löst dieses Problem durch die Erzeugung zuverlässiger Gradienten über einen zusätzlichen reversiblen Zweig, der sicherstellt, dass tiefe Merkmale wichtige Informationen beibehalten. Gleichzeitig optimiert GELAN die Parameternutzung, so dass das Modell im Vergleich zu faltungsbasierten Architekturen mit weniger Rechenressourcen eine höhere Genauigkeit erreicht.
YOLOv9 ist in das Ultralytics integriert und profitiert von einem benutzerzentrierten Design, das komplexe Arbeitsabläufe vereinfacht. Entwickler können eine einheitliche Python für Training, Validierung und Bereitstellung nutzen und so die Zeit vom Prototyp bis zur Produktion drastisch verkürzen. Diese Integration gewährleistet auch die Kompatibilität mit einer Vielzahl von Datensätzen und Exportformaten.
PP-YOLOE+: Hohe Genauigkeit innerhalb des PaddlePaddle-Ökosystems
PP-YOLOE+ ist eine weiterentwickelte Version von PP-YOLOE, die von Baidu als Teil der PaddleDetection-Suite entwickelt wurde. Es wurde speziell entwickelt, um effizient auf dem PaddlePaddle Framework zu laufen und bietet ein ausgewogenes Verhältnis von Geschwindigkeit und Präzision für industrielle Anwendungen.
Authors: PaddlePaddle Authors
Organisation:Baidu
Datum: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
DokumentationPaddlePaddle
PP-YOLOE+ verwendet einen verankerungsfreien Mechanismus, der vordefinierte Ankerboxen überflüssig macht, was den Prozess der Hyperparameter-Abstimmung vereinfacht. Sein Backbone nutzt typischerweise CSPRepResNet und verfügt über ein einzigartiges Kopfdesign, das auf Task Alignment Learning (TAL) basiert. Mit diesem Ansatz werden die Klassifizierungs- und Lokalisierungsaufgaben aufeinander abgestimmt, um die Qualität der Erkennungsergebnisse zu verbessern. Obwohl PP-YOLOE+ sehr leistungsfähig ist, ist es eng mit dem PaddlePaddle verbunden, was für Teams, die standardmäßig mit PyTorch oder TensorFlow standardisiert sind.
Ökosystem-Abhängigkeit
Während PP-YOLOE+ eine konkurrenzfähige Leistung bietet, kann seine Abhängigkeit vom PaddlePaddle die Interoperabilität mit dem breiteren Spektrum an PyTorch Werkzeugen und Bibliotheken einschränken, die in der westlichen Forschungsgemeinschaft üblich sind.
Erfahren Sie mehr über PP-YOLOE+
Performance-Analyse: Geschwindigkeit, Genauigkeit und Effizienz
Beim Vergleich dieser beiden Architekturen, YOLOv9 einen klaren Vorteil sowohl bei der Parametereffizienz als auch bei der Spitzengenauigkeit. Durch die Integration von GELAN kann YOLOv9 visuelle Daten effektiver verarbeiten, was zu höheren durchschnittlichen Präzisionswerten (mAP) im COCO führt, während die Latenzzeit oft niedriger bleibt.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Wichtige Erkenntnisse
- Parameter-Effizienz: Das Modell YOLOv9 erreicht eine vergleichbare Leistung wie größere Modelle und verwendet dabei nur 2,0 Mio. Parameter, also deutlich weniger als die Variante PP-YOLOE+t mit 4,85 Mio. Parametern. Dadurch eignet sich YOLOv9 besonders für Edge-KI-Geräte mit begrenztem Speicherplatz.
- Spitzengenauigkeit:YOLOv9 erreicht einen bemerkenswerten Wert von 55,6 % mAP und übertrifft damit das größte Modell PP-YOLOE+x (54,7 % mAP), obwohl es etwa 40 % weniger Parameter verwendet (57,3 Mio. vs. 98,42 Mio.). Dies unterstreicht die architektonische Überlegenheit von GELAN bei der Maximierung von Merkmalsextraktionsfähigkeiten.
- Inferenzgeschwindigkeit: Während PP-YOLOE+s einen leichten Vorteil bei der rohen Latenz auf T4-GPUs aufweist, bieten YOLOv9 im Allgemeinen einen besseren Kompromiss, indem sie eine deutlich höhere Genauigkeit bei ähnlichen Rechenkosten bieten. Beispielsweise übertrifft YOLOv9 PP-YOLOE+l in Bezug auf die Genauigkeit (53,0 % gegenüber 52,9 %) und ist gleichzeitig schneller (7,16 ms gegenüber 8,36 ms) und leichter.
Schulungsmethodik und Benutzerfreundlichkeit
Die Erfahrungen der Entwickler unterscheiden sich erheblich zwischen den beiden Modellen, was in erster Linie auf die zugrunde liegenden Frameworks und die Unterstützung durch das Ökosystem zurückzuführen ist.
Ultralytics Ökosystem-Vorteil
Auswahl von YOLOv9 über Ultralytics erhalten Sie Zugang zu einer umfassenden Suite von Tools, die den Lebenszyklus des maschinellen Lernens rationalisieren.
- Einfache API: Für das Training eines Modells sind nur wenige Codezeilen erforderlich, so dass keine komplexen Standardtexte erforderlich sind.
- Speichereffizienz: DieYOLO Ultralytics sind im Vergleich zu transformatorbasierten Architekturen für eine geringere Speichernutzung während des Trainings optimiert, was größere Stapelgrößen auf Hardware der Verbraucherklasse ermöglicht.
- Vielseitigkeit: Über die Erkennung hinaus unterstützt das Ultralytics die Segmentierung von Instanzen, die Schätzung von Posen und die Klassifizierung und bietet damit eine einheitliche Schnittstelle für verschiedene Aufgaben.
- Effizientes Training: Mit fortschrittlicher Datenerweiterung und leicht verfügbaren vortrainierten Gewichten können Entwickler schneller Konvergenz erreichen und wertvolle GPU sparen.
Rationalisierter Arbeitsablauf mit Ultralytics
Sie können ein YOLOv9 in nur wenigen Python laden, trainieren und validieren und dabei die robuste Ultralytics für die automatische Abstimmung der Hyperparameter und die Verfolgung der Experimente nutzen.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
PaddlePaddle Umwelt
PP-YOLOE+ benötigt die PaddleDetection-Bibliothek. Sie ist zwar leistungsfähig, erfordert aber eine Vertrautheit mit dem Baidu-Ökosystem. Das Einrichten der Umgebung, das Konvertieren von Datensätzen in das erforderliche Format und das Exportieren von Modellen für den Einsatz kann für Benutzer, die noch nicht in die PaddlePaddle eingebettet sind, aufwändiger sein.
Ideale Anwendungsfälle
Das Verständnis der Stärken der einzelnen Modelle hilft bei der Auswahl des richtigen Werkzeugs für bestimmte reale Anwendungen.
Wann sollte man YOLOv9 wählen YOLOv9
- Autonome Systeme: Bei selbstfahrenden Autos und Robotern, bei denen eine maximale Genauigkeit für die Sicherheit entscheidend ist, bietet der überlegene mAP von YOLOv9 die notwendige Zuverlässigkeit.
- Edge-Einsatz: Der leichte YOLOv9 eignet sich perfekt für den Einsatz auf Raspberry Pi- oder NVIDIA Jetson-Geräten für Aufgaben wie Personenzählung oder intelligente Einzelhandelsanalysen.
- Forschung und Entwicklung: Das gut gepflegte Ökosystem und die PyTorch machen es ideal für Forscher, die Prototypen für neue Computer-Vision-Lösungen erstellen oder Objektverfolgungsfunktionen integrieren wollen.
- Ressourcenbeschränkte Umgebungen: Anwendungen, die hohe Leistung bei begrenztem VRAM benötigen, profitieren von der effizienten Architektur und dem geringen Speicherbedarf von YOLOv9.
Wann sollte man PP-YOLOE+ wählen?
- PaddlePaddle : Für Unternehmen, die bereits die Infrastruktur von Baidu nutzen, bietet PP-YOLOE+ eine nahtlose Integration und native Optimierung.
- Industrielle Inspektion (China): Aufgrund seiner starken Verbreitung auf dem asiatischen Markt ist es häufig in Produktionspipelines zu finden, die auf spezielle Paddle-Inferenzhardware angewiesen sind.
Fazit
Beide Modelle sind beachtliche Konkurrenten auf dem Gebiet der Objekterkennung, YOLOv9 für die Mehrheit der weltweiten Entwickler und Unternehmen die bessere Wahl. Sein innovativer Einsatz von Programmable Gradient Information (PGI) liefert eine hochmoderne Genauigkeit mit bemerkenswerter Effizienz und übertrifft PP-YOLOE+ in wichtigen Metriken, während deutlich weniger Parameter benötigt werden.
Darüber hinaus wird YOLOv9 durch das Ultralytics aufgewertet, das eine unübertroffene Benutzerfreundlichkeit, eine umfangreiche Dokumentation und eine lebendige Community bietet. Ganz gleich, ob Sie Sicherheitsalarmsysteme bauen, medizinische Bilder analysieren oder eine intelligente Stadtinfrastruktur entwickeln, YOLOv9 bietet die Leistungsbilanz und Vielseitigkeit, die Sie für Ihren Erfolg benötigen.
Andere Modelle, die in Betracht gezogen werden sollten
Wenn Sie den neuesten Stand der Bildverarbeitung erforschen möchten, sollten Sie diese anderen leistungsstarken Modelle von Ultralytics in Betracht ziehen:
- YOLO11: Die neueste Entwicklung der YOLO , die noch schnellere Geschwindigkeiten und höhere Genauigkeit für modernste Anwendungen bietet.
- YOLOv8: Ein äußerst vielseitiger Industriestandard, der Erkennungs-, Segmentierungs-, Pose- und OBB-Aufgaben unterstützt.
- RT-DETR: Ein Echtzeit-Transformator-basierter Detektor, der sich durch seine Genauigkeit auszeichnet und eine Alternative zu CNN-basierten Architekturen darstellt.