Zum Inhalt springen

YOLOv9 . PP-YOLOE+: Ein technischer Einblick in die moderne Objekterkennung

Die Landschaft der Echtzeit-Objekterkennung ist geprägt von einem ständigen Streben nach höherer Genauigkeit und geringerer Latenz. Zwei wichtige Faktoren, die zu dieser Entwicklung beitragen, sind YOLOv9, das vom Forschungsteam hinter YOLOv7 eingeführt wurde, und PP-YOLOE+, eine fortschrittliche Weiterentwicklung aus PaddlePaddle von Baidu. Diese Analyse untersucht ihre architektonischen Innovationen, Benchmarks und Eignung für verschiedene Einsatzszenarien, um Ihnen bei der Auswahl des richtigen Tools für Ihre Computer-Vision-Projekte zu helfen.

Zusammenfassung

YOLOv9 konzentriert sich auf die Überwindung von Informationsverlusten in tiefen Netzwerken durch Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN). Es eignet sich besonders für Szenarien, die eine hohe Genauigkeit bei moderaten Rechenressourcen erfordern. PP-YOLOE+ hingegen ist tief für das PaddlePaddle optimiert und verfügt über eine Cloud-Edge-Einheitsarchitektur, die skalierungsbewusste Zuweisung und dynamische Label-Zuweisung für eine präzise Lokalisierung nutzt.

Obwohl beide Modelle leistungsstark sind, bevorzugen Entwickler oft Ultralytics YOLO Modelle – wie das hochmoderne YOLO26– aufgrund ihrer unübertroffenen Benutzerfreundlichkeit, ihrer umfangreichen Dokumentation und ihrer nahtlosen Integration in ein globales Open-Source-Ökosystem.

YOLOv9: Programmierbare Gradienten für verbessertes Lernen

YOLOv9 das Problem des „Informationsengpasses“, das tiefen neuronalen Netzen innewohnt, bei denen wichtige Daten verloren gehen, wenn Feature-Maps wiederholt heruntergerechnet werden.

Wesentliche Architekturmerkmale

  • Programmierbare Gradienteninformationen (PGI): Ein zusätzliches Überwachungsframework, das zuverlässige Gradienten für die Aktualisierung von Netzwerkgewichten generiert und sicherstellt, dass tiefe Schichten wichtige semantische Informationen beibehalten.
  • GELAN-Architektur: Das Generalized Efficient Layer Aggregation Network kombiniert die Stärken von CSPNet und ELAN und optimiert die Gradientenpfadplanung, um die Parametereffizienz zu maximieren.
  • Integration mit Ultralytics: YOLOv9 vollständig in das Ultralytics integriert, sodass Benutzer vertraute Tools für Training, Validierung und Bereitstellung nutzen können.

YOLOv9 : Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation: Institut für Informationswissenschaft, Academia Sinica
Datum: 21.02.2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9

Erfahren Sie mehr über YOLOv9

PP-YOLOE+: Die Weiterentwicklung der Paddelerkennung

PP-YOLOE+ ist eine verbesserte Version von PP-YOLOE, die als robuste Basis für industrielle Anwendungen konzipiert wurde. Sie basiert auf dem ankerfreien Paradigma, das den Erkennungskopf vereinfacht und die Generalisierung über verschiedene Objektformen hinweg verbessert.

Wesentliche Architekturmerkmale

  • Ankerfreier Mechanismus: Macht vordefinierte Ankerboxen überflüssig, reduziert die Hyperparameter-Optimierung und verbessert die Leistung bei Objekten mit unregelmäßigen Seitenverhältnissen.
  • CSPRepResStage: Eine Backbone-Verbesserung, die Reparametrisierungstechniken nutzt, um die Trainingsstabilität mit der Inferenzgeschwindigkeit in Einklang zu bringen.
  • Task Alignment Learning (TAL): Eine dynamische Strategie zur Zuweisung von Labels, die die Klassifizierungsbewertung explizit mit der Lokalisierungsqualität abstimmt und so sicherstellt, dass Erkennungen mit hoher Zuverlässigkeit räumlich genau sind.

PP-YOLOE+ Details: Autoren: PaddlePaddle
Organisation: Baidu
Datum: 02.04.2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle

Leistungsvergleich

Bei der Auswahl eines Modells ist der Kompromiss zwischen Geschwindigkeit und Genauigkeit von entscheidender Bedeutung. Die folgende Tabelle zeigt die Leistungskennzahlen für den COCO , einen Standard-Benchmark für die Objekterkennung.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Analyse

  • Parametereffizienz: YOLOv9 erreicht YOLOv9 mAP vergleichbare oder höhere mAP Mean Average Precision) mit weniger Parametern, insbesondere in den Varianten Medium (M) und Compact (C). Dies bedeutet geringere Speicheranforderungen und potenziell geringeren Speicherverbrauch während der Inferenz.
  • Inferenzgeschwindigkeit: Während PP-YOLOE+ auf T4-GPUs konkurrenzfähige Geschwindigkeiten aufweist, ist die Architektur YOLOv9 in hohem Maße für den Gradientenfluss optimiert, was zu einer besseren Konvergenz während des Trainings führen kann.
  • Framework-Abhängigkeit: YOLOv9 nativ auf PyTorch, dem führenden Framework für Forschung und Industrie. PP-YOLOE+ erfordert das PaddlePaddle , was für Teams, die bereits in PyTorch TensorFlow etabliert sind, zu Reibungsverlusten führen kann.

Der Ultralytics Vorteil

Der Vergleich spezifischer Architekturen ist zwar nützlich, doch ist das Ökosystem, das ein Modell umgibt, oft der entscheidende Faktor für den langfristigen Erfolg eines Projekts.

Benutzerfreundlichkeit und Ökosystem

Ultralytics , darunter YOLOv9 das neuere YOLO26, sind auf sofortige Produktivität ausgelegt. Die Python abstrahiert komplexen Boilerplate-Code, sodass Entwickler Modelle mit nur wenigen Zeilen Code laden, trainieren und bereitstellen können.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Im Gegensatz dazu stützt sich PP-YOLOE+ in der Regel auf Konfigurationsdateien und Befehlszeilenschnittstellen, die spezifisch für PaddleDetection sind, was eine steilere Lernkurve für die Anpassung bedeuten kann.

Vielseitigkeit über verschiedene Aufgaben hinweg

Ein wesentlicher Vorteil des Ultralytics ist seine Unterstützung für eine Vielzahl von Computer-Vision-Aufgaben, die über die einfache Erkennung von Begrenzungsrahmen hinausgehen. Ob Sie Instanzsegmentierung, Posenschätzung oder OBB-Erkennung (Oriented Bounding Box) benötigen, der Workflow bleibt konsistent. Diese Vielseitigkeit ist entscheidend für dynamische Projekte, die sich von der einfachen Erkennung zu komplexen Verhaltensanalysen entwickeln können.

Integrierte Bereitstellung

Ultralytics den Weg zur Produktion. Sie können trainierte Modelle ganz einfach in Formate wie ONNX, TensorRTund OpenVINO mit einem einzigen Befehl, wodurch die Kompatibilität mit unterschiedlicher Hardware von Edge-Geräten bis hin zu Cloud-Servern gewährleistet wird.

Zukunftssicherheit mit YOLO26

Für Entwickler, die 2026 neue Projekte starten, YOLO26 den Gipfel der Effizienz und Leistung dar.

Erfahren Sie mehr über YOLO26

YOLO26 führt mehrere bahnbrechende Funktionen ein, die sowohl YOLOv9 PP-YOLOE+ übertreffen:

  • End-to-End NMS: Durch den Wegfall der Nachbearbeitung mit Non-Maximum Suppression (NMS) reduziert YOLO26 die Latenz und die Komplexität der Bereitstellung erheblich.
  • Optimiert für CPU: Durch die Entfernung von Distribution Focal Loss (DFL) und architektonische Optimierungen liefert YOLO26 eine bis zu 43 % schnellere Inferenz auf CPUs und ist damit ideal für Edge-Computing geeignet.
  • MuSGD-Optimierer: Inspiriert vom LLM-Training stabilisiert der MuSGD-Optimierer das Training und beschleunigt die Konvergenz.
  • Erweiterte Verlustfunktionen: Die Kombination aus ProgLoss und STAL verbessert die Erkennung kleiner Objekte erheblich, was in Bereichen wie der Luftüberwachung und der medizinischen Bildgebung eine häufige Herausforderung darstellt.

Anwendungsfälle

Echtzeit-Fertigungsinspektion

Für Hochgeschwindigkeits-Fertigungsstraßen YOLOv9 einen hervorragenden Durchsatz. Wenn das Inspektionssystem jedoch auf Edge-Geräten ohne dedizierte GPUs (z. B. Raspberry Pi oder industrielle PCs der Einstiegsklasse) läuft, ist YOLO26 aufgrund seiner CPU und seines geringeren Speicherbedarfs im Vergleich zu transformatorlastigen Alternativen die bessere Wahl.

Intelligentes Verkehrsmanagement für Smart Cities

PP-YOLOE+ ist eine praktikable Option für statische Verkehrskameras, wenn die Infrastruktur bereits auf dem Ökosystem von Baidu basiert. Für dynamische Systeme, die eine Fahrzeugverfolgung und Fußgängersicherheitsanalyse erfordern, bieten Ultralytics jedoch integrierte Tracking-Unterstützung (BoT-SORT, ByteTrack) und eine hervorragende Handhabung von Verdeckungen durch fortschrittliche Augmentationsverfahren.

Landwirtschaftliche Überwachung

In der Präzisionslandwirtschaft erfordert die Erkennung von Krankheiten bei Nutzpflanzen oft die Identifizierung kleiner, subtiler Merkmale. YOLO26 zeichnet sich hier durch seine ProgLoss-Funktion aus, die die Lokalisierungsgenauigkeit für winzige Objekte im Vergleich zu den ankerbasierten Ansätzen älterer Modelle verbessert. Darüber hinaus vereinfacht die Ultralytics die Verwaltung von Datensätzen und das Modelltraining für Agrarwissenschaftler, die möglicherweise keine Deep-Learning-Experten sind.

Fazit

Sowohl YOLOv9 PP-YOLOE+ tragen erheblich zur Weiterentwicklung der Bildverarbeitung bei. PP-YOLOE+ ist ein starker Konkurrent innerhalb des PaddlePaddle und bietet eine robuste, ankerfreie Erkennung. YOLOv9 die Grenzen der Informationsspeicherung in tiefen Netzwerken und liefert eine hohe Effizienz.

Für die Mehrheit der Entwickler und Forscher bieten YOLO Ultralytics jedoch das beste Gleichgewicht zwischen Leistung, Benutzerfreundlichkeit und Vielseitigkeit. Mit der Veröffentlichung von YOLO26 erhalten Benutzer Zugriff auf eine durchgängige NMS Erkennung, schnellere CPU und eine umfassende Suite von Tools, die den gesamten MLOps-Lebenszyklus optimieren.

Weitere Informationen zu anderen Hochleistungsmodellen finden Sie in unserer Dokumentation zu YOLO11 und RT-DETR.


Kommentare