Zum Inhalt springen

PP-YOLOE+ vs. YOLOv5: Navigieren zwischen hochgenauer Detektion und Produktionsreife

Die Auswahl des optimalen Objekterkennungsmodells ist oft mit einem Kompromiss zwischen akademischen Metriken und praktischen Einsatzmöglichkeiten verbunden. Dieser technische Vergleich untersucht PP-YOLOE+, einen weiterentwickelten ankerlosen Detektor aus dem PaddlePaddle , und Ultralytics YOLOv5das Standardmodell der Branche, das für seine Ausgewogenheit von Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit bekannt ist. Während PP-YOLOE+ die Grenzen der mittleren durchschnittlichen GenauigkeitmAPmean Average PrecisionmAP) verschiebt, bleibt YOLOv5 aufgrund seiner unvergleichlichen Entwicklererfahrung und Einsatzflexibilität eine dominierende Kraft bei Echtzeit-Inferenzanwendungen.

PP-YOLOE+: Präzisionstechnik im PaddlePaddle

PP-YOLOE+ ist eine aktualisierte Version von PP-YOLOE, die von Forschern bei Baidu als Teil der PaddleDetection-Suite entwickelt wurde. Es ist als effizienter, hochmoderner industrieller Objektdetektor mit Schwerpunkt auf hochpräzisen Aufgaben konzipiert. Durch den Einsatz einer ankerfreien Architektur vereinfacht es die Trainings-Pipeline und reduziert die Hyperparameter-Abstimmung, die häufig mit ankerbasierten Methoden verbunden ist.

Autoren: PaddlePaddle Authors
Organisation: Baidu
Datum: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
Docs: https:PaddlePaddle

Architektur und Innovation

Die Architektur von PP-YOLOE+ führt mehrere fortschrittliche Mechanismen zur Verbesserung der Merkmalsdarstellung und -lokalisierung ein:

  • Backbone: Verwendet CSPRepResNet, ein Backbone, das die Vorteile des Gradientenflusses von Cross Stage Partial (CSP) Netzwerken mit den Reparametrisierungstechniken von RepVGG kombiniert.
  • Ankerfreier Kopf: Ein effizienter aufgabenorientierter Kopf (ET-Kopf) wird verwendet, um Klassifizierungs- und Regressionsaufgaben zu entkoppeln und so die Konvergenzgeschwindigkeit und Genauigkeit zu verbessern.
  • Trainingsstrategie: Integriert Task Alignment Learning (TAL), um positive Proben dynamisch zuzuordnen und sicherzustellen, dass die hochwertigsten Vorhersagen während des Trainings priorisiert werden.
  • Verlustfunktionen: VariFocal Loss (VFL) und Distribution Focal Loss (DFL) zur Behandlung von Klassenungleichgewichten und zur Verfeinerung der Genauigkeit der Bounding Box.

Stärken und Schwächen

PP-YOLOE+ eignet sich hervorragend für Szenarien, in denen es auf maximale Genauigkeit ankommt. Durch sein ankerloses Design entfällt die Notwendigkeit, Ankerboxen zu clustern, wodurch es an Datensätze mit unterschiedlichen Objektformen angepasst werden kann. Allerdings ist die starke Abhängigkeit von der PaddlePaddle Framework kann jedoch eine Hürde für Teams darstellen, die standardmäßig mit PyTorch oder TensorFlow standardisiert sind. Es gibt zwar Tools für die Konvertierung von Modellen, aber die Unterstützung des nativen Ökosystems ist weniger umfangreich als die von universelleren Frameworks.

Überlegungen zum Ökosystem

PP-YOLOE+ bietet zwar eine beeindruckende theoretische Leistung, aber die Anwendung erfordert oft eine Vertrautheit mit der spezifischen Syntax und den Einsatzwerkzeugen von PaddlePaddle, die sich erheblich von den üblichen PyTorch unterscheiden können.

Erfahren Sie mehr über PP-YOLOE+

Ultralytics YOLOv5: Der globale Standard für Vision AI

Herausgegeben von Glenn Jocher im Jahr 2020, Ultralytics YOLOv5 hat die Landschaft der Computer Vision grundlegend verändert, indem es Entwicklern aller Qualifikationsstufen Zugang zu modernster Objekterkennung verschafft. YOLOv5 wurde nativ in PyTorch entwickelt und konzentriert sich auf "Trainingseffizienz" und "Benutzerfreundlichkeit" und bietet einen nahtlosen Weg von der Datensatzerstellung bis zum Produktionseinsatz.

Autoren: Glenn Jocher
Organisation: Ultralytics
Datum: 26.06.2020
GitHub: yolov5
Docs: https:yolov5

Architektur und Hauptmerkmale

YOLOv5 verwendet eine hochgradig optimierte ankerbasierte Architektur, die Tiefe und Breite ausgleicht, um den Durchsatz zu maximieren:

  • CSPDarknet Backbone: Das Cross Stage Partial Network Design minimiert redundante Gradienteninformationen und verbessert die Lernfähigkeit bei gleichzeitiger Reduzierung der Parameter.
  • PANet-Neck: Ein Path Aggregation Network (PANet) verbessert den Informationsfluss und hilft dem Modell, Objekte über verschiedene Maßstäbe hinweg genau zu lokalisieren.
  • Mosaik-Erweiterung: Eine fortschrittliche Technik zur Datenerweiterung, bei der vier Trainingsbilder zu einem einzigen zusammengefügt werden, wodurch die Fähigkeit des Modells, kleine Objekte detect und sich auf neue Umgebungen zu übertragen, erheblich verbessert wird.
  • Genetische Algorithmen: Die automatische Entwicklung von Hyperparametern ermöglicht es dem Modell, sich selbst zu optimieren, um eine optimale Leistung auf benutzerdefinierten Datensätzen zu erzielen.

Stärken und Ökosystem

YOLOv5 ist bekannt für seine Benutzerfreundlichkeit. Die API ist intuitiv und ermöglicht es den Benutzern, ein Modell zu laden und die Inferenz in nur wenigen Zeilen Python auszuführen.

import torch

# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Neben dem Code zeichnet sich YOLOv5 durch ein gut gepflegtes Ökosystem aus. Benutzer profitieren von häufigen Updates, einem umfangreichen Community-Forum und nahtlosen Integrationen mit MLOps-Tools wie Comet und ClearML. Die Vielseitigkeit des Modells geht über die einfache Erkennung hinaus und unterstützt Instanzsegmentierungs- und Bildklassifizierungsaufgaben innerhalb desselben Rahmens. Darüber hinaus weisen YOLOv5 im Vergleich zu transformatorbasierten Architekturen im Allgemeinen geringere Speicheranforderungen während des Trainings auf, so dass sie auf Consumer-GPUs verwendet werden können.

Erfahren Sie mehr über YOLOv5

Technischer Leistungsvergleich

Beim Vergleich der beiden Modelle ist es wichtig, neben den Standardgenauigkeitsmetriken wie mAP auch Metriken zu berücksichtigen, die sich auf den realen Nutzen auswirken, z. B. die Inferenzgeschwindigkeit und die Anzahl der Parameter.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Analyse der Ergebnisse

  • Genauigkeit vs. Geschwindigkeit: PP-YOLOE+ zeigt höhere mAP , insbesondere in den größeren Varianten (l und x), und profitiert von seiner ankerlosen Kopf- und TAL-Strategie. YOLOv5 bietet jedoch ein überlegenes Leistungsgleichgewicht und liefert eine äußerst wettbewerbsfähige Genauigkeit bei deutlich geringerer Latenz (siehe TensorRT ). Dadurch eignet sich YOLOv5 besonders gut für Edge-KI-Anwendungen, bei denen jede Millisekunde zählt.
  • Ressourceneffizienz: YOLOv5n (Nano) ist mit nur 2,6 Mio. Parametern extrem leichtgewichtig und damit ideal für mobile und IoT-Geräte. Während PP-YOLOE+ über effiziente Backbones verfügt, kann die architektonische Komplexität zu einer höheren Speichernutzung während des Trainings führen, verglichen mit dem schlanken Design von YOLOv5.
  • Trainingseffizienz: YOLOv5 nutzt AutoAnchor und Hyperparameter-Evolution, um die Leistung von Anfang an zu maximieren. Die Verfügbarkeit von qualitativ hochwertigen vortrainierten Gewichten ermöglicht ein schnelles Transfer-Lernen, wodurch die Entwicklungszeit erheblich verkürzt wird.

Anwendungsfälle in der Praxis

Die Wahl zwischen diesen Modellen hängt oft von der jeweiligen Einsatzumgebung ab.

PP-YOLOE+ Anwendungen

PP-YOLOE+ wird häufig in der akademischen Forschung und in industriellen Szenarien bevorzugt, insbesondere auf dem asiatischen Markt, wo die Infrastruktur von Baidu weit verbreitet ist.

  • Automatisierte Defekterkennung: Hohe Präzision hilft bei der Erkennung kleinster Kratzer an Fertigungsstraßen.
  • Verkehrsüberwachung: Ermöglicht die Unterscheidung ähnlicher Fahrzeugtypen im dichten Verkehrsfluss.

YOLOv5

Die Vielseitigkeit von YOLOv5 macht es zur bevorzugten Lösung für ein breites Spektrum an globalen Branchen.

  • Intelligente Landwirtschaft: Einsatz für die Echtzeit-Überwachung des Gesundheitszustands von Nutzpflanzen und für Obstpflückroboter aufgrund der Geschwindigkeit von Edge-Geräten.
  • Einzelhandels-Analytik: Betreibt Systeme für die Objektzählung und das Bestandsmanagement, die effizient auf Filialserver-Hardware laufen.
  • Autonome Robotik: Dank der geringen Latenzzeit können Drohnen und Roboter sicher durch komplexe Umgebungen navigieren.
  • Sicherheitssysteme: Lässt sich problemlos in Alarmsysteme zur Erkennung von Einbrüchen integrieren.

Flexibilität bei der Bereitstellung

YOLOv5 exportiert nahtlos in zahlreiche Formate wie ONNX, TensorRT, CoreML und TFLite unter Verwendung der export Modus. Dadurch wird sichergestellt, dass ein einmal trainiertes Modell fast überall eingesetzt werden kann, vom iPhone bis zum Cloud-Server.

Fazit

PP-YOLOE+ stellt eine bedeutende Errungenschaft in der ankerfreien Erkennung dar, mit beeindruckender Genauigkeit bei Benchmarks wie COCO, Ultralytics YOLOv5 für die meisten Entwickler und kommerziellen Anwendungen weiterhin die bessere Wahl. Seine überzeugende Kombination aus Benutzerfreundlichkeit, einem robusten , gut gepflegten Ökosystem und einer ausgezeichneten Leistungsbilanz sorgt dafür, dass Projekte schnell und zuverlässig vom Konzept zur Produktion übergehen.

Für Benutzer, die auf der Suche nach der allerneuesten Computer-Vision-Technologie sind, bietet Ultralytics auch YOLO11an, das auf dem Erbe von YOLOv5 aufbaut und in den Bereichen Erkennung, Segmentierung und Pose Estimation noch effizienter und leistungsfähiger ist.

Mehr entdecken

Wenn Sie sich für moderne Alternativen mit verbesserten Leistungsmerkmalen interessieren, sollten Sie sich die folgenden Informationen ansehen:

  • Ultralytics YOLO11: Das neueste Modell auf dem neuesten Stand der Technik, das sich durch höchste Genauigkeit und Geschwindigkeit auszeichnet.
  • Ultralytics YOLOv8: Ein vielseitiges Modell, das ein einheitliches Rahmenwerk für Erkennung, Segmentierung und Klassifizierung einführt.
  • RT-DETR: Ein Echtzeit-Detektor auf Transformatorbasis für hohe Genauigkeitsanforderungen.

Besuchen Sie unsere Modellseite, um die gesamte Palette der KI-Lösungen für Ihr nächstes Projekt kennenzulernen.


Kommentare