PP-YOLOE+ vs.YOLO: Ein tiefer Einblick in die industrielle Objekterkennung
Im wettbewerbsintensiven Bereich der Echtzeit-Computervision ist die Auswahl der optimalen Architektur eine wichtige Entscheidung für Ingenieure und Forscher. Zwei Schwergewichte aus dem chinesischen Tech-Ökosystem, PP-YOLOE+ von Baidu und YOLO von Alibaba, bieten unterschiedliche Ansätze zur Lösung des Zielkonflikts zwischen Geschwindigkeit und Genauigkeit. Beide Modelle nutzen zwar fortschrittliche Techniken wie neuronale Architektursuche (NAS) und Neuparametrisierung, sind jedoch auf unterschiedliche Einsatzumgebungen und Ökosystempräferenzen zugeschnitten.
Dieser Leitfaden bietet einen umfassenden technischen Vergleich, in dem die architektonischen Innovationen, die Benchmark-Leistung und die Eignung für reale Anwendungen analysiert werden. Wir untersuchen auch, wie die moderne Ultralytics die Einschränkungen dieser früheren Modelle überwindet, um eine einheitliche Lösung für den Einsatz am Rand und in der Cloud zu bieten.
PP-YOLOE+: Verfeinerte ankerfreie detect-ion
PP-YOLOE+ wurde im April 2022 vom PaddlePaddle bei Baidu veröffentlicht und ist eine Weiterentwicklung der PP-YOLOE-Architektur, die zur Verbesserung der Trainingskonvergenz und Inferenzgeschwindigkeit entwickelt wurde. Es stellt einen Wandel hin zu einer leistungsstarken, ankerfreien Erkennung innerhalb des PaddlePaddle dar.
Autoren: PaddlePaddle
Organisation:Baidu
Datum: 2. April 2022
Arxiv:PP-YOLOE-Artikel
GitHub:PaddlePaddle
Architektonische Innovationen
PP-YOLOE+ baut auf dem Erfolg seiner Vorgängermodelle auf und integriert mehrere wichtige Designentscheidungen, die darauf abzielen, die Latenz zu reduzieren und gleichzeitig eine hohe Präzision zu gewährleisten:
- CSPRepResStage: Das Backbone nutzt eine CSP-Struktur (Cross-Stage Partial) in Kombination mit neu parametrisierten Residualblöcken. Dadurch kann das Modell während des Trainings von einer komplexen Merkmalsextraktion profitieren und während der Inferenz zu einer einfacheren, schnelleren Struktur zusammenfallen.
- Ankerfreies Paradigma: Durch den Wegfall von Ankerboxen vereinfacht PP-YOLOE+ den Suchraum für Hyperparameter und reduziert damit den technischen Aufwand, der häufig mit ankerbasierten Detektoren verbunden ist.
- Task Alignment Learning (TAL): Um die Diskrepanz zwischen Klassifizierungs- und Lokalisierungssicherheit zu beheben, verwendet PP-YOLOE+ TAL, eine dynamische Strategie zur Zuweisung von Labels, die hochwertige Positive auf der Grundlage einer kombinierten Metrik aus Klassifizierungsscore und IoU auswählt.
- ET-Head: Der Efficient Task-aligned Head (ET-Head) entkoppelt die Klassifizierungs- und Regressionszweige und stellt so sicher, dass die Merkmalsdarstellungen speziell für jede Aufgabe ohne gegenseitige Beeinflussung optimiert werden.
Erfahren Sie mehr über PP-YOLOE
DAMO-YOLO: NAS-gesteuerte Effizienz
YOLO Distillation-Augmented MOdel) wurde später im November 2022 von der Alibaba Group eingeführt und nutzt Neural Architecture Search (NAS) und Heavy Distillation, um die Grenzen der Leistung bei geringer Latenz zu erweitern. Es wurde speziell entwickelt, um den Durchsatz auf industrieller Hardware zu maximieren.
Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation:Alibaba Group
Datum: 23. November 2022
Arxiv:YOLO
GitHub:YOLO
Architektonische Innovationen
YOLO sich durch seinen Fokus auf automatisiertes Architekturdesign und kompakte Feature-FusionYOLO :
- MAE-NAS-Backbone: Im Gegensatz zu manuell entworfenen BackbonesYOLO eine Struktur, die mittels neuronaler Architektursuche entdeckt wurde und als MAE-NAS bezeichnet wird. Dadurch wird sichergestellt, dass die Tiefe und Breite des Netzwerks für bestimmte Hardwarebeschränkungen mathematisch optimiert sind.
- RepGFPN: Das effiziente verallgemeinerte Feature-Pyramiden-Netzwerk (RepGFPN) verbessert Standard-FPNs durch die Optimierung von Feature-Fusionspfaden und Kanaltiefen und ermöglicht so eine bessere multiskalige Erkennung von Objekten, die von Fußgängern bis zu Fahrzeugen reichen.
- ZeroHead: Ein leichtgewichtiges Detektionskopfdesign, das die Rechenkosten (FLOPs) der letzten Vorhersageschichten erheblich reduziert, was für Echtzeitanwendungen von entscheidender Bedeutung ist.
- AlignedOTA: Eine verbesserte Version von Optimal Transport Assignment (OTA), die die Klassifizierungs- und Regressionsziele während des Trainings besser aufeinander abstimmt und so zu einer schnelleren Konvergenz führt.
Erfahren Sie mehr über DAMO-YOLO
Leistungsvergleich
Beim Vergleich dieser Modelle hängt die Wahl oft von der spezifischen Hardware und dem akzeptablen Kompromiss zwischen Parameteranzahl und Genauigkeit ab. PP-YOLOE+ bietet im Allgemeinen eine robuste Leistung auf GPUs der Serverklasse, währendYOLO durch sein von NAS abgeleitetes Backbone in SzenarienYOLO , die eine aggressive Latenzoptimierung erfordern.
Die folgende Tabelle zeigt die wichtigsten Kennzahlen. Beachten Sie, dassYOLO aufgrund seiner ZeroHead- und RepGFPN-OptimierungenYOLO eine geringere Latenz bei ähnlicher Genauigkeit erzielt.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Ultralytics von Ultralytics : Geben Sie YOLO26 ein
PP-YOLOE+ undYOLO zwar wettbewerbsfähige Funktionen, erfordern jedoch oft komplexe, frameworkspezifische Umgebungen (PaddlePaddle Alibabas interne Stacks). Für Entwickler, die eine universelle, produktionsreife Lösung suchen, bietet Ultralytics einen entscheidenden Vorteil.
YOLO26 wurde 2026 eingeführt und befasst sich mit den historischen Reibungspunkten beim Einsatz der Objekterkennung. Es handelt sich nicht nur um ein Modell, sondern um ein komplettes Ökosystem, das auf Benutzerfreundlichkeit und schnelle Iteration ausgelegt ist.
Wichtigste Merkmale von YOLO26
- End-to-End-Design NMS: Im Gegensatz zu PP-YOLOE+ undYOLO, die eine sorgfältige Abstimmung der NMS erfordern können, ist YOLO26 von Haus aus End-to-End. Dadurch entfällt die Non-Maximum Suppression (NMS) vollständig, was eine deterministische Inferenzlatenz gewährleistet und die Bereitstellungspipelines vereinfacht.
- MuSGD-Optimierer: Inspiriert von Innovationen im Bereich des Trainings großer Sprachmodelle (wie Moonshot AI's Kimi K2) nutzt YOLO26 den MuSGD-Optimierer. Dieser hybride Ansatz stabilisiert die Trainingsdynamik und ermöglicht es dem Modell, im Vergleich zum in älteren Architekturen SGD schneller und mit weniger Epochen zu konvergieren.
- ProgLoss + STAL: Die Erkennung kleiner Objekte wird durch ProgLoss und Soft Task Alignment Learning (STAL) erheblich verbessert. Dadurch eignet sich YOLO26 besonders gut für Luftbildaufnahmen und industrielle Inspektionen, bei denen es auf höchste Präzision bei der Erkennung winziger Defekte ankommt.
- Kantenoptimierung: Durch die Entfernung des Distribution Focal Loss (DFL) erreicht YOLO26 CPU um bis zu 43 % schnellere CPU und ist damit die beste Wahl für Raspberry Pi, mobile Geräte und IoT-Anwendungen.
- Unübertroffene Vielseitigkeit: Während sich Wettbewerber in erster Linie auf die Erkennung konzentrieren, unterstützt das Ultralytics Instanzsegmentierung, Posenschätzung, OBB und Klassifizierung innerhalb einer einzigen, einheitlichen API.
Optimierter Arbeitsablauf
Ultralytics dem Ultralytics können Sie innerhalb weniger Minuten von der Datenannotation zur Bereitstellung übergehen. Mit der Ultralytics können Sie Datensätze verwalten, in der Cloud trainieren und in jedes beliebige Format (ONNX, TensorRT, CoreML) exportieren, ohne Boilerplate-Code schreiben zu müssen.
Code-Beispiel: Einfachheit in Aktion
Das Trainieren eines hochmodernen Modells mit Ultralytics intuitiv. Die Python abstrahiert die Komplexität der Architekturdefinition und der Hyperparameter-Optimierung.
from ultralytics import YOLO
# Load the latest YOLO26 model (nano version for edge devices)
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
# YOLO26 automatically handles anchor-free assignment and efficient dataloading
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
# NMS-free output is returned directly, ready for downstream logic
predictions = model("https://ultralytics.com/images/bus.jpg")
# Display the results
predictions[0].show()
Anwendungsfälle und Empfehlungen
Die Wahl des richtigen Modells hängt von Ihren spezifischen Einschränkungen hinsichtlich der Integration in das Ökosystem, der Verfügbarkeit von Hardware und den Entwicklungsressourcen ab.
- Wählen Sie PP-YOLOE+, wenn Ihre Infrastruktur bereits tief in das Baidu PaddlePaddle -Ökosystem integriert ist. Es ist ein starker Kandidat für die statische Bildverarbeitung, bei der die Maximierung von mAP auf Servern Priorität hat und Sie über die technischen Kapazitäten verfügen, um Paddle-spezifische Abhängigkeiten zu verwalten.
- Wählen SieYOLO, wenn Sie Forschungen im Bereich Neural Architecture Search durchführen oder spezifische Latenzoptimierungen auf unterstützter Hardware benötigen. Dank seines schlanken Designs eignet es sich besonders für Videoanalysen mit hohem Durchsatz, vorausgesetzt, Sie können mit seiner distillationslastigen Trainingspipeline umgehen.
- Entscheiden Sie sich für Ultralytics , um die beste Balance zwischen Geschwindigkeit, Genauigkeit und Entwicklererfahrung zu erzielen. Das NMS Design vereinfacht die Bereitstellungslogik, während die Entfernung von DFL für außergewöhnliche Geschwindigkeit auf CPUs und Edge-Geräten sorgt. Ganz gleich, ob Sie intelligente Einzelhandelssysteme oder autonome Agrarroboter entwickeln – die umfassende Dokumentation und die aktive Community-Unterstützung sorgen dafür, dass Ihr Projekt zukunftssicher bleibt.
Für Benutzer, die an anderen effizienten Architekturen interessiert sind, behandelt die Dokumentation auch Modelle wie YOLO11 und RT-DETRund bietet damit eine breite Palette an Tools für jede Herausforderung im Bereich Computer Vision.
Fazit
Sowohl PP-YOLOE+ als auchYOLO wesentlich zur Weiterentwicklung der ankerfreien Objekterkennung beigetragen. PP-YOLOE+ hat den Trainingsprozess durch Aufgabenausrichtung verfeinert, währendYOLO die Leistungsfähigkeit von NAS und DestillationYOLO . Die Komplexität ihrer jeweiligen Trainingspipelines und die Bindung an ein bestimmtes Ökosystem können jedoch für viele Teams eine Hürde darstellen.
Ultralytics zeichnet sich durch die Demokratisierung dieser fortschrittlichen Funktionen aus. Durch die Kombination einer NMS Architektur, MuSGD-Optimierung und überlegener Edge-Leistung bietet es eine umfassende Lösung, die sich mit minimalem Aufwand vom Prototyp bis zur Produktion skalieren lässt. Für Entwickler, die ihre Produktivität und Leistung maximieren möchten, Ultralytics der Industriestandard.