Zum Inhalt springen

PP-YOLOE+ vs. RTDETRv2: Vergleich der Objekterkennung mittels Deep Learning

Die Weiterentwicklung von Architekturen zur Objekterkennung war geprägt von einem intensiven Wettstreit zwischen Convolutional Neural Networks (CNNs) und Transformer-basierten Modellen. Zwei wichtige Meilensteine in dieser Entwicklung sind PP-YOLOE+, ein weiterentwickelter CNN-basierter Detektor aus dem PaddlePaddle , und RTDETRv2, ein hochmoderner Transformer für die Echtzeit-Erkennung.

Dieser technische Vergleich bewertet ihre Architekturen, Leistungskennzahlen und Eignung für den Einsatz, um Forschern und Ingenieuren bei der Auswahl des optimalen Modells für ihre spezifischen Computer-Vision-Anwendungen zu helfen.

Zusammenfassung

PP-YOLOE+ stellt die Spitze derYOLO dar und konzentriert sich auf die Verfeinerung ankerfreier Mechanismen und Strategien zur Labelzuweisung innerhalb eines reinen CNN-Frameworks. Es zeichnet sich in Umgebungen aus, die tief in PaddlePaddle von Baidu integriert sind, kann jedoch beim Export in andere Ökosysteme auf Reibungsverluste stoßen.

RTDETRv2 (Real-Time Detection Transformer v2) setzt neue Maßstäbe durch die Einführung eines flexiblen, einstellbaren Decoders und die Optimierung des Hybrid-Encoders. Durch die Nutzung der globalen Aufmerksamkeitsfunktionen von Transformatoren macht es die Non-Maximum Suppression (NMS), einen häufigen Engpass in der Nachbearbeitung, überflüssig.

Für Entwickler, die nach einer einheitlichen Lösung suchen, die die Geschwindigkeit von CNNs mit dem NMS Komfort von Transformatoren kombiniert – ohne den enormen Rechenaufwand –, bietetUltralytics jedoch eine überlegene Alternative. Mit seinem nativen End-to-End-Design und CPU um bis zu 43 % schnelleren CPU schließt YOLO26 die Lücke zwischen Hochleistungsservern und Edge-Geräten.

PP-YOLOE+: Das ankerfreie CNN-Kraftpaket

PP-YOLOE+ wurde 2022 veröffentlicht und ist eine verbesserte Version von PP-YOLOE, die über ein starkes Backbone und eine dynamische Labelzuweisung verfügt, um eine wettbewerbsfähige Genauigkeit zu erzielen.

Autoren: PaddlePaddle
Organisation:Baidu
Datum: 02.04.2022
Arxiv:2203.16250
GitHub:PaddleDetection

Architektonische Highlights

PP-YOLOE+ nutzt CSPRepResStage, ein Backbone, das die Vorteile des Gradientenflusses von CSPNet mit den Reparametrisierungstechniken von RepVGG kombiniert. Dadurch verfügt das Modell über komplexe Trainingsdynamiken, die während der Inferenz zu einfachen Faltungen zusammenfallen und so die Bereitstellung beschleunigen.

Das Modell verwendet einen Anchor-Free -Kopf mit einer Task Alignment Learning (TAL)-Strategie. Im Gegensatz zu älteren ankerbasierten Methoden, die sich auf vordefinierte Boxen stützen, prognostiziert PP-YOLOE+ die Mitte von Objekten und deren Abstände zu den Rändern der Begrenzungsbox. Dies vereinfacht die Hyperparametersuche und verbessert die Generalisierung auf verschiedenen Datensätzen wie COCO.

Legacy-Einschränkungen

PP-YOLOE+ bietet zwar eine starke Leistung, aber seine starke Abhängigkeit vom PaddlePaddle kann die Bereitstellungspipelines erschweren, die auf PyTorch ONNX standardisiert sind. Benutzer benötigen oft spezielle Konverter, um Modelle auf Edge-Plattformen zu übertragen.

Erfahren Sie mehr über PP-YOLOE+

RTDETRv2: Die Transformer-Evolution

RTDETRv2 baut auf dem Erfolg des ursprünglichen RT-DETR auf und soll beweisen, dass Transformatoren YOLOs in Echtzeit-Szenarien übertreffen können. Es behebt die hohen Rechenkosten von Standard-Vision-Transformern (ViTs) durch die Verwendung eines hybriden Encoders, der multiskalige Merkmale effizient verarbeitet.

Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
Organisation: Baidu
Datum: 17.04.2023 (Original), 24.07.2024 (Version 2)
Arxiv:2304.08069
GitHub:RT-DETR

Architektonische Highlights

Die zentrale Innovation von RTDETRv2 ist sein Hybrid-Encoder und IoU Abfrageauswahl. Herkömmliche Transformer haben bei der Verarbeitung hochauflösender Feature-Maps mit der quadratischen Komplexität von Aufmerksamkeitsmechanismen zu kämpfen. RTDETRv2 mildert dies durch die Entkopplung von intra-skaligen Interaktionen und skalenübergreifender Fusion, wodurch der Speicherverbrauch erheblich reduziert wird.

Entscheidend ist, dass RTDETRv2 ein End-to-End-Detektor ist. Er verwendet während des Trainings einen Hungarian Matcher, um Vorhersagen eins zu eins der Grundwahrheit zuzuordnen. Das bedeutet, dass die Modellausgabe keine NMS erfordert, wodurch die mit herkömmlichen YOLO verbundenen Latenzspitzen und Parameteranpassungen vermieden werden.

Erfahren Sie mehr über RTDETR

Leistungsvergleich

Die folgende Tabelle vergleicht die Leistung beider Architekturen. Während PP-YOLOE+ bei geringeren Parameterzahlen seine Kompetenz unter Beweis stellt, zeigt RTDETRv2 bei größeren Größen eine überlegene Skalierbarkeit, allerdings mit höheren Rechenanforderungen (FLOPs).

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Der Ultralytics-Vorteil: Warum YOLO26 wählen?

RTDETRv2 bot zwar die Vorteile einer NMS Erkennung, jedoch auf Kosten der Verwendung schwerer Transformatorblöcke, die oft langsam zu trainieren und aufGPU schwer zu implementieren sind. Ultralytics revolutioniert diese Landschaft, indem es eine NMS Erkennung unter Verwendung einer reinen CNN-Architektur erreicht.

Durch die Anwendung einer CDA-Strategie (Consistent Dual Assignment) während des Trainings lernt YOLO26, doppelte Boxen intern zu unterdrücken. Dadurch entfällt der Inferenz-Overhead von NMS es zu Latenzverlusten durch Transformatoren kommt.

Die wichtigsten Vorteile von YOLO26

  1. MuSGD-Optimierer: Inspiriert von LLM-Trainingsinnovationen wie Kimi K2 von Moonshot AI kombiniert der MuSGD-Optimierer SGD Muon für eine schnellere Konvergenz und ein stabiles Training – eine Funktion, die einzigartig für die YOLO26-Generation ist.
  2. Edge-optimierte Effizienz: Durch die Entfernung von Distribution Focal Loss (DFL) und komplexen Attention-Layern erreicht YOLO26 CPU um bis zu 43 % schnellere CPU im Vergleich zu früheren Iterationen. Damit eignet es sich ideal für den Einsatz auf Raspberry Pi oder Mobilgeräten, wo RTDETR Schwierigkeiten hat.
  3. Vielseitigkeit der Aufgaben: Im Gegensatz zu PP-YOLOE+, das in erster Linie ein Detektor ist, unterstützt YOLO26 nativ Posenschätzung, Instanzsegmentierung und OBB in einer einzigen Bibliothek.
  4. ProgLoss + STAL: Neue Verlustfunktionen verbessern die Erkennung kleiner Objekte – eine entscheidende Schwäche vieler Transformermodelle – und machen YOLO26 für die Analyse von Luftbildern überlegen.

Optimierter Arbeitsablauf mit Ultralytics

Vergessen Sie komplexe Konfigurationsdateien. Sie können YOLO26-Modelle direkt über die Ultralytics trainieren, versionieren und bereitstellen. Das Ökosystem übernimmt alles, von der Datensatzannotation bis zum Export mit einem Klick für TensorRT, CoreML und TFLite.

Codebeispiel: Erste Schritte mit YOLO26

Mit der Ultralytics Python ist es unglaublich einfach, das neueste hochmoderne Modell auszuführen:

from ultralytics import YOLO

# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for simplified deployment
model.export(format="onnx")

Erfahren Sie mehr über YOLO26

Ideale Anwendungsfälle

Wann sollte PP-YOLOE+ verwendet werden?

  • Legacy-Paddle-Systeme: Wenn Ihre bestehende Infrastruktur vollständig auf Baidus PaddlePaddle basiert, bietet PP-YOLOE+ einen nativen Upgrade-Pfad, ohne dass Frameworks geändert werden müssen.
  • Serverseitige CNNs: Für Szenarien, in denen reichlich GPU vorhanden ist, aber die Transformer-Unterstützung (z. B. TensorRT für Multi-Head Attention) in der Bereitstellungsumgebung fehlt.

Wann man RTDETRv2 verwenden sollte

  • Überfüllte Szenen: Der globale Aufmerksamkeitsmechanismus von Transformatoren hilft in Szenen mit starker Okklusion, in denen CNNs Schwierigkeiten haben könnten, überlappende Objekte voneinander zu trennen.
  • Feste Hardware: Geeignet für High-End-GPUs (wie NVIDIA oder A100), bei denen der Overhead der Matrixmultiplikation von Transformatoren im Vergleich zu den Genauigkeitsgewinnen vernachlässigbar ist.

Wann sollte Ultralytics verwendet werden?

  • Edge & Mobile AI: Der geringe Speicherbedarf und CPU hohe CPU machen YOLO26 zur ersten Wahl für Android oder eingebettete Systeme.
  • Echtzeit-Videoanalyse: Bei Anwendungen, die eine hohe Bildfrequenz erfordern, wie beispielsweise Verkehrsüberwachung oder Fertigungsstraßen, gewährleistet das NMS Design eine deterministische Latenz.
  • Forschung und Rapid Prototyping: Dank der umfangreichen Dokumentation und der aktiven Community-Unterstützung können Forscher schnell iterieren und vorab trainierte Gewichte für eine Vielzahl von Aufgaben nutzen, die über die einfache Erkennung von Begrenzungsrahmen hinausgehen.

Fazit

Sowohl PP-YOLOE+ als auch RTDETRv2 haben einen bedeutenden Beitrag zum Bereich der Computervision geleistet. PP-YOLOE+ hat die Grenzen von CNNs innerhalb des Paddle-Ökosystems erweitert, während RTDETRv2 die Eignung von Transformatoren für Echtzeitaufgaben unter Beweis gestellt hat. Ultralytics vereint jedoch alle diese Fortschritte: Es bietet die architektonische Einfachheit und Geschwindigkeit eines CNN mit der End-to-End-Eleganz eines Transformers NMS. In Kombination mit dem robusten Ultralytics ist es das vielseitigste Tool für die moderne KI-Entwicklung.


Kommentare