RTDETRv2 vs. PP-YOLOE+: Ein technischer Vergleich von Objekterkennungsmodellen
Der sich rasant entwickelnde Bereich der Computervision hat vielfältige architektonische Ansätze hervorgebracht, um komplexe Herausforderungen bei der Echtzeit-Objekterkennung zu lösen. Zu den bemerkenswertesten Fortschritten der letzten Zeit zählen RTDETRv2 und PP-YOLOE+, zwei leistungsstarke Modelle, die sich der visuellen Erkennung aus grundlegend unterschiedlichen Designphilosophien nähern. Während beide Modelle auf eine leistungsstarke Erkennung abzielen, unterscheiden sie sich erheblich in ihren zugrunde liegenden Mechanismen, Trainingsparadigmen und idealen Einsatzszenarien.
Dieser umfassende Leitfaden befasst sich eingehend mit den technischen Feinheiten beider Modelle und vergleicht deren Architekturen, Leistungskennzahlen und Ökosystemunterstützung, um Entwicklern und Forschern dabei zu helfen, die optimale Lösung für ihre spezifischen Bereitstellungsanforderungen auszuwählen.
Modellübersichten
Bevor die Leistungsdaten analysiert werden, ist es wichtig, die Ursprünge und architektonischen Ziele jedes Modells zu verstehen. Beide stammen von Forschungsteams bei Baidu, repräsentieren jedoch unterschiedliche Zweige des Stammbaums der Objekterkennung.
RTDETRv2
RTDETRv2 stellt einen bedeutenden Fortschritt bei transformatorbasierten Bildverarbeitungsarchitekturen dar. Aufbauend auf dem ursprünglichen Real-Time Detection Transformer nutzt es ein flexibles Bildverarbeitungstransformator-Backbone in Kombination mit einem effizienten Hybrid-Encoder. Sein herausragendstes Merkmal ist seine native End-to-End-Vorhersagefähigkeit, wodurch die Notwendigkeit einer Nicht-Maximalunterdrückung (NMS) während der Nachbearbeitung vollständig entfällt.
Autor: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
Organisation: Baidu
Datum: 24.07.2024
Arxiv: 2407.17140
GitHub: RT-DETR
Erfahren Sie mehr über RTDETRv2
PP-YOLOE+
PP-YOLOE+ ist eine weiterentwickelte Version der YOLO , die speziell für leistungsstarke industrielle Anwendungen optimiert wurde. Sie verfügt über eine skalierbare CNN-Architektur mit einem ankerfreien Erkennungskopf. Sie wurde entwickelt, um ein außergewöhnliches Verhältnis zwischen Geschwindigkeit und Genauigkeit zu bieten, und verfügt über leistungsstarke Techniken wie den ET-Kopf und eine verallgemeinerte Fokusverlustfunktion, um die Erkennung kleiner Objekte zu verbessern.
Autor: PaddlePaddle
Organisation: Baidu
Datum: 02.04.2022
Arxiv: 2203.16250
GitHub: PaddleDetection Repository
Erfahren Sie mehr über PP-YOLOE+
Ökosystemintegration
Beide Modelle verfügen zwar über eigene Forschungsrepositorien, Sie können jedoch ganz einfach direkt im Ultralytics Python mit RTDETRv2 experimentieren und dabei von einer einheitlichen API und optimierten Exportoptionen profitieren.
Architektonische Unterschiede
Der grundlegende Unterschied zwischen diesen beiden Modellen liegt darin, wie sie den visuellen Kontext verarbeiten und Vorhersagen generieren.
PP-YOLOE+ nutzt ein traditionelles, aber hochoptimiertes Convolutional Neural Network (CNN) als Backbone. Es stützt sich auf lokale rezeptive Felder, um Merkmale zu extrahieren, wodurch es für den Standard-Einsatz unglaublich schnell und effizient ist. Allerdings erfordert es weiterhin NMS standardmäßige NMS , um überlappende Begrenzungsrahmen zu filtern, was in dichten Szenen zu Latenzengpässen führen kann.
Umgekehrt verwendet RTDETRv2 einen Hybrid-Encoder und einen Transformer-Decoder. Dadurch kann das Modell den globalen Kontext über das gesamte Bild gleichzeitig erfassen. Die Aufmerksamkeitsmechanismen verstehen von Natur aus die Beziehungen zwischen Objekten, sodass das Modell die endgültigen Begrenzungsrahmen direkt ohne NMS ausgeben kann. Dieser End-to-End-Ansatz gewährleistet eine stabile Inferenzlatenz unabhängig von der Anzahl der erkannten Objekte.
Leistungskennzahlen und Vergleich
Bei der Bewertung YOLO ist es entscheidend, die Genauigkeit (mAP) gegen die Rechenkosten (FLOPs) und die Inferenzgeschwindigkeit abzuwägen. Die folgende Tabelle zeigt die Leistung beider Modelle in verschiedenen Größen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Während PP-YOLOE+x beim COCO einen geringfügig höherenmAP-Wert von 54,7 % erzielt, bieten RTDETRv2-Modelle aufgrund ihres NMS Designs im Allgemeinen eine konkurrenzfähige Genauigkeit mit dem zusätzlichen Vorteil einer konsistenten Latenz. PP-YOLOE+ behält jedoch einen deutlichen Vorteil bei der Parameteranzahl und den FLOPs für kleinere Modelle, wodurch es für Edge-Implementierungen äußerst effizient ist.
Ultralytics von Ultralytics : Geben Sie YOLO26 ein
RTDETRv2 und PP-YOLOE+ sind zwar an sich schon beeindruckend, doch die Technologie hat sich weiterentwickelt. Für Entwickler, die das optimale Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und Ökosystemunterstützung suchen, stellt Ultralytics den neuen Industriestandard dar.
YOLO26 vereint die besten Aspekte von CNNs und Transformers. Es nutzt das von modernen Architekturen eingeführte NMS und beseitigt so effektiv Engpässe bei der Nachbearbeitung. Darüber hinaus führt es den revolutionären MuSGD-Optimierer ein, einen hybriden Ansatz, der von LLM-Trainingsinnovationen inspiriert ist und ein äußerst stabiles Training und eine schnelle Konvergenz gewährleistet.
Für den Rand optimiert
Im Gegensatz zu schweren Transformator-Modellen, die viel CUDA benötigen, verfügt YOLO26 über DFL Removal (Distribution Focal Loss) und ist speziell für Edge-Computing optimiert, wodurch es im Vergleich zu früheren Generationen CPU bis zu 43 % schnellere CPU liefert.
Darüber hinaus ist YOLO26 nicht auf die einfache Objekterkennung beschränkt. Es ist von Haus aus vielseitig einsetzbar und unterstützt Instanzsegmentierung, Posenschätzung und orientierte Begrenzungsrahmen (OBB), während PP-YOLOE+ in erster Linie auf die Erkennung von Begrenzungsrahmen ausgerichtet ist.
Trainingsmethoden und Ökosystem
Die Effizienz der Schulungen und die Benutzerfreundlichkeit sind die Bereiche, in denen das Ultralytics im Vergleich zu eigenständigen Forschungsrepositorien wirklich glänzt. Während PP-YOLOE+ auf dem PaddlePaddle basiert und RTDETRv2 oft komplexe Umgebungseinrichtungen erfordert, Ultralytics die Integration von Modellen über Ultralytics ein nahtloses Erlebnis.
Mit der Ultralytics profitieren Sie von geringeren Speicheranforderungen während des Trainings, automatisierter Datenverarbeitung und vereinfachter Hyperparameter-Optimierung. Darüber hinaus können Sie Modelle in Produktionsformaten wie ONNX oder TensorRT mit einem einzigen Befehl durchgeführt werden.
Code-Beispiel: Optimierte Inferenz
Im Folgenden wird gezeigt, wie einfach Sie RTDETRv2 zusammen mit dem empfohlenen YOLO26-Modell unter Verwendung des Ultralytics Python einsetzen können:
from ultralytics import RTDETR, YOLO
# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()
# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")
# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")
Anwendungen und Anwendungsfälle in der Praxis
Die Wahl zwischen diesen Architekturen hängt oft von den spezifischen Hardware- und Anwendungsanforderungen ab.
- RTDETRv2 zeichnet sich durch seine Leistungsfähigkeit in serverseitigen Umgebungen und beim Verstehen komplexer Szenen aus. Dank seines globalen Aufmerksamkeitsmechanismus eignet es sich besonders gut für das Crowd Management und die Analyse dichter medizinischer Bilder, bei denen sich überlappende Objekte in der Regel dazu führen, dass herkömmliche NMS versagen.
- PP-YOLOE+ eignet sich hervorragend für industrielle Hochgeschwindigkeitsinspektionen und Umgebungen, in denen stark in das PaddlePaddle investiert wurde. Aufgrund seiner geringen Parameteranzahl bei kleineren Maßstäben ist es für bestimmte Robotikanwendungen geeignet.
- Ultralytics ist die allgemein empfohlene Lösung für den umfassenden kommerziellen Einsatz. Mit seinen verbesserten ProgLoss + STAL-Funktionen verbessert es die Erkennung kleiner Objekte, die für den Betrieb von Drohnen und die Verkehrsüberwachung in Smart Cities entscheidend ist, erheblich.
Anwendungsfälle und Empfehlungen
Die Wahl zwischen RT-DETR PP-YOLOE+ hängt von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen ab.
Wann sollte man sich für RT-DETR entscheiden?
RT-DETR eine gute Wahl für:
- Transformer-basierte Erkennung Forschung: Projekte, die Aufmerksamkeitsmechanismen und Transformer-Architekturen für die End-to-End-Objekterkennung ohne NMS untersuchen.
- Szenarien mit hoher Genauigkeit und flexibler Latenz: Anwendungen, bei denen die Erkennungsgenauigkeit oberste Priorität hat und eine etwas höhere Inferenzlatenz akzeptabel ist.
- Erkennung großer Objekte: Szenen mit überwiegend mittelgroßen bis großen Objekten, in denen der globale Aufmerksamkeitsmechanismus von Transformatoren einen natürlichen Vorteil bietet.
Wann PP-YOLOE+ wählen?
PP-YOLOE+ wird empfohlen für:
- PaddlePaddle : Unternehmen mit bestehender Infrastruktur, die auf PaddlePaddle -Framework und den Tools von Baidu basiert.
- Paddle Lite Edge-Bereitstellung: Bereitstellung auf Hardware mit hochoptimierten Inferenz-Kernels speziell für die Paddle Lite- oder Paddle-Inferenz-Engine.
- Hochpräzise serverseitige Erkennung: Szenarien, in denen maximale Erkennungsgenauigkeit auf leistungsstarken GPU Priorität hat und keine Abhängigkeit von Frameworks besteht.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Fazit
Sowohl RTDETRv2 als auch PP-YOLOE+ haben die Grenzen des Möglichen im Bereich der Computervision erweitert und damit die Leistungsfähigkeit sowohl von Transformer- als auch von hochoptimierten CNN-Architekturen unter Beweis gestellt. Die Komplexität der Bereitstellung fragmentierter Forschungscodebasen kann jedoch die Produktionszeitpläne behindern.
Für moderne KI-Ingenieure bietet die Nutzung der Ultralytics einen unvergleichlichen Vorteil. Durch die Migration zu nahtlos integrierten Modellen wie YOLO11 oder das hochmoderne YOLO26 können Teams ein optimales Verhältnis zwischen Genauigkeit und Geschwindigkeit erzielen und gleichzeitig den Speicherbedarf und den Entwicklungsaufwand drastisch reduzieren.