Zum Inhalt springen

RTDETRv2 vs. YOLOv5: Ein technischer Vergleich

Die Auswahl der richtigen Objekterkennungsarchitektur ist eine wichtige Entscheidung, die sich auf alles auswirkt, von den Bereitstellungskosten bis hin zur Benutzererfahrung. In diesem detaillierten Vergleich untersuchen wir die Vor- und Nachteile von RTDETRv2, einem hochmodernen Echtzeit-Transformator von Baidu, und Ultralytics YOLOv5, dem legendären CNN-basierten Modell, das den Standard für Benutzerfreundlichkeit und Zuverlässigkeit in der Bildverarbeitung gesetzt hat.

Während RTDETRv2 spannende transformatorbasierte Innovationen einführt, bleiben YOLOv5 seine Nachfolger (wie das hochmoderne YOLO26) die Branchenbenchmarks für Vielseitigkeit, Bereitstellungsgeschwindigkeit und Entwicklererfahrung.

Zusammenfassung

RTDETRv2 (Real-Time Detection Transformer v2) ist eine Weiterentwicklung der DETR-Architektur, die darauf ausgelegt ist, die Nicht-Maximalunterdrückung (NMS) zu eliminieren und gleichzeitig eine hohe Genauigkeit auf GPU zu erzielen. Sie eignet sich ideal für Forschungsumgebungen und High-End-Serverbereitstellungen, in denen reichlich VRAM zur Verfügung steht.

YOLOv5 (You Only Look Once v5) ist eine ausgereifte, produktionsreife CNN-Architektur. Sie ist bekannt für ihre einfache Installation und Inbetriebnahme und zeichnet sich durch Edge-Computing, schnelles Training und breite Hardwarekompatibilität aus. Entwicklern, die nach absoluter Spitzenleistung in Sachen Geschwindigkeit und Genauigkeit suchen, empfiehlt Ultralytics YOLO26, das die NMS Vorteile von Transformatoren mit der Geschwindigkeit von YOLO kombiniert.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Architektur und Design

Der grundlegende Unterschied liegt darin, wie diese Modelle visuelle Informationen verarbeiten: Transformatoren vs. Convolutional Neural Networks (CNNs).

RTDETRv2: Der Transformer-Ansatz

Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
Organisation:Baidu
Datum: 17.04.2023 (Original RT-DETR), 2024 (v2)
Links:ArXiv | GitHub

RTDETRv2 verwendet eine hybride Encoder-Decoder-Architektur. Es nutzt ein CNN-Backbone (oft ResNet oder HGNetv2), um Merkmale zu extrahieren, die dann von einem effizienten Transformer-Encoder verarbeitet werden. Die wichtigste Neuerung ist der Hybrid-Encoder, der die intra-skalige Interaktion und die skalenübergreifende Fusion entkoppelt, um den Rechenaufwand zu reduzieren.

Das bemerkenswerteste Merkmal ist die NMS Vorhersage. Durch die Verwendung von bipartitem Matching während des Trainings lernt das Modell, genau eine Box pro Objekt auszugeben, wodurch Nachbearbeitungsschritte wie Non-Maximum Suppression (NMS) entfallen. Dies geht jedoch zu Lasten eines höheren Speicherverbrauchs und einer langsameren Trainingskonvergenz im Vergleich zu reinen CNNs.

YOLOv5: Der CNN-Standard

Autor: Glenn Jocher
Organisation:Ultralytics
Datum: 26.06.2020
Links:Dokumente | GitHub

YOLOv5 eine hochoptimierte CNN-Architektur, die auf dem CSPNet-Backbone und einem PANet-Neck basiert. Dieses Design priorisiert den Gradientenfluss und die Wiederverwendung von Merkmalen, was zu einem außergewöhnlich schlanken und schnellen Modell führt. Im Gegensatz zu Transformatoren, die riesige Datensätze benötigen, um den globalen Kontext zu lernen, ermöglicht die induktive Verzerrung YOLOv5 ein effektives Lernen aus kleineren Datensätzen mit deutlich geringerem Rechenaufwand.

Erfahren Sie mehr über YOLOv5

Die Entwicklung: YOLO26

Während YOLOv5 auf NMS YOLOv5 , verwendet das neue Ultralytics ein End-to-End-Design NMS, ähnlich wie RTDETRv2, behält jedoch die Geschwindigkeit und Trainingseffizienz der YOLO bei. Es führt außerdem den MuSGD-Optimierer ein, der die Konvergenz erheblich beschleunigt.

Leistungsanalyse

Inferenzgeschwindigkeit und Latenz

Bei der Bereitstellung in der Produktion ist die Latenz oft der Engpass. YOLOv5 in CPU Umgebungen und Edge-Geräten. Die architektonische Einfachheit von CNNs lässt sich effizient auf Standardprozessoren und mobile NPUs abbilden.

RTDETRv2 glänzt auf modernen GPUs (wie NVIDIA oder A100), wo seine Matrixmultiplikationsoperationen effektiv parallelisiert werden. Auf Edge-Geräten wie dem Raspberry Pi können die Transformer-Operationen jedoch extrem rechenintensiv sein, was zu einer geringeren Bildrate im Vergleich zu YOLOv5n oder YOLOv5s führt.

Genauigkeit (mAP)

RTDETRv2 erzielt im Vergleich zu YOLOv5 im Allgemeinen eine höhere mittlere Präzision (mAP) beim COCO , insbesondere bei großen Objekten und komplexen Szenen, bei denen der globale Kontext entscheidend ist. So erreicht RTDETRv2-L beispielsweise eine mAP 53,4 % und übertrifft damit YOLOv5x (50,7 %), wobei weniger Parameter verwendet werden.

Allerdings ist Genauigkeit nicht der einzige Maßstab. In realen Szenarien mit kleinen Objekten oder Videofeeds mit Bewegungsunschärfe verringert sich der Unterschied. Darüber hinaus sind neuere Ultralytics wie YOLO11 und YOLO26 haben diese Lücke geschlossen und bieten eine vergleichbare oder sogar höhere Genauigkeit bei besserer Effizienz.

Trainingseffizienz und Ökosystem

Hier bietet das Ultralytics einen entscheidenden Vorteil.

Ultralytics YOLOv5 YOLO26:

  • Schnelle Konvergenz: CNNs konvergieren in der Regel schneller als Transformer. Sie können ein brauchbares YOLOv5 in wenigen Stunden auf einer einzigen GPU trainieren.
  • Geringer Speicherbedarf: Das Training YOLO deutlich weniger VRAM, sodass es für Forscher mit handelsüblichen Grafikkarten (z. B. RTX 3060) zugänglich ist.
  • Datenanreicherung: Die Ultralytics umfasst modernste Anreicherungsstrategien (Mosaic, MixUp), die standardmäßig aktiviert sind.
  • Plattformintegration: Nahtlose Anbindung an die Ultralytics für Datenverwaltung, Cloud-Training und Bereitstellung mit einem Klick.

RTDETRv2:

  • Ressourcenintensiv: Transformatoren sind bekanntermaßen datenhungrig und rechenintensiv während des Trainings. Die Stabilisierung des Aufmerksamkeitsmechanismus erfordert oft längere Trainingspläne (oft mehr als 72 Epochen, um das zu erreichen, was YOLO in weniger Epochen YOLO ).
  • Komplexe Konfiguration: Als forschungsorientiertes Repository erfordert die Einrichtung von RTDETRv2 für benutzerdefinierte Datensätze häufig die manuelle Änderung von Konfigurationsdateien und die Anpassung von Datenladern.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Anwendungsfälle in der Praxis

Ideale Szenarien für YOLOv5 YOLO26

Die Ultralytics ist das „Schweizer Taschenmesser“ der Bildverarbeitung und eignet sich für 90 % aller kommerziellen Anwendungen.

  • Edge-KI und IoT: Perfekt für NVIDIA oder mobile Anwendungen, bei denen der Stromverbrauch und die thermischen Grenzen strenge Einschränkungen darstellen.
  • Fertigung: Wird in der Qualitätskontrolle von Fertigungsstraßen eingesetzt, wo Schlussfolgerungen innerhalb von Millisekunden getroffen werden müssen, um mit der Produktionsgeschwindigkeit Schritt zu halten.
  • Vielfältige Aufgaben: Über die Erkennung hinaus unterstützen Ultralytics nativ Instanzsegmentierung, Posenschätzung, OBB und Klassifizierung.
  • Landwirtschaft: Leichte Modelle wie YOLOv5n eignen sich ideal für die Ernteüberwachung per Drohne, da sie direkt auf der Hardware der Drohne laufen.

Ideale Szenarien für RTDETRv2

  • High-End-Überwachung: Stationäre Sicherheitskameras, die mit leistungsstarken Servern verbunden sind, bei denen maximale Genauigkeit gegenüber Edge-Latenz bevorzugt wird.
  • Akademische Forschung: Untersuchung von Aufmerksamkeitsmechanismen und Vision Transformers.
  • Überfüllte Szenen: Der globale Aufmerksamkeitsmechanismus kann manchmal starke Okklusion besser verarbeiten als reine CNNs, vorausgesetzt, die Hardware kann die Rechenlast bewältigen.

Fazit

Sowohl RTDETRv2 als auch YOLOv5 bedeutende Meilensteine in der Geschichte der Objekterkennung YOLOv5 . RTDETRv2 beweist, dass Transformer in Echtzeit auf High-End-GPUs arbeiten können und dabei eine hohe Genauigkeit und eine elegante NMS Architektur bieten.

Für die überwiegende Mehrheit der Entwickler und kommerziellen Anwendungen bleibenUltralytics jedoch die überlegene Wahl. Die Kombination aus dem ausgereiften YOLOv5 Ökosystems und den bahnbrechenden Innovationen in YOLO26 stellt sicher, dass Sie für jede Anforderung das richtige Werkzeug zur Verfügung haben.

Warum auf YOLO26 upgraden? Wenn Sie diese Modelle für ein neues Projekt im Jahr 2026 vergleichen, empfehlen wir Ihnen dringend YOLO26. Es vereint das Beste aus beiden Welten:

  1. Nativ End-to-End: Wie RTDETRv2 entfernt es NMS eine einfachere Bereitstellung.
  2. Bis zu 43 % schnellere CPU : Speziell für den Edge-Bereich optimiert, im Gegensatz zu schwerfälligen Transformatoren.
  3. Vielseitigkeit der Aufgaben: Unterstützt Erkennung, Segmentierung, Pose und OBB in einem einzigen Framework.

Erfahren Sie mehr über YOLO26

Weitere Informationen zu anderen Architekturen finden Sie in unseren Vergleichen zwischen RT-DETR YOLO11 sowie YOLOv8 EfficientDet.


Kommentare