YOLOv5 RTDETRv2: Bewertung von CNN- und Transformer-Architekturen für die Objekterkennung
Die Landschaft der Computervision hat sich in den letzten Jahren erheblich erweitert und bietet Entwicklern eine Vielzahl von Architekturen zur Bewältigung komplexer visueller Aufgaben. Zu den beliebtesten Paradigmen zählen Convolutional Neural Networks (CNNs) und Detection Transformers (DETRs).
Dieser Leitfaden enthält einen detaillierten technischen Vergleich zwischen zwei zentralen Modellen in diesen Kategorien: Ultralytics YOLOv5, ein hocheffizientes und weit verbreitetes CNN-basiertes Modell, und RTDETRv2, ein hochmoderner transformatorbasierter Echtzeit-Objektdetektor.
Ultralytics YOLOv5: Der Industriestandard für Effizienz
Seit seiner VeröffentlichungYOLOv5 Ultralytics YOLOv5 zu einem Eckpfeiler der KI-Community entwickelt und treibt weltweit Tausende von kommerziellen Anwendungen und Forschungsprojekten an. Es basiert vollständig auf dem PyTorch basiert und legt den Schwerpunkt auf eine intuitive Entwicklererfahrung, ohne dabei Kompromisse bei der Echtzeitleistung einzugehen.
Wichtigste Merkmale:
- Autor: Glenn Jocher
- Organisation:Ultralytics
- Datum: 2020-06-26
- Links:GitHub-Repository
Architektur und Stärken
YOLOv5 eine optimierte CNN-Architektur, die darauf ausgelegt ist, die Effizienz der Merkmalsextraktion zu maximieren und gleichzeitig einen extrem geringen Speicherbedarf zu gewährleisten. Es verwendet ein CSPDarknet-Backbone und einen PANet-Neck und schafft so eine leistungsstarke Kombination für die Fusion von Merkmalen auf mehreren Ebenen.
Einer der Hauptvorteile von YOLOv5 seine Leistungsbalance. Es bietet einen außergewöhnlichen Kompromiss zwischen Geschwindigkeit und Genauigkeit und ist damit die ideale Wahl für den Einsatz von Modellen auf ressourcenbeschränkter Hardware wie NVIDIA Geräten und Smartphones.
Darüber hinaus YOLOv5 eine beispiellose Vielseitigkeit YOLOv5 . Im Gegensatz zu Modellen, die streng auf Bounding-Box-Vorhersagen beschränkt sind, unterstützt YOLOv5 die Bildklassifizierung und Instanzsegmentierung und bietet damit ein einheitliches Framework für vielfältige visuelle Aufgaben. Auch seine Trainingseffizienz ist bemerkenswert, da es im Vergleich zu Transformer-basierten Architekturen während des Trainings deutlich weniger CUDA benötigt.
Schwächen
Da YOLOv5 auf einem älteren CNN-Framework basiert, ist YOLOv5 bei der Nachbearbeitung YOLOv5 auf Non-Maximum Suppression (NMS) angewiesen, um doppelte Begrenzungsrahmen zu eliminieren. Obwohl NMS innerhalb des Ultralytics hochgradig optimiert ist, NMS gelegentlich zu Latenzengpässen auf spezialisierten Edge-NPUs kommen.
RTDETRv2: Echtzeit-Transformatoren von Baidu
RTDETRv2 (Real-Time Detection Transformer v2) stellt einen erheblichen Fortschritt bei der Anwendung von Transformer-Architekturen auf die Echtzeit-Objekterkennung dar und behebt die rechnerischen Ineffizienzen, unter denen Standard-DETRs in der Vergangenheit litten.
Wichtigste Merkmale:
- Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
- Organisation:Baidu
- Datum: 2024-07-24
- Links:Arxiv-Artikel, GitHub-Repository
Architektur und Stärken
RTDETRv2 baut auf seinem Vorgänger auf und nutzt einen hybriden Encoder und ein flexibles Decoder-Design zur Bildverarbeitung. Der Selbstaufmerksamkeitsmechanismus des Transformators verschafft dem Modell ein globales Verständnis des Bildkontexts, wodurch es in komplexen Szenen mit starker Objektverdeckung außergewöhnlich gute Leistungen erbringt.
Ein charakteristisches Merkmal von RTDETRv2 ist sein durchgängiges, NMS Design. Durch die direkte Vorhersage von Objektabfragen ohne Ankerboxen oder NMS vereinfacht es die Inferenzpipeline. Diese Architektur erzielt eine beeindruckende mAP Mean Average Precision) bei Benchmark-Datensätzen wie COCO.
Schwächen
Trotz seiner Echtzeitfähigkeiten hat RTDETRv2 im Vergleich zu YOLO deutlich höhere Speicheranforderungen. Die Aufmerksamkeitsmechanismen in Transformatoren skalieren quadratisch mit der Sequenzlänge, was bei hochauflösendem Training zu Speicherfehlern führen kann, sofern keine massiven GPU verwendet werden. Darüber hinaus fehlt ihm die sofortige Vielseitigkeit des Ultralytics , da es sich in erster Linie nur auf die 2D-Objekterkennung konzentriert und keine native Unterstützung für Segmentierung oder Posenschätzung bietet.
Leistungsvergleichstabelle
Um diese Architekturen objektiv zu bewerten, haben wir ihre Leistungskennzahlen zusammengestellt. Die fett hervorgehobenen Werte stellen die effizientesten oder leistungsstärksten Kennzahlen über alle getesteten Skalen hinweg dar.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Leistungskontext
RTDETRv2-x erzielt zwar den höchsten absoluten mAP, benötigt jedoch fast 30-mal so viele Parameter wie YOLOv5n. Für Hochgeschwindigkeitsanwendungen, die auf begrenzter Hardware laufen, bieten Ultralytics durchweg die beste Recheneffizienz.
Der Vorteil des Ultralytics-Ökosystems
Beim Übertragen eines Modells aus einem Forschungsnotizbuch in eine Produktionsumgebung ist die Software, die das Modell umgibt, genauso wichtig wie die Architektur des neuronalen Netzwerks. Das von Ultralytics bereitgestellte gut gepflegte Ökosystem beschleunigt den Entwicklungslebenszyklus Ultralytics .
Unübertroffene Benutzerfreundlichkeit
Ultralytics legen Wert auf eine unglaublich optimierte Benutzererfahrung. Ganz gleich, ob Sie ein benutzerdefiniertes Modell trainieren, eine Validierung durchführen oder in hardwarespezifische Formate wie TensorRT oder ONNXexportieren möchten – mit der Ultralytics Python ist dies mit nur wenigen Zeilen Code möglich.
Hier ist ein praktisches Codebeispiel, das zeigt, wie einfach es ist, ein Ultralytics zu trainieren und Inferenz damit durchzuführen:
from ultralytics import YOLO
# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")
# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
inference_results[0].show()
Diese einfache, einheitliche API unterstützt nativ die Integration von Experimentverfolgung mit Tools wie Weights & Biases und Comet, sodass Entwickler Metriken nahtlos protokollieren können, ohne komplexen Boilerplate-Code schreiben zu müssen.
Anwendungsfälle und Empfehlungen
Die Wahl zwischen YOLOv5 RT-DETR von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen RT-DETR .
Wann man YOLOv5 wählen sollte
YOLOv5 eine gute Wahl für:
- Bewährte Produktionssysteme: Bestehende Implementierungen, bei denen track langjährige track , die umfangreiche Dokumentation und die massive Unterstützung durch die Community YOLOv5 geschätzt werden.
- Ressourcenbeschränktes Training: Umgebungen mit begrenzten GPU , in denen die effiziente Training-Pipeline und der geringere Speicherbedarf YOLOv5 von Vorteil sind.
- Umfassende Unterstützung von Exportformaten: Projekte, die eine Bereitstellung in vielen Formaten erfordern, einschließlich ONNX, TensorRT, CoreMLund TFLite.
Wann sollte man sich für RT-DETR entscheiden?
RT-DETR empfohlen für:
- Transformer-basierte Erkennung Forschung: Projekte, die Aufmerksamkeitsmechanismen und Transformer-Architekturen für die End-to-End-Objekterkennung ohne NMS untersuchen.
- Szenarien mit hoher Genauigkeit und flexibler Latenz: Anwendungen, bei denen die Erkennungsgenauigkeit oberste Priorität hat und eine etwas höhere Inferenzlatenz akzeptabel ist.
- Erkennung großer Objekte: Szenen mit überwiegend mittelgroßen bis großen Objekten, in denen der globale Aufmerksamkeitsmechanismus von Transformatoren einen natürlichen Vorteil bietet.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Ausblick: YOLO11 YOLO26
Wenn Sie heute ein neues Vision-Projekt starten, empfehlen wir Ihnen dringend, sich mit den neuesten Generationen der Ultralytics vertraut zu machen.
Während YOLOv5 unglaublich zuverlässig YOLOv5 , YOLO11 verbesserte Genauigkeit und einen erweiterten Aufgabenbereich, einschließlich der Erkennung von Oriented Bounding Boxes (OBB).
Noch bedeutender ist, dass das hochmoderne YOLO26 das Beste aus beiden Welten vereint. Es implementiert ein End-to-End-Design NMS (erstmals eingeführt in YOLOv10eingeführt wurde) und eliminiert so den Aufwand für die Nachbearbeitung, während die Effizienz eines CNN erhalten bleibt. YOLO26 führt außerdem den MuSGD-Optimierer ein, der von LLM-Trainingsinnovationen inspiriert ist und eine schnellere Konvergenz ermöglicht. Mit DFL Removal (Distribution Focal Loss entfernt für vereinfachten Export und bessere Kompatibilität mit Edge-/Low-Power-Geräten) liefert YOLO26 CPU um bis zu 43 % schnellere CPU und ist damit die absolut beste Wahl für Edge-KI. Darüber hinaus bietet ProgLoss + STAL verbesserte Verlustfunktionen mit bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für IoT, Robotik und Luftbildaufnahmen von entscheidender Bedeutung ist.
Fazit
Die Wahl zwischen YOLOv5 RTDETRv2 hängt stark von Ihren Einsatzbedingungen ab. RTDETRv2 erweitert die Grenzen von mAP leistungsstarke Transformer-Aufmerksamkeitsmechanismen, ist jedoch mit hohen Kosten für Speicher und Rechenaufwand verbunden.
UmgekehrtYOLOv5 Ultralytics YOLOv5 eine bewährte, hochoptimierte und vielseitige Lösung, die überall reibungslos läuft – von Cloud-Servern bis hin zu Mikrocontrollern. Für Teams, die neben nahtlosen Bereitstellungstools auch höchste Genauigkeit suchen, bietet ein Upgrade innerhalb des Ultralytics auf YOLO26 die definitive State-of-the-Art-Lösung für moderne Vision-KI-Anwendungen.