YOLOv5 RTDETRv2: Bewertung von CNN- und Transformer-Architekturen für die Objekterkennung

Die Landschaft der Computervision hat sich in den letzten Jahren erheblich erweitert und bietet Entwicklern eine Vielzahl von Architekturen zur Bewältigung komplexer visueller Aufgaben. Zu den beliebtesten Paradigmen zählen Convolutional Neural Networks (CNNs) und Detection Transformers (DETRs).

Dieser Leitfaden enthält einen detaillierten technischen Vergleich zwischen zwei zentralen Modellen in diesen Kategorien: Ultralytics YOLOv5, ein hocheffizientes und weit verbreitetes CNN-basiertes Modell, und RTDETRv2, ein hochmoderner transformatorbasierter Echtzeit-Objektdetektor.

Ultralytics YOLOv5: Der Industriestandard für Effizienz

Seit seiner VeröffentlichungYOLOv5 Ultralytics YOLOv5 zu einem Eckpfeiler der KI-Community entwickelt und treibt weltweit Tausende von kommerziellen Anwendungen und Forschungsprojekten an. Es basiert vollständig auf dem PyTorch basiert und legt den Schwerpunkt auf eine intuitive Entwicklererfahrung, ohne dabei Kompromisse bei der Echtzeitleistung einzugehen.

Wichtigste Merkmale:

Autor: Glenn Jocher
Organisation:Ultralytics
Datum: 2020-06-26
Links:GitHub Repository

Architektur und Stärken

YOLOv5 eine optimierte CNN-Architektur, die darauf ausgelegt ist, die Effizienz der Merkmalsextraktion zu maximieren und gleichzeitig einen extrem geringen Speicherbedarf zu gewährleisten. Es verwendet ein CSPDarknet-Backbone und einen PANet-Neck und schafft so eine leistungsstarke Kombination für die Fusion von Merkmalen auf mehreren Ebenen.

Einer der Hauptvorteile von YOLOv5 seine Leistungsbalance. Es bietet einen außergewöhnlichen Kompromiss zwischen Geschwindigkeit und Genauigkeit und ist damit die ideale Wahl für den Einsatz von Modellen auf ressourcenbeschränkter Hardware wie NVIDIA Geräten und Smartphones.

Darüber hinaus YOLOv5 eine beispiellose Vielseitigkeit YOLOv5 . Im Gegensatz zu Modellen, die streng auf Bounding-Box-Vorhersagen beschränkt sind, unterstützt YOLOv5 die Bildklassifizierung und Instanzsegmentierung und bietet damit ein einheitliches Framework für vielfältige visuelle Aufgaben. Auch seine Trainingseffizienz ist bemerkenswert, da es im Vergleich zu Transformer-basierten Architekturen während des Trainings deutlich weniger CUDA benötigt.

Schwächen

Da es auf einem älteren CNN-Framework basiert, ist YOLOv5 während der Nachbearbeitung von Natur aus auf Non-Maximum Suppression (NMS) angewiesen, um doppelte Bounding Boxes zu eliminieren. Obwohl innerhalb des Ultralytics-Frameworks hochoptimiert, kann NMS gelegentlich Latenz-Engpässe auf spezialisierten Edge-NPUs verursachen.

Erfahren Sie mehr über YOLOv5

RTDETRv2: Echtzeit-Transformatoren von Baidu

RTDETRv2 (Real-Time Detection Transformer v2) stellt einen erheblichen Fortschritt bei der Anwendung von Transformer-Architekturen auf die Echtzeit-Objekterkennung dar und behebt die rechnerischen Ineffizienzen, unter denen Standard-DETRs in der Vergangenheit litten.

Wichtigste Merkmale:

Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
Organisation:Baidu
Datum: 2024-07-24
Links:Arxiv-Paper, GitHub-Repository

Architektur und Stärken

RTDETRv2 baut auf seinem Vorgänger auf und nutzt einen hybriden Encoder und ein flexibles Decoder-Design zur Bildverarbeitung. Der Selbstaufmerksamkeitsmechanismus des Transformators verschafft dem Modell ein globales Verständnis des Bildkontexts, wodurch es in komplexen Szenen mit starker Objektverdeckung außergewöhnlich gute Leistungen erbringt.

Ein prägendes Merkmal von RTDETRv2 ist sein End-to-End, NMS-freies Design. Durch die direkte Vorhersage von Objekt-Queries, ohne Ankerboxen oder NMS-Nachbearbeitung zu erfordern, vereinfacht es die Inferenz-Pipeline. Diese Architektur erreicht eine beeindruckende mAP (mean Average Precision) auf Benchmark-Datensätzen wie COCO.

Schwächen

Trotz seiner Echtzeitfähigkeiten weist RTDETRv2 im Vergleich zu YOLO-Modellen deutlich höhere Speicheranforderungen auf. Die Aufmerksamkeitsmechanismen in Transformatoren skalieren quadratisch mit der Sequenzlänge, was bei hochauflösendem Training zu Out-of-Memory-Fehlern führen kann, es sei denn, es werden massive GPU-Cluster verwendet. Zudem fehlt ihm die Out-of-the-box-Vielseitigkeit des Ultralytics-Ökosystems, da es sich primär nur auf die 2D-Objekterkennung konzentriert, ohne native Unterstützung für Segmentierung oder Pose-Schätzung.

Erfahren Sie mehr über RTDETR

Leistungsvergleichstabelle

Um diese Architekturen objektiv zu bewerten, haben wir ihre Leistungskennzahlen zusammengestellt. Die fett hervorgehobenen Werte stellen die effizientesten oder leistungsstärksten Kennzahlen über alle getesteten Skalen hinweg dar.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Leistungskontext

RTDETRv2-x erzielt zwar den höchsten absoluten mAP, benötigt jedoch fast 30-mal so viele Parameter wie YOLOv5n. Für Hochgeschwindigkeitsanwendungen, die auf begrenzter Hardware laufen, bieten Ultralytics durchweg die beste Recheneffizienz.

Der Vorteil des Ultralytics-Ökosystems

Beim Übertragen eines Modells aus einem Forschungsnotizbuch in eine Produktionsumgebung ist die Software, die das Modell umgibt, genauso wichtig wie die Architektur des neuronalen Netzwerks. Das von Ultralytics bereitgestellte gut gepflegte Ökosystem beschleunigt den Entwicklungslebenszyklus Ultralytics .

Unübertroffene Benutzerfreundlichkeit

Ultralytics legen Wert auf eine unglaublich optimierte Benutzererfahrung. Ganz gleich, ob Sie ein benutzerdefiniertes Modell trainieren, eine Validierung durchführen oder in hardwarespezifische Formate wie TensorRT oder ONNXexportieren möchten – mit der Ultralytics Python ist dies mit nur wenigen Zeilen Code möglich.

Hier ist ein praktisches Codebeispiel, das zeigt, wie einfach es ist, ein Ultralytics zu trainieren und Inferenz damit durchzuführen:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

Diese einfache, einheitliche API unterstützt nativ die Integration von Experimentverfolgung mit Tools wie Weights & Biases und Comet, sodass Entwickler Metriken nahtlos protokollieren können, ohne komplexen Boilerplate-Code schreiben zu müssen.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv5 und RT-DETR hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann man YOLOv5 wählen sollte

YOLOv5 eine gute Wahl für:

Bewährte Produktionssysteme: Bestehende Implementierungen, bei denen die langjährige Stabilität, die umfassende Dokumentation und der massive Community-Support von YOLOv5 geschätzt werden.
Ressourcenbeschränktes Training: Umgebungen mit begrenzten GPU-Ressourcen, in denen die effiziente Trainingspipeline und die geringeren Speicheranforderungen von YOLOv5 vorteilhaft sind.
Umfangreiche Unterstützung für Exportformate: Projekte, die eine Bereitstellung in vielen Formaten erfordern, einschließlich ONNX, TensorRT, CoreML und TFLite.

Wann sollte man sich für RT-DETR entscheiden?

RT-DETR empfohlen für:

Transformer-basierte Detektionsforschung: Projekte, die Aufmerksamkeitsmechanismen und Transformer-Architekturen für die End-to-End-Objektdetektion ohne NMS erforschen.
Szenarien mit hoher Genauigkeit und flexibler Latenz: Anwendungen, bei denen die detect-Genauigkeit oberste Priorität hat und eine etwas höhere Inferenzlatenz akzeptabel ist.
Erkennung großer Objekte: Szenen mit hauptsächlich mittelgroßen bis großen Objekten, bei denen der globale Aufmerksamkeitsmechanismus von Transformatoren einen natürlichen Vorteil bietet.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Ausblick: YOLO11 YOLO26

Wenn Sie heute ein neues Vision-Projekt starten, empfehlen wir Ihnen dringend, sich mit den neuesten Generationen der Ultralytics vertraut zu machen.

Während YOLOv5 unglaublich zuverlässig YOLOv5 , YOLO11 verbesserte Genauigkeit und einen erweiterten Aufgabenbereich, einschließlich der Erkennung von Oriented Bounding Boxes (OBB).

Noch bedeutender ist, dass das hochmoderne YOLO26 das Beste aus beiden Welten vereint. Es implementiert ein End-to-End-Design NMS (erstmals eingeführt in YOLOv10eingeführt wurde) und eliminiert so den Aufwand für die Nachbearbeitung, während die Effizienz eines CNN erhalten bleibt. YOLO26 führt außerdem den MuSGD-Optimierer ein, der von LLM-Trainingsinnovationen inspiriert ist und eine schnellere Konvergenz ermöglicht. Mit DFL Removal (Distribution Focal Loss entfernt für vereinfachten Export und bessere Kompatibilität mit Edge-/Low-Power-Geräten) liefert YOLO26 CPU um bis zu 43 % schnellere CPU und ist damit die absolut beste Wahl für Edge-KI. Darüber hinaus bietet ProgLoss + STAL verbesserte Verlustfunktionen mit bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für IoT, Robotik und Luftbildaufnahmen von entscheidender Bedeutung ist.

Fazit

Die Wahl zwischen YOLOv5 und RTDETRv2 hängt stark von Ihren Bereitstellungsbeschränkungen ab. RTDETRv2 erweitert die Grenzen des mAP durch den Einsatz leistungsstarker Transformer-Aufmerksamkeitsmechanismen, ist jedoch mit hohen Kosten in Bezug auf Speicher- und Rechenaufwand verbunden.

Im Gegensatz dazu bietet Ultralytics YOLOv5 eine bewährte, hochoptimierte und vielseitige Lösung, die überall reibungslos läuft – von Cloud-Servern bis hin zu Mikrocontrollern. Für Teams, die höchste Genauigkeit und nahtlose Bereitstellungstools suchen, bietet ein Upgrade innerhalb des Ultralytics-Ökosystems auf YOLO26 die definitive, hochmoderne Lösung für moderne Vision AI-Anwendungen.

YOLOv5 RTDETRv2: Bewertung von CNN- und Transformer-Architekturen für die Objekterkennung

Ultralytics YOLOv5: Der Industriestandard für Effizienz

Architektur und Stärken

Schwächen

RTDETRv2: Echtzeit-Transformatoren von Baidu

Architektur und Stärken

Schwächen

Leistungsvergleichstabelle

Der Vorteil des Ultralytics-Ökosystems

Unübertroffene Benutzerfreundlichkeit

Anwendungsfälle und Empfehlungen

Wann man YOLOv5 wählen sollte

Wann sollte man sich für RT-DETR entscheiden?

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Ausblick: YOLO11 YOLO26

Fazit

Kommentare