Zum Inhalt springen

YOLOv5 gegenüber RTDETRv2: Ein detaillierter Modellvergleich

Die Wahl des richtigen Objekterkennungsmodells ist für Computer-Vision-Projekte entscheidend. Ultralytics bietet eine Reihe von Modellen an, die auf verschiedene Bedürfnisse zugeschnitten sind, darunter das hocheffiziente Ultralytics YOLOv5 und vergleicht es mit anderen Architekturen wie RTDETRv2. Auf dieser Seite finden Sie einen technischen Vergleich zwischen YOLOv5 und RTDETRv2, in dem die Unterschiede in der Architektur, den Leistungskennzahlen, den Trainingsmethoden und den idealen Anwendungen hervorgehoben werden.

YOLOv5: Geschwindigkeit und Effizienz

Autor: Glenn Jocher
Organisation: Ultralytics
Datum: 2020-06-26
GitHub: https:yolov5
Dokumente: https:yolov5

Ultralytics YOLOv5 ist ein weit verbreiteter einstufiger Objektdetektor, der für seine außergewöhnliche Inferenzgeschwindigkeit und Betriebseffizienz bekannt ist. Er wurde von Ultralytics entwickelt und ist zu einem Maßstab für Echtzeit-Objekterkennungsaufgaben geworden.

Architektur

YOLOv5 verwendet eine CNN-basierte Architektur, die auf Geschwindigkeit optimiert ist:

  • Backbone: CSPDarknet53 für effiziente Merkmalsextraktion.
  • Hals: PANet für eine effektive skalenübergreifende Merkmalsfusion.
  • Kopf: YOLOv5 für Bounding-Box-Vorhersage und -Klassifizierung. Er ist in verschiedenen Größen erhältlich (n, s, m, l, x), so dass die Benutzer den besten Kompromiss zwischen Geschwindigkeit und Genauigkeit für ihre spezifischen Anforderungen wählen können.

Stärken

YOLOv5 bietet erhebliche Vorteile, insbesondere für Entwickler, die einen praktischen Einsatz anstreben:

  • Benutzerfreundlichkeit: Optimierte Benutzerfreundlichkeit mit einer einfachen API, einer umfangreichen Dokumentation und zahlreichen Tutorials.
  • Gut gepflegtes Ökosystem: Profitiert vom integrierten Ultralytics , einschließlich aktiver Entwicklung, starker Community-Unterstützung über GitHub und Discord, häufiger Aktualisierungen und Plattformen wie Ultralytics HUB für no-code Training und Bereitstellung.
  • Ausgewogene Leistung: Erzielt ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und -genauigkeit und ist damit für verschiedene reale Szenarien geeignet.
  • Speicherbedarf: In der Regel geringerer Speicherbedarf (insbesondere CUDA beim Training) im Vergleich zu transformatorbasierten Modellen wie RTDETRv2.
  • Trainingseffizienz: Bietet effiziente Trainingsprozesse, schnellere Konvergenz und leicht verfügbare vortrainierte Gewichte für Datensätze wie COCO.
  • Vielseitigkeit: Das YOLOv5 ist zwar in erster Linie auf die Erkennung ausgerichtet, unterstützt aber auch die Segmentierung von Instanzen und Bildklassifizierungsaufgaben.

Schwachstellen

  • Genauigkeit: Obwohl sie sehr genau sind, können größere, komplexere Modelle wie RTDETRv2-x bei anspruchsvollen Datensätzen eine etwas höhere mAP erreichen, wenn auch auf Kosten von Geschwindigkeit und Ressourcen.

Ideale Anwendungsfälle

YOLOv5 zeichnet sich aus durch:

Erfahren Sie mehr über YOLOv5

RTDETRv2: Hochpräzise Echtzeit-Detektion

Die Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, und Yi Liu
Organisation: Baidu
Datum: 2023-04-17 (Ursprünglicher RT-DETR), 2024-07-24 (RT-DETRv2 Verbesserungen)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https:RT-DETR
Docs: https:RT-DETR

RTDETRv2 (Real-Time Detection Transformer v2) ist ein hochmoderner Objektdetektor, der die Leistung von Vision Transformers (ViT) nutzt, um eine hohe Genauigkeit bei gleichzeitiger Echtzeitleistung zu erreichen.

Architektur

RTDETRv2 verwendet einen hybriden Ansatz:

  • Grundgerüst: In der Regel ein CNN (wie ResNet-Varianten) für die anfängliche Merkmalsextraktion.
  • Encoder-Decoder: Eine auf Transformer basierende Encoder-Decoder-Struktur, die Mechanismen der Selbstaufmerksamkeit nutzt, um den globalen Kontext innerhalb der Bildmerkmale zu erfassen. Dadurch kann das Modell Beziehungen zwischen weit entfernten Objekten und komplexen Szenen besser verstehen.

Stärken

  • Hohe Genauigkeit: Die Transformer-Architektur ermöglicht RTDETRv2 hervorragende mAP-Ergebnisse, insbesondere bei komplexen Datensätzen mit dichten oder kleinen Objekten.
  • Echtzeit-Fähigkeit: Optimiert, um wettbewerbsfähige Inferenzgeschwindigkeiten zu bieten, insbesondere bei der Beschleunigung mit Tools wie NVIDIA TensorRT.
  • Robuste Merkmalsextraktion: Erfasst effektiv den globalen Kontext, was zu einer besseren Leistung in schwierigen Szenarien wie Verdeckungen führt.

Schwachstellen

  • Berechnungsaufwand: Im Allgemeinen ist die Anzahl der Parameter und FLOPs im Vergleich zu YOLOv5 höher, was einen höheren Bedarf an RechenressourcenGPU , Rechenleistung) zur Folge hat.
  • Komplexität der Ausbildung: Das Training von Transformator-basierten Modellen kann ressourcenintensiver und potenziell langsamer sein als das Training von CNN-basierten Modellen wie YOLOv5.
  • Inferenzgeschwindigkeit: Sie ist zwar auf leistungsfähiger Hardware echtzeitfähig, kann aber langsamer sein als die schnellsten YOLOv5 , insbesondere auf CPUs oder weniger leistungsfähigen Edge-Geräten.
  • Ökosystem: Es fehlt das umfangreiche, einheitliche Ökosystem, die Werkzeuge (wie Ultralytics HUB) und die breite Unterstützung der Gemeinschaft, die Ultralytics für YOLO bietet.

Ideale Anwendungsfälle

RTDETRv2 eignet sich am besten für Anwendungen, bei denen die Genauigkeit im Vordergrund steht und ausreichende Rechenressourcen zur Verfügung stehen:

Erfahren Sie mehr über RTDETRv2

Leistungsvergleich: YOLOv5 vs. RTDETRv2

Modell Größe
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Die Tabelle zeigt die Kompromisse auf:

  • YOLOv5 Modelle (insbesondere n/s/m) bieten deutlich schnellere Inferenzgeschwindigkeiten sowohl auf der CPU als auch auf der GPU TensorRT) bei viel geringerer Parameteranzahl und FLOPs, was sie ideal für ressourcenbeschränkte Umgebungen macht.
  • RTDETRv2-Modelle erreichen höhere mAP-Spitzenwerte (vor allem die l/x-Varianten), sind aber mit höheren Latenzzeiten und Rechenanforderungen verbunden. Insbesondere RTDETRv2-s/m bieten eine wettbewerbsfähige Genauigkeit zu YOLOv5l/x mit potenziell schnelleren TensorRT , aber nicht die angegebene CPU .

Ausbildung und Ökosystem

Ultralytics YOLOv5 zeichnet sich durch seine einfache Schulung und sein umfassendes Ökosystem aus. Die Schulung erfolgt unkompliziert über die mitgelieferte CLI oder die Python , unterstützt durch eine umfangreiche Dokumentation und Tutorials. Das Ultralytics bietet Tools wie Ultralytics HUB für eine vereinfachte Schulung und Bereitstellung, aktiven Community-Support und nahtlose Integrationen mit Tools wie Weights & Biases und ClearML. Darüber hinaus benötigt die CNN-Architektur von YOLOv5 im Allgemeinen weniger GPU und trainiert schneller als Transformer-Modelle.

RTDETRv2 ist zwar leistungsfähig, erfordert aber das Training einer komplexeren Transformatorarchitektur. Dies erfordert in der Regel umfangreichere Rechenressourcen (insbesondere hohen GPU ) und potenziell längere Trainingszeiten. Das GitHub-Repository bietet zwar Trainingsskripte, aber das umgebende Ökosystem und die Supportstruktur sind weniger umfangreich als die von Ultralytics angebotenen.

Schlussfolgerung

Sowohl YOLOv5 als auch RTDETRv2 sind fähige Modelle zur Objekterkennung, die jedoch unterschiedliche Prioritäten verfolgen.

  • Ultralytics YOLOv5 ist die empfohlene Wahl für Anwendungen, bei denen es auf hohe Geschwindigkeit, Effizienz, Benutzerfreundlichkeit und vielseitige Einsatzmöglichkeiten ankommt, insbesondere auf Endgeräten oder bei begrenzten Rechenressourcen. Sein robustes Ökosystem und die geringen Schulungsanforderungen machen es für Entwickler und Forscher leicht zugänglich.
  • RTDETRv2 ist geeignet, wenn maximale Genauigkeit absolute Priorität hat und ausreichende Rechenressourcen (einschließlich leistungsstarker GPUs für Training und Inferenz) zur Verfügung stehen.

Für die meisten praktischen Anwendungen bietet YOLOv5 ein ausgezeichnetes und oft überlegenes Gleichgewicht zwischen Leistung, Geschwindigkeit und Benutzerfreundlichkeit, unterstützt durch die starke Unterstützung und das Tooling des Ultralytics .

Andere Modelle erkunden

Wenn Sie nach Alternativen suchen, sollten Sie andere Modelle innerhalb des Ultralytics in Betracht ziehen:

  • YOLOv8: Ein Nachfolger von YOLOv5, der eine verbesserte Genauigkeit und Geschwindigkeit bei verschiedenen Aufgaben wie Erkennung, Segmentierung, Pose und Verfolgung bietet.
  • YOLOv10: Bietet Innovationen wie NMS-freies Training für weitere Effizienzsteigerungen.
  • YOLO11: Die neueste Generation von Ultralytics, die die Grenzen von Leistung und Effizienz verschiebt.

Ein Vergleich von Modellen wie YOLOv8 vs. RTDETRv2 oder YOLOv10 vs. RTDETRv2 kann weitere Erkenntnisse über die beste Eignung für Ihr Projekt liefern.

📅 Erstellt vor 1 Jahr ✏️ Aktualisiert vor 1 Monat

Kommentare