YOLO vs. RTDETRv2: Gleichgewicht zwischen Geschwindigkeit und Transformatorgenauigkeit

Bei der Auswahl der optimalen Architektur für die Objekterkennung muss oft ein Kompromiss zwischen Latenzzeit und Erkennungsgenauigkeit gefunden werden. In diesem technischen Vergleich werden YOLO, ein von der Alibaba Group optimierter Hochgeschwindigkeitsdetektor, und RTDETRv2, die zweite Generation des Real-Time Detection Transformer von Baidu, untersucht. Wir analysieren ihre architektonischen Innovationen, Leistungsbenchmarks und ihre Einsatzfähigkeit, um Ihnen zu helfen, fundierte Entscheidungen für Ihre Computer-Vision-Anwendungen zu treffen.

YOLO: Optimierung für niedrige Latenzzeiten

YOLO stellt einen bedeutenden Schritt in der Entwicklung von YOLO Architekturen dar, wobei der Schwerpunkt auf der Maximierung der Geschwindigkeit liegt, ohne die Genauigkeit ernsthaft zu beeinträchtigen. Es wurde von der Alibaba Group entwickelt und nutzt fortschrittliche NAS-Techniken (Neural Architecture Search), um die Netzwerkstruktur auf Effizienz zu trimmen.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation:Alibaba-Gruppe
Datum: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Dokumente:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

Architektonische Highlights

YOLO integriert mehrere neue Technologien, um die Erkennungspipeline zu optimieren:

NAS-gestütztes Backbone: Das Modell nutzt die neuronale Architektursuche (NAS), um automatisch eine effiziente Backbone-Struktur zu finden (MAE-NAS). Dieser Ansatz stellt sicher, dass die Netzwerktiefe und -breite für bestimmte Hardwarebeschränkungen optimiert sind.
RepGFPN Hals: Sie enthält eine effiziente Version des Generalized Feature Pyramid Network (GFPN), bekannt als RepGFPN. Diese Komponente verbessert die Merkmalsfusion in verschiedenen Maßstäben unter Beibehaltung einer niedrigen Latenzkontrolle.
ZeroHead: Ein vereinfachtes Kopfdesign mit der Bezeichnung "ZeroHead" entkoppelt Klassifizierungs- und Regressionsaufgaben und reduziert so die Rechenlast der letzten Vorhersageschichten.
AlignedOTA: Um die Trainingsstabilität zu gewährleisten, verwendet YOLO AlignedOTA (Optimal Transport Assignment), eine Strategie für die Label-Zuweisung, die Klassifizierungs- und Regressionsziele aufeinander abstimmt, um die Konvergenz zu verbessern.

Erfahren Sie mehr über DAMO-YOLO

RTDETRv2: Die Entwicklung der Echtzeit-Transformatoren

RTDETRv2 baut auf dem Erfolg des ursprünglichen RT-DETR auf, dem ersten transformatorbasierten Objektdetektor, der Echtzeitleistung erreicht. Der von Baidu entwickelte RTDETRv2 führt einen "Bag-of-Freebies" ein, um die Trainingsstabilität und -genauigkeit zu verbessern, ohne zusätzliche Kosten für die Inferenz zu verursachen.

Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
Organisation:Baidu
Datum: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Dokumente:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Architektonische Highlights

RTDETRv2 nutzt die Stärken von Bildwandlern und mildert gleichzeitig deren traditionelle Geschwindigkeitsengpässe:

Hybrider Encoder: Die Architektur verwendet einen hybriden Kodierer, der multiskalige Merkmale effizient verarbeitet und die skaleninterne Interaktion und die skalenübergreifende Fusion entkoppelt, um Rechenkosten zu sparen.
IoU Abfrageauswahl: Dieser Mechanismus wählt qualitativ hochwertige anfängliche Objektabfragen auf der Grundlage von Intersection over UnionIoU)-Bewertungen aus, was zu einer schnelleren Trainingskonvergenz führt.
Anpassungsfähige Konfiguration: RTDETRv2 bietet flexible Konfigurationen für den Decoder und die Abfrageauswahl, so dass der Benutzer das Modell auf spezifische Geschwindigkeits-/Genauigkeitsanforderungen abstimmen kann.
Ankerfreies Design: Wie sein Vorgänger ist es vollständig ankerfrei, wodurch die heuristische Ankerbox-Abstimmung und die Nicht-Maximum-UnterdrückungNMS) bei der Nachbearbeitung entfallen.

Erfahren Sie mehr über RTDETRv2

Technischer Vergleich: Leistung und Effizienz

Der Hauptunterschied zwischen diesen beiden Modellen liegt in ihren architektonischen Wurzeln - CNN versus Transformer - und wie sich dies auf ihr Leistungsprofil auswirkt.

Metrische Analyse

In der nachstehenden Tabelle sind die wichtigsten Metriken für den COCO aufgeführt. Während RTDETRv2 in Bezug auf die mittlere durchschnittliche GenauigkeitmAP) dominiert, zeigt YOLO einen besseren Durchsatz (FPS) und eine geringere Anzahl von Parametern für seine kleineren Varianten.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Analyse der Zielkonflikte

YOLO eignet sich hervorragend für Umgebungen, in denen jede Millisekunde zählt, wie z. B. bei der industriellen Hochfrequenzsortierung. Seine "Tiny"-Variante (t) ist außergewöhnlich leicht. Die RTDETRv2-Variante hingegen bietet eine höhere Genauigkeitsgrenze und eignet sich daher besser für komplexe Szenen, in denen das Verpassen eines Objekts kritisch ist, z. B. bei der autonomen Navigation oder der detaillierten Überwachung.

Architektur vs. reale Anwendung

Globaler Kontext vs. lokale Merkmale: Der Transformer-Attention-Mechanismus von RTDETRv2 ermöglicht es ihm, den globalen Kontext besser zu verstehen als das CNN-basierte YOLO. Dies führt zu einer besseren Leistung in überfüllten Szenen oder wenn Objekte verdeckt sind. Diese globale Aufmerksamkeit geht jedoch auf Kosten eines höheren Speicherverbrauchs und langsamerer Trainingszeiten.
Hardware-Optimierung: Das NAS-basierte Backbone von YOLO ist hochgradig für GPU optimiert und erreicht eine sehr geringe Latenz. RTDETRv2 arbeitet zwar in Echtzeit, erfordert aber im Allgemeinen eine leistungsfähigere Hardware, um die Bildwiederholraten der YOLO zu erreichen.

Der Ultralytics-Vorteil: Warum YOLO11 wählen?

Während YOLO und RTDETRv2 spezielle Vorteile bieten, Ultralytics YOLO11 als die ausgewogenste und entwicklerfreundlichste Lösung für die überwiegende Mehrheit der Anwendungen in der Praxis hervor.

Hervorragendes Entwicklererlebnis und Ökosystem

Eine der größten Herausforderungen bei akademischen Modellen wie YOLO oder RTDETRv2 ist die Integration. Ultralytics löst dieses Problem mit einem robusten Ökosystem:

Einfacher Gebrauch: Mit einer einheitlichen Python und CLI können Sie Modelle in nur wenigen Zeilen Code trainieren, validieren und bereitstellen.
Gut gepflegtes Ökosystem: Ultralytics werden durch aktive Entwicklung, umfangreiche Dokumentation und eine große Gemeinschaft unterstützt. Dies gewährleistet die Kompatibilität mit den neuesten Hardware- und Software-Bibliotheken.
Trainingseffizienz: YOLO11 wurde entwickelt, um schneller zu trainieren und benötigt deutlich weniger GPU (VRAM) als transformerbasierte Modelle wie RTDETRv2. Dies macht leistungsstarke KI auch auf Consumer-Hardware zugänglich.

Unerreichte Vielseitigkeit

Im Gegensatz zu YOLO und RTDETRv2, die sich in erster Linie auf die Erkennung von Bounding-Boxen konzentrieren, unterstützt YOLO11 von Haus aus eine breite Palette von Computer-Vision-Aufgaben:

Leistungsbilanz

YOLO11 erreicht eine State-of-the-Art-Genauigkeit, die in vielen Benchmarks mit RTDETRv2 konkurriert oder es sogar übertrifft, während die für die YOLO charakteristische Inferenzgeschwindigkeit und Effizienz beibehalten wird.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Erfahren Sie mehr über YOLO11

Fazit

Die Wahl zwischen YOLO und RTDETRv2 hängt von Ihren spezifischen Anforderungen ab:

Entscheiden Sie sich für YOLO, wenn Ihre Hauptbeschränkung die Latenzzeit ist und Sie auf Edge-Geräten einsetzen, bei denen eine minimale Anzahl von Parametern entscheidend ist.
Entscheiden Sie sich für RTDETRv2, wenn Sie die höchstmögliche Genauigkeit in komplexen Szenen benötigen und über das nötige Rechenbudget für eine Transformatorarchitektur verfügen.

Für eine ganzheitliche Lösung, die hohe Leistung, Benutzerfreundlichkeit und Multitasking-Fähigkeit miteinander verbindet, Ultralytics YOLO11 weiterhin die empfohlene Wahl. Sein geringerer Speicherbedarf während des Trainings, kombiniert mit einem ausgereiften Ökosystem, beschleunigt den Weg vom Prototyp zur Produktion.

Andere Modelle entdecken

Um die Landschaft der Objekterkennung besser zu verstehen, sollten Sie sich diese Vergleiche ansehen:

YOLO vs. RTDETRv2: Gleichgewicht zwischen Geschwindigkeit und Transformatorgenauigkeit

YOLO: Optimierung für niedrige Latenzzeiten

Architektonische Highlights

RTDETRv2: Die Entwicklung der Echtzeit-Transformatoren

Architektonische Highlights

Technischer Vergleich: Leistung und Effizienz

Metrische Analyse

Architektur vs. reale Anwendung

Der Ultralytics-Vorteil: Warum YOLO11 wählen?

Hervorragendes Entwicklererlebnis und Ökosystem

Unerreichte Vielseitigkeit

Leistungsbilanz

Fazit

Andere Modelle entdecken

Kommentare