Zum Inhalt springen

YOLO . RTDETRv2: Architekturen für die Echtzeit-Erkennung

Die Auswahl der optimalen Architektur für die Objekterkennung ist eine entscheidende Entscheidung, die sich auf alles auswirkt, von der Inferenzlatenz bis hin zu den Bereitstellungskosten. Zwei innovative Modelle, die den Status quo in Frage gestellt haben, sind YOLO von Alibaba und RTDETRv2 von Baidu. WährendYOLO auf die neuronale Architektursuche (NAS) und eine effiziente NeuparametrisierungYOLO , erweitert RTDETRv2 die Grenzen von Echtzeit-Transformatoren durch die Verfeinerung des DETR-Paradigmas.

Dieser Leitfaden enthält eine detaillierte technische Analyse ihrer Architekturen, Leistungskennzahlen und Trainingsmethoden, damit Sie entscheiden können, welches Modell Ihren spezifischen Anforderungen im Bereich Computer Vision entspricht. Außerdem untersuchen wir, wie die nächste Generation Ultralytics das Beste aus diesen Ansätzen in einem einheitlichen, benutzerfreundlichen Framework zusammenfasst.

DAMO-YOLO Übersicht

YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO) wurde von der Alibaba Group entwickelt, um den spezifischen Anforderungen industrieller Anwendungen gerecht zu werden, bei denen geringe Latenz und hohe Genauigkeit unverzichtbar sind. Es umfasst eine Reihe von Technologien, mit denen das Modell ohne Leistungseinbußen komprimiert werden kann.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 23. November 2022
Arxiv:DAMO-YOLO Paper
GitHub:tinyvision/DAMO-YOLO

Erfahren Sie mehr über YOLO26

Wesentliche architektonische Innovationen

YOLO sich durch mehrere auf Effizienz zugeschnittene „Geschenkpakete”YOLO :

  • Neural Architecture Search (NAS): Im Gegensatz zu Modellen mit manuell entworfenen BackbonesYOLO NAS, um automatisch die effizienteste Struktur für das Backbone (MAE-NAS) zu ermitteln und so den Kompromiss zwischen Fließkommaoperationen (FLOPs) und Genauigkeit zu optimieren.
  • Effizientes RepGFPN: Es nutzt ein verallgemeinertes Feature Pyramid Network (RepGFPN), das die Neuparametrisierung nutzt. Dadurch können komplexe Strukturen, die während des Trainings verwendet werden, während der Inferenz zu einfacheren, schnelleren Faltungen verschmolzen werden.
  • ZeroHead: Ein leichter Erkennungskopf, der die Rechenlast minimiert, die normalerweise mit den letzten Vorhersageschichten verbunden ist.
  • AlignedOTA: Eine optimierte Strategie zur Zuweisung von Labels, die Probleme mit der Fehlausrichtung zwischen Klassifizierungs- und Regressionsaufgaben während des Trainings löst.

RTDETRv2 Übersicht

RTDETRv2 (Real-Time Detection Transformer v2) baut auf dem Erfolg des ursprünglichen RT-DETR auf, dem ersten transformerbasierten Detektor, der in puncto Geschwindigkeit wirklich mit YOLO mithalten kann. Er wurde von Baidu entwickelt und zielt darauf ab, die Notwendigkeit einer Nachbearbeitung mit Non-Maximum Suppression (NMS) zu beseitigen und gleichzeitig die Konvergenzgeschwindigkeit und Flexibilität zu verbessern.

Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
Organisation: Baidu
Datum: 17. April 2023 (v1), Juli 2024 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR

Erfahren Sie mehr über RT-DETR

Wesentliche architektonische Innovationen

RTDETRv2 verfeinert die Transformer-Architektur für praktische Bildverarbeitungsaufgaben:

  • Hybrid-Encoder: Er kombiniert ein CNN-Backbone mit einem effizienten Hybrid-Encoder, der die intra-skalige Interaktion und die skalenübergreifende Fusion entkoppelt und so die hohen Rechenkosten von Standard-Selbstaufmerksamkeitsmechanismen adressiert.
  • IoU Abfrageauswahl: Dieser Mechanismus wählt hochwertige anfängliche Objektabfragen auf der Grundlage von Intersection over Union (IoU)-Werten aus, was zu einer schnelleren Konvergenz des Trainings führt.
  • Flexible Bereitstellung: Im Gegensatz zu seinem Vorgänger unterstützt RTDETRv2 flexible Eingabeformen und eine verbesserte Optimierung für TensorRT, wodurch es für verschiedene Hardware-Backends besser geeignet ist.
  • NMS: Durch die direkte Vorhersage einer Reihe von Objekten werden die durch NMS verursachten Latenzschwankungen beseitigt, was für die Echtzeit-Videoanalyse ein entscheidender Vorteil ist.

Leistungsvergleich

Beim Vergleich dieser Architekturen ist es entscheidend, das Gleichgewicht zwischen der mittleren durchschnittlichen Präzision (mAP) und der Inferenzgeschwindigkeit über verschiedene Hardwarekonfigurationen hinweg zu betrachten.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Analyse

  • Genauigkeit: RTDETRv2 erzielt im Allgemeinen höhere mAP , insbesondere bei den mittleren und großen Varianten. Das „X”-Modell erreicht beeindruckende 54,3 % mAP und übertrifft damit die größteYOLO . Damit eignet es sich für Anwendungen, die eine hochpräzise Erkennung erfordern, wie beispielsweise medizinische Bildgebung oder Fehlererkennung.
  • Geschwindigkeit:YOLO durch einen hohen Durchsatz auf TensorRT optimierter Hardware. Seine neu parametrisierte CNN-Architektur ist von Natur aus hardwarefreundlicher als die Transformer-Blöcke in RTDETRv2, was zu einer geringeren Latenz für die Varianten „Tiny” und „Small” führt.
  • Parametereffizienz:YOLO hatYOLO weniger Parameter für ähnliche Leistungsstufen, was für Edge-Geräte mit begrenzter Speicherkapazität von Vorteil sein kann.

Der Ultralytics-Vorteil: Warum YOLO26 wählen?

WährendYOLO RTDETRv2 spezielle Stärken bieten, stehen Entwickler oft vor Herausforderungen wie komplexen Trainingspipelines, eingeschränkter Plattformunterstützung und fragmentierter Dokumentation. Ultralytics behebt diese Probleme, indem es modernste Innovationen in ein nahtloses, benutzerorientiertes Ökosystem integriert.

Integrierte Exzellenz

YOLO26 vereint die Geschwindigkeit von CNNs mit der durchgängigen Einfachheit von Transformatoren und bietet ein NMS Design, das die Bereitstellung vereinfacht und gleichzeitig Vorgängermodelle sowohl in CPU in GPU übertrifft.

1. Überragende Benutzererfahrung und Ökosystem

Das Markenzeichen der Ultralytics ist BenutzerfreundlichkeitWährend Forschungsrepositorien oft komplexe Umgebungseinrichtungen erfordern, kann YOLO26 in Sekundenschnelle über das ultralytics Paket. Das Ultralytics Plattform verbessert dies noch weiter durch die Bereitstellung einer webbasierten Datenverwaltung, Ein-Klick-Schulungen und automatisierte Bereitstellung.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)

2. End-to-End-Architektur NMS

YOLO26 verwendet ein natives End-to-End-Design NMS, eine Funktion, die es mit RTDETRv2 gemeinsam hat, jedoch in einem hochoptimierten CNN-Framework implementiert ist. Dieser Durchbruch macht die Nicht-Maximalunterdrückung (Non-Maximum Suppression, NMS) überflüssig, einen häufigen Engpass in Bereitstellungspipelines. Durch den Wegfall NMS gewährleistet YOLO26 konsistente Inferenzzeiten und vereinfacht die Integration mit Tools wie OpenVINO und CoreML.

3. Trainingseffizienz und Stabilität

YOLO26 führt den MuSGD Optimizer ein, eine Mischung aus SGD Muon (inspiriert durch LLM-Training), der eine beispiellose Stabilität für Bildverarbeitungsaufgaben bietet. Dies ermöglicht eine schnellere Konvergenz und reduziert die Hyperparameter-Optimierung im Vergleich zu den komplexen Zeitplänen, die häufig von transformatorbasierten Modellen wie RTDETRv2 benötigt werden.

4. Edge-First-Optimierung

Für Entwickler, die auf Edge-Geräten wie dem Raspberry Pi oder NVIDIA bereitstellen, bietet YOLO26 CPU um bis zu 43 % schnellere CPU . Durch die Entfernung des Distribution Focal Loss (DFL) wird das Modelldiagramm für den Export weiter vereinfacht, wodurch im Vergleich zu den rechenintensiven Aufmerksamkeitsmechanismen in Transformatoren eine bessere Kompatibilität mit Low-Power-Beschleunigern gewährleistet wird.

5. Vielseitigkeit bei verschiedenen Aufgaben

Im Gegensatz zu vielen spezialisierten Detektoren ist YOLO26 ein echter Multitasking-Lerner. Es unterstützt Objekterkennung, Instanzsegmentierung, Posenschätzung, Klassifizierung und OBB -Aufgaben (Oriented Bounding Box) innerhalb einer einzigen Codebasis.

Anwendungsfall-Empfehlungen

  • Wählen SieYOLO : Sie ausschließlich an industriellen Inspektionsaufgaben arbeiten, bei denen TensorRT auf spezifischer NVIDIA das einzige Einsatzziel ist, und Sie für einfache Erkennungsaufgaben die absolut geringste Latenz benötigen.
  • Wählen Sie RTDETRv2, wenn: Sie eine hochgenaue Erkennung für komplexe Szenen mit Verdeckungen benötigen und über leistungsstarke GPUs verfügen, bei denen die Rechenkosten für Transformer akzeptabel sind. Es ist auch eine gute Wahl, wenn NMS Inferenz eine zwingende Voraussetzung ist, Sie aber eine Transformer-Architektur bevorzugen.
  • Entscheiden Sie sich für Ultralytics , wenn Sie folgende Anforderungen haben: Sie möchten die beste Allround-Leistung mit modernster Genauigkeit, NMS Geschwindigkeit und der Möglichkeit, das Produkt problemlos auf CPU, GPU und Mobilgeräten einzusetzen. Dank seiner umfassenden Dokumentation, der aktiven Community-Unterstützung und der Integration in die Ultralytics ist es die zukunftssicherste Wahl für Produktionssysteme.

Fazit

Die Landschaft der Objekterkennung bietet eine Vielzahl von Optionen. YOLO demonstriert die Leistungsfähigkeit der neuronalen Architektursuche im Hinblick auf Effizienz, während RTDETRv2 das Potenzial von Echtzeit-Transformatoren aufzeigt. Ultralytics zeichnet sich jedoch dadurch aus, dass es diese Fortschritte vereint und NMS Inferenz, für den Einsatz am Rand optimierte Geschwindigkeit und LLM-inspirierte Trainingsstabilität bietet – und das alles in einem für Entwickler äußerst benutzerfreundlichen Ökosystem.

Für diejenigen, die bereit sind, ihr nächstes Projekt zu starten, ist das Durchsehen der YOLO26-Dokumentation der empfohlene erste Schritt, um mit minimalem Aufwand SOTA-Ergebnisse zu erzielen.

Weiterführende Informationen


Kommentare