RTDETRv2 vs. YOLOv9: Vergleich zwischen Echtzeit-Erkennungstransformatoren und CNNs

Im Bereich der Computervision hat sich eine faszinierende Divergenz in den Architekturphilosophien gezeigt, vor allem zwischen Convolutional Neural Networks (CNNs) und Transformer-basierten Modellen. Beim Vergleich von RTDETRv2 und YOLOv9 bewerten Entwickler im Wesentlichen die Kompromisse zwischen globalen Aufmerksamkeitsmechanismen und programmierbaren Gradienteninformationen. Beide Modelle stellen die Spitze ihrer jeweiligen Paradigmen dar und erweitern die Grenzen der Echtzeit-Objekterkennung.

Einführung in die Modelle

RTDETRv2: Echtzeit-detect-Transformer

Entwickelt von Forschern bei Baidu, baut RTDETRv2 auf dem ursprünglichen RT-DETR auf, indem es ein „Bag-of-Freebies“ einführt, um den grundlegenden Real-Time Detection Transformer zu verbessern. Es adressiert den traditionellen Engpass von Transformatoren – die Inferenzgeschwindigkeit – und macht sie somit für Echtzeitanwendungen nutzbar.

Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
Organisation:Baidu
Datum: 2024-07-24
Links:Arxiv, GitHub

Ein prägendes Merkmal von RTDETRv2 ist sein nativ End-to-End NMS-freies Design. Durch die vollständige Entfernung der Non-Maximum Suppression (NMS) während der Nachbearbeitung stabilisiert das Modell die Inferenzlatenz und vereinfacht die Bereitstellungspipeline. Der globale Aufmerksamkeitsmechanismus ermöglicht es dem Modell, sich in komplexen Szenen und dichten Menschenmengen auszuzeichnen, da es den gesamten Bildkontext gleichzeitig bewertet.

Erfahren Sie mehr über RTDETRv2

YOLOv9: Programmierbare Gradienteninformation

YOLOv9, eine hocheffiziente CNN-basierte Architektur, löst das Problem des Informationsengpasses, das tiefen neuronalen Netzen innewohnt. Es führt programmierbare Gradienteninformationen (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) ein.

Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica
Datum: 21. Februar 2024
Links:Arxiv, GitHub

YOLOv9 auf den bewährten Grundlagen konvolutioneller neuronaler Netze, maximiert jedoch die Parametereffizienz. Durch die Beibehaltung wichtiger Informationen während des Feedforward-Prozesses gewährleistet es zuverlässige Gewichtsaktualisierungen, was zu einem unglaublich leichtgewichtigen und dennoch hochpräzisen Modell führt. Im Gegensatz zu RTDETRv2 basiert YOLOv9 jedoch YOLOv9 auf NMS .

Erfahren Sie mehr über YOLOv9

Leistung und Ressourceneffizienz

Bei der Bewertung dieser Modelle für die Produktion ist es entscheidend, die mittlere durchschnittliche Genauigkeit (mAP) gegen die Rechenkosten abzuwägen. Die folgende Tabelle veranschaulicht ihre Leistung anhand des MS COCO .

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Speicheranforderungen und Trainingseffizienz

Transformatoren wie RTDETRv2 sind während des Trainings bekanntermaßen sehr speicherintensiv und erfordern oft erheblichen CUDA und längere Trainingszeiten, um vollständig zu konvergieren. Umgekehrt bieten CNN-Architekturen wie YOLOv9 andere YOLO einen außergewöhnlich geringen Speicherverbrauch, sodass Entwickler mit größeren Batch-Größen auf handelsüblicher Hardware trainieren können.

Effizientes Training

Um die Hardwareauslastung zu maximieren, sollten Sie die Ultralytics für optimiertes Cloud-Training in Betracht ziehen. Diese übernimmt automatisch die Einrichtung der Umgebung und die optimale Batch-Größenbestimmung.

Ultralytics von Ultralytics : Ökosystem und Benutzerfreundlichkeit

Die Recherche in eigenständigen Repositorys wie den offiziellen YOLOv9 RTDETRv2 oder YOLOv9 kann zwar sehr lehrreich sein, aber Produktionsumgebungen erfordern Stabilität, Benutzerfreundlichkeit und ein gut gepflegtes Ökosystem. Die Integration dieser Modelle über die Ultralytics Python bietet eine nahtlose Entwicklererfahrung.

Einheitliche API und Vielseitigkeit

Das Ultralytics abstrahiert die Komplexität des Ladens von Daten, der Erweiterungen und des verteilten Trainings. Während sich das ursprüngliche RTDETRv2 ausschließlich auf die Erkennung konzentriert, ermöglicht das Ultralytics den Benutzern einen einfachen Wechsel zwischen Objekterkennung, Instanzsegmentierung und Posenschätzung.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Mit einer soliden Dokumentation, automatischer Experimentverfolgung und nahtlosen Exportfunktionen in Formate wie ONNX, TensorRTund OpenVINO reduziert Ultralytics die Zeit vom Prototyp bis zur Produktion Ultralytics .

Ideale Anwendungsfälle

Wo RTDETRv2 sich auszeichnet

Dank seines globalen Aufmerksamkeitsmechanismus ist RTDETRv2 ein Kraftpaket für die serverseitige Verarbeitung und Umgebungen, in denen der globale Kontext von größter Bedeutung ist. Es zeichnet sich aus durch:

Medizinische Bildgebung: Identifizierung subtiler Anomalien, bei denen der umgebende Kontext entscheidend ist.
Luftüberwachung: Erkennung kleiner Objekte in hochauflösendem Drohnenmaterial ohne die räumlichen Verzerrungen traditioneller CNN-Faltungen.
Analyse dichter Menschenmengen: Verfolgung von Personen, wo starke Verdeckung normalerweise ankerbasierte Modelle verwirrt.

Wo YOLOv9

YOLOv9 ein Champion für ressourcenbeschränkte Edge-Implementierungen. Dank seiner Recheneffizienz eignet es sich ideal für:

Robotik: Echtzeit-Navigation und Hindernisvermeidung, wo minimale Latenz erforderlich ist.
Smart City IoT: Einsatz auf Edge-Geräten wie dem NVIDIA Jetson zur Verkehrsüberwachung.
Industrielle Inspektion: Qualitätskontrolle an Hochgeschwindigkeits-Montagelinien, die hohe Bildraten (FPS) erfordert.

Die Zukunft: Ultralytics

Während YOLOv9 RTDETRv2 einen enormen Fortschritt darstellen, hat sich die Landschaft rasant weiterentwickelt. Für moderne Implementierungen ist das neu veröffentlichte Ultralytics die ultimative Synergie beider Architekturphilosophien.

Indem YOLO26 die besten Aspekte von Transformatoren und CNNs vereint, setzt es einen neuen Standard:

End-to-End NMS-freies Design: Wie RTDETRv2 ist YOLO26 nativ End-to-End, wodurch die NMS-Nachbearbeitung vollständig entfällt für schnellere, einfachere und hochgradig vorhersagbare Bereitstellungspipelines.
MuSGD-Optimierer: Inspiriert von Trainingsmethoden großer Sprachmodelle (LLM) (wie Kimi K2 von Moonshot AI), nutzt YOLO26 einen Hybrid aus SGD und Muon. Dies bringt eine beispiellose Trainingsstabilität und schnelle Konvergenz in die Computer Vision.
Bis zu 43 % schnellere CPU-Inferenz: Im Gegensatz zu schweren Transformatoren ist YOLO26 stark für Edge Computing und Geräte ohne GPUs optimiert.
DFL-Entfernung: Die Entfernung von Distribution Focal Loss vereinfacht den Modellgraphen drastisch, was einen fehlerfreien Export auf Low-Power-Edge-Geräte und eingebettete Neural Processing Units (NPUs) gewährleistet.
ProgLoss + STAL: Diese verbesserten Verlustfunktionen verbessern die Erkennung kleiner Objekte drastisch, ein entscheidendes Merkmal für IoT- und Luftbilddatensätze.

Teams, die ein neues Computer-Vision-Projekt starten möchten, empfehlen wir dringend, YOLO26 zu evaluieren. Es bietet die NMS Eleganz eines Transformers mit der rasanten Geschwindigkeit und Trainingseffizienz einer hochoptimierten YOLO .

Erfahren Sie mehr über YOLO26

Zusammenfassung

Die Wahl zwischen RTDETRv2 und YOLOv9 hängt maßgeblich von Ihrer Bereitstellungshardware und spezifischen Genauigkeitsanforderungen ab. RTDETRv2 bietet modernste Genauigkeit und Kontextsensitivität für serverseitige Anwendungen, während YOLOv9 eine außergewöhnliche Effizienz für Edge-Geräte bietet.

Durch die Nutzung des ausgereiften Ultralytics können Entwickler jedoch mühelos mit beiden experimentieren. Darüber hinaus können sie mit der Einführung neuerer Modelle wie YOLO11 und dem nativen End-to-End-Modell YOLO26 war es noch nie so einfach, die perfekte Balance zwischen schneller Inferenz, vielseitiger Aufgabenunterstützung und geringem Speicherverbrauch zu finden.