Zum Inhalt springen

RTDETRv2 vs. YOLOv9: Vergleich zwischen Echtzeit-Erkennungstransformatoren und CNNs

Im Bereich der Computervision hat sich eine faszinierende Divergenz in den Architekturphilosophien gezeigt, vor allem zwischen Convolutional Neural Networks (CNNs) und Transformer-basierten Modellen. Beim Vergleich von RTDETRv2 und YOLOv9 bewerten Entwickler im Wesentlichen die Kompromisse zwischen globalen Aufmerksamkeitsmechanismen und programmierbaren Gradienteninformationen. Beide Modelle stellen die Spitze ihrer jeweiligen Paradigmen dar und erweitern die Grenzen der Echtzeit-Objekterkennung.

Einführung in die Modelle

RTDETRv2: Echtzeit-detect-Transformer

RTDETRv2 wurde von Forschern bei Baidu entwickelt und baut auf dem ursprünglichen RT-DETR auf, RT-DETR es einen „Bag-of-Freebies” einführt, um den Basis-Echtzeit-Erkennungstransformator zu verbessern. Es behebt den traditionellen Engpass von Transformatoren – die Inferenzgeschwindigkeit – und macht sie damit für Echtzeitanwendungen einsetzbar.

  • Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
  • Organisation:Baidu
  • Datum: 2024-07-24
  • Links:Arxiv, GitHub

Ein charakteristisches Merkmal von RTDETRv2 ist sein natives End-to-End-Design NMS. Durch die vollständige Entfernung der Non-Maximum Suppression (NMS) während der Nachbearbeitung stabilisiert das Modell die Inferenzlatenz und vereinfacht die Bereitstellungspipeline. Der globale Aufmerksamkeitsmechanismus ermöglicht es dem Modell, sich bei der Erkennung komplexer Szenen und dichter Menschenmengen auszuzeichnen, da es den gesamten Bildkontext gleichzeitig auswertet.

Erfahren Sie mehr über RTDETRv2

YOLOv9: Programmierbare Gradienteninformation

YOLOv9, eine hocheffiziente CNN-basierte Architektur, löst das Problem des Informationsengpasses, das tiefen neuronalen Netzen innewohnt. Es führt programmierbare Gradienteninformationen (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) ein.

YOLOv9 auf den bewährten Grundlagen konvolutioneller neuronaler Netze, maximiert jedoch die Parametereffizienz. Durch die Beibehaltung wichtiger Informationen während des Feedforward-Prozesses gewährleistet es zuverlässige Gewichtsaktualisierungen, was zu einem unglaublich leichtgewichtigen und dennoch hochpräzisen Modell führt. Im Gegensatz zu RTDETRv2 basiert YOLOv9 jedoch YOLOv9 auf NMS .

Erfahren Sie mehr über YOLOv9

Leistung und Ressourceneffizienz

Bei der Bewertung dieser Modelle für die Produktion ist es entscheidend, die mittlere durchschnittliche Genauigkeit (mAP) gegen die Rechenkosten abzuwägen. Die folgende Tabelle veranschaulicht ihre Leistung anhand des MS COCO .

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Speicheranforderungen und Trainingseffizienz

Transformatoren wie RTDETRv2 sind während des Trainings bekanntermaßen sehr speicherintensiv und erfordern oft erheblichen CUDA und längere Trainingszeiten, um vollständig zu konvergieren. Umgekehrt bieten CNN-Architekturen wie YOLOv9 andere YOLO einen außergewöhnlich geringen Speicherverbrauch, sodass Entwickler mit größeren Batch-Größen auf handelsüblicher Hardware trainieren können.

Effizientes Training

Um die Hardwareauslastung zu maximieren, sollten Sie die Ultralytics für optimiertes Cloud-Training in Betracht ziehen. Diese übernimmt automatisch die Einrichtung der Umgebung und die optimale Batch-Größenbestimmung.

Ultralytics von Ultralytics : Ökosystem und Benutzerfreundlichkeit

Die Recherche in eigenständigen Repositorys wie den offiziellen YOLOv9 RTDETRv2 oder YOLOv9 kann zwar sehr lehrreich sein, aber Produktionsumgebungen erfordern Stabilität, Benutzerfreundlichkeit und ein gut gepflegtes Ökosystem. Die Integration dieser Modelle über die Ultralytics Python bietet eine nahtlose Entwicklererfahrung.

Einheitliche API und Vielseitigkeit

Das Ultralytics abstrahiert die Komplexität des Ladens von Daten, der Erweiterungen und des verteilten Trainings. Während sich das ursprüngliche RTDETRv2 ausschließlich auf die Erkennung konzentriert, ermöglicht das Ultralytics den Benutzern einen einfachen Wechsel zwischen Objekterkennung, Instanzsegmentierung und Posenschätzung.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Mit einer soliden Dokumentation, automatischer Experimentverfolgung und nahtlosen Exportfunktionen in Formate wie ONNX, TensorRTund OpenVINO reduziert Ultralytics die Zeit vom Prototyp bis zur Produktion Ultralytics .

Ideale Anwendungsfälle

Wo RTDETRv2 sich auszeichnet

Dank seines globalen Aufmerksamkeitsmechanismus ist RTDETRv2 ein Kraftpaket für die serverseitige Verarbeitung und Umgebungen, in denen der globale Kontext von größter Bedeutung ist. Es zeichnet sich aus durch:

  • Medizinische Bildgebung: Identifizierung subtiler Anomalien, bei denen der Kontext entscheidend ist.
  • Luftüberwachung: Erkennung kleiner Objekte in hochauflösenden Drohnenaufnahmen ohne die räumlichen Verzerrungen herkömmlicher CNN-Faltungen.
  • Analyse dichter Menschenmengen: Verfolgung von Personen, bei denen starke Verdeckungen normalerweise ankerbasierte Modelle verwirren.

Wo YOLOv9

YOLOv9 ein Champion für ressourcenbeschränkte Edge-Implementierungen. Dank seiner Recheneffizienz eignet es sich ideal für:

  • Robotik: Echtzeit-Navigation und Hindernisvermeidung, wo minimale Latenz erforderlich ist.
  • Smart City IoT: Einsatz auf Edge-Geräten wie NVIDIA zur Verkehrsüberwachung.
  • Industrieinspektion: Hochgeschwindigkeits-Qualitätskontrolle an Fertigungsstraßen, die eine hohe Bildfrequenz (FPS) erfordert.

Die Zukunft: Ultralytics

Während YOLOv9 RTDETRv2 einen enormen Fortschritt darstellen, hat sich die Landschaft rasant weiterentwickelt. Für moderne Implementierungen ist das neu veröffentlichte Ultralytics die ultimative Synergie beider Architekturphilosophien.

Durch die Kombination der besten Aspekte von Transformatoren und CNNs setzt YOLO26 einen neuen Standard:

  • End-to-End-Design NMS: Wie RTDETRv2 ist auch YOLO26 von Haus aus End-to-End-fähig, wodurch NMS vollständig entfällt und schnellere, einfachere und hochgradig vorhersehbare Bereitstellungspipelines ermöglicht werden.
  • MuSGD-Optimierer: Inspiriert von den Trainingstechniken großer Sprachmodelle (LLM) (wie Moonshot AI's Kimi K2) nutzt YOLO26 eine Mischung aus SGD Muon. Dies sorgt für eine beispiellose Trainingsstabilität und schnelle Konvergenz im Bereich Computer Vision.
  • Bis zu 43 % schnellere CPU : Im Gegensatz zu schwerfälligen Transformatoren ist YOLO26 stark für Edge-Computing und Geräte ohne GPUs optimiert.
  • DFL-Entfernung: Die Entfernung von Distribution Focal Loss vereinfacht das Modelldiagramm erheblich und gewährleistet einen fehlerfreien Export auf Edge-Geräte mit geringem Stromverbrauch und eingebettete Neural Processing Units (NPUs).
  • ProgLoss + STAL: Diese verbesserten Verlustfunktionen verbessern die Erkennung kleiner Objekte erheblich, was für IoT- und Luftbild-Datensätze von entscheidender Bedeutung ist.

Teams, die ein neues Computer-Vision-Projekt starten möchten, empfehlen wir dringend, YOLO26 zu evaluieren. Es bietet die NMS Eleganz eines Transformers mit der rasanten Geschwindigkeit und Trainingseffizienz einer hochoptimierten YOLO .

Erfahren Sie mehr über YOLO26

Zusammenfassung

Die Wahl zwischen RTDETRv2 und YOLOv9 hängt YOLOv9 von Ihrer Einsatzhardware und Ihren spezifischen Genauigkeitsanforderungen ab. RTDETRv2 bietet modernste Genauigkeit und Kontextbewusstsein für servergestützte Anwendungen, während YOLOv9 eine außergewöhnliche Effizienz für Edge-Geräte YOLOv9 .

Durch die Nutzung des ausgereiften Ultralytics können Entwickler jedoch mühelos mit beiden experimentieren. Darüber hinaus können sie mit der Einführung neuerer Modelle wie YOLO11 und dem nativen End-to-End-Modell YOLO26 war es noch nie so einfach, die perfekte Balance zwischen schneller Inferenz, vielseitiger Aufgabenunterstützung und geringem Speicherverbrauch zu finden.


Kommentare