YOLOv9 vs. RTDETRv2: Ein technischer Vergleich zur Objekterkennung

Die Auswahl der richtigen Architektur für die Objekterkennung ist eine zentrale Entscheidung bei der Entwicklung von Computer Vision, da die Entwickler oft die Kompromisse zwischen Präzision, Latenzzeit und Rechenaufwand abwägen müssen. Diese Analyse bietet einen umfassenden technischen Vergleich zwischen YOLOv9einer CNN-basierten Architektur, die auf Effizienz optimiert ist, und RTDETRv2, einem Transformator-basierten Modell, das für eine hochpräzise Erkennung entwickelt wurde.

YOLOv9: Neudefinition der CNN-Effizienz

YOLOv9 stellt eine bedeutende Weiterentwicklung der You Only Look OnceYOLO)-Serie dar und konzentriert sich auf die Lösung des Informationsengpasses, der bei tiefen neuronalen Netzen auftritt. Durch die Einführung neuer architektonischer Konzepte wird eine Leistung auf dem neuesten Stand der Technik erreicht, während der für die YOLO charakteristische geringe Platzbedarf beibehalten wird.

Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation:Institut für Informationswissenschaft, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
Dokumente:Ultralytics YOLOv9

Zentrale Architektur

YOLOv9 führt zwei wesentliche Neuerungen ein: Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN). PGI behebt den Verlust von Dateninformationen bei der Ausbreitung durch tiefe Schichten und stellt sicher, dass zuverlässige Gradienteninformationen für Modellaktualisierungen erhalten bleiben. GELAN optimiert die Parameternutzung, so dass das Modell im Vergleich zu herkömmlichen Faltungsarchitekturen eine höhere Genauigkeit mit weniger Gleitkommaoperationen (FLOPs) erreicht.

Ultralytics Ökosystem-Integration

YOLOv9 ist vollständig in das Ultralytics integriert und bietet Entwicklern nahtlosen Zugang zu Schulungs-, Validierungs- und Bereitstellungstools. Durch diese Integration wird sichergestellt, dass die Benutzer dieselbe einfache API nutzen können, die für YOLO11 und YOLOv8verwendete einfache API nutzen können, wodurch die Einstiegshürde für fortgeschrittene Computer-Vision-Aufgaben erheblich gesenkt wird.

Erfahren Sie mehr über YOLOv9

RTDETRv2: Der Transformer Challenger

RTDETRv2 baut auf dem Erfolg des Real-Time Detection TransformerRT-DETR) auf und verfeinert die Basislinie, um die Handhabung dynamischer Skalen und die Trainingsstabilität zu verbessern. Als transformatorbasiertes Modell nutzt es Mechanismen der Selbstaufmerksamkeit, um globalen Kontext zu erfassen, was bei der Unterscheidung von Objekten in komplexen Szenen von Vorteil sein kann.

Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
Organisation:Baidu
Datum: 2024-07-24
Arxiv:arXiv:2407.17140
GitHub:RT-DETR GitHub Repository

Zentrale Architektur

Im Gegensatz zu CNNs, die Bilder in lokalen Bereichen verarbeiten, nutzt RTDETRv2 ein Transformator-Backbone, um Bildmerkmale zu verarbeiten. Dieser Ansatz ermöglicht es dem Modell, Beziehungen zwischen entfernten Teilen eines Bildes zu verstehen, was die Genauigkeit in unübersichtlichen Umgebungen verbessern kann. Dieser globale Aufmerksamkeitsmechanismus ist jedoch in der Regel mit höheren Speicher- und Rechenkosten verbunden, insbesondere während des Trainings.

Erfahren Sie mehr über RT-DETR

Leistungsvergleich

Die folgenden Daten zeigen die Leistungsmetriken verschiedener Modellgrößen für den COCO . Der Vergleich konzentriert sich auf die durchschnittliche GenauigkeitmAPMean Average PrecisionmAP), die Inferenzgeschwindigkeit und die Rechenkomplexität.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Analyse der Metriken

Spitzengenauigkeit: Das YOLOv9e-Modell erreicht eine bemerkenswerte mAP von 55,6 % und übertrifft damit das größte RTDETRv2-x-Modell (54,3 % mAP). Dies zeigt, dass die architektonischen Innovationen in YOLOv9 die Lücke zwischen CNNs und Transformers effektiv schließen und sie sogar in der Spitzengenauigkeit übertreffen.
Effizienz: YOLOv9 liefert durchweg eine höhere Leistung pro Parameter. Zum Beispiel erreicht YOLOv9c 53,0% mAP mit nur 25,3M Parametern und 102,1B FLOPs, während der vergleichbare RTDETRv2-l 42M Parameter und 136B FLOPs benötigt, um 53,4% mAP zu erreichen. Dank dieser Effizienz ist YOLOv9 wesentlich leichter zu speichern und schneller auszuführen.
Inferenzgeschwindigkeit: Bei Echtzeitanwendungen ist die Geschwindigkeit entscheidend. Die kleineren YOLOv9 , wie z. B. YOLOv9t, bieten eine extrem niedrige Latenz (2,3 ms auf TensorRT), was sie ideal für Edge-KI-Einsätze macht, bei denen RTDETRv2-Modelle zu schwerfällig sein könnten.

Effizienz der Ausbildung und Ökosystem

Einer der wichtigsten Faktoren für Entwickler ist die Einfachheit des Trainings und die Ressourcen, die für die Feinabstimmung von Modellen auf benutzerdefinierten Datensätzen erforderlich sind.

Speicheranforderungen

Transformator-basierte Modelle wie RTDETRv2 sind berüchtigt für ihren hohen Speicherverbrauch während des Trainings aufgrund der quadratischen Komplexität der Selbstbeobachtungsmechanismen. Dies macht oft High-End-GPUs mit großem VRAM erforderlich. Im Gegensatz dazu, YOLOv9 die Speichereffizienz von CNNs aufrecht, so dass das Training auch auf Consumer-Hardware möglich ist. Durch diese niedrigere Einstiegshürde wird der Zugang zu modernster Objekterkennung demokratisiert.

Der Ultralytics

Die Wahl eines Modells innerhalb des Ultralytics bietet deutliche Vorteile, die über die reinen Leistungskennzahlen hinausgehen:

Benutzerfreundlichkeit: DiePython Ultralytics abstrahiert komplexe Schulungsschleifen auf wenige Codezeilen.
Gut gewartetes Ökosystem: Häufige Updates gewährleisten die Kompatibilität mit den neuesten PyTorch , ExportformatenONNX, TensorRT, CoreML) und Hardware-Treibern.
Vielseitigkeit: Während RTDETRv2 in erster Linie ein Objektdetektor ist, unterstützt das Ultralytics mit seinen Modellfamilien eine breite Palette von Aufgaben wie Instanzsegmentierung, Posenschätzung und orientierte Bounding-Box-Erkennung (OBB).

Code-Beispiel

Das Training YOLOv9 ist mit dem Ultralytics ganz einfach. Der folgende Codeschnipsel zeigt, wie man ein vortrainiertes Modell lädt und es auf einem benutzerdefinierten Datensatz trainiert:

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Exportfähigkeit

Ultralytics können für den Einsatz problemlos in verschiedene Formate exportiert werden. Zum Beispiel der Export in ONNX für eine breitere Kompatibilität:

model.export(format="onnx")

Ideale Anwendungsfälle

Wann sollte man YOLOv9 wählen YOLOv9

YOLOv9 ist die empfohlene Wahl für die meisten Bildverarbeitungsanwendungen, insbesondere wenn ein Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und Ressourceneffizienz erforderlich ist.

Edge-Einsatz: Geräte wie der NVIDIA Jetson oder der Raspberry Pi profitieren von den niedrigeren FLOPs und der geringeren Parameteranzahl von YOLOv9.
Videoanalyse in Echtzeit: Sicherheitsfeeds und Verkehrsüberwachungssysteme erfordern die hohen Bildraten, die YOLOv9 bietet.
Training mit eingeschränkten Ressourcen: Teams, die keinen Zugang zu riesigen GPU haben, können dennoch hochmoderne Modelle feinabstimmen.

Wann sollte RTDETRv2 in Betracht gezogen werden?

RTDETRv2 ist für Nischenszenarien geeignet, bei denen:

Globaler Kontext ist ausschlaggebend: Szenen mit starker Verdeckung oder wenn der Kontext von entfernten Pixeln für die Klassifizierung unbedingt erforderlich ist.
Die Hardware ist unbegrenzt: Einsätze auf Server-GPUs, bei denen Speicher- und Rechenbeschränkungen vernachlässigbar sind.
Ankerfreie Präferenz: Forscher, die speziell mit rein transformatorischen, ankerfreien Architekturen experimentieren möchten.

Fazit

Während RTDETRv2 das Potenzial von Transformatoren bei der Objekterkennung demonstriert, erweist sichYOLOv9 für die meisten Entwickler und Forscher als die bessere praktische Wahl. Es bietet eine höhere Spitzengenauigkeit (55,6 % mAP) bei deutlich besserer Effizienz, geringerem Speicherverbrauch und schnellerer Inferenzgeschwindigkeit. In Kombination mit dem soliden Support, der umfassenden Dokumentation und der Benutzerfreundlichkeit des Ultralytics bietet YOLOv9 einen schlankeren Weg vom Prototyp zur Produktion.

Für alle, die sich für das Neueste in der Computer-Vision-Technologie interessieren, empfehlen wir auch einen Blick auf YOLO11das die Grenzen von Geschwindigkeit und Genauigkeit noch weiter hinausschiebt.

Andere Modelle entdecken

YOLO11: Die neueste Entwicklung der YOLO , optimiert für verschiedene Aufgaben wie Segmentierung und Posenschätzung.
YOLOv8: Ein sehr beliebtes und vielseitiges Modell, das für seine Zuverlässigkeit und die breite Unterstützung der Community bekannt ist.
RT-DETR: Erkunden Sie die ursprüngliche Echtzeit-Detection-Transformer-Implementierung innerhalb des Ultralytics .

YOLOv9 vs. RTDETRv2: Ein technischer Vergleich zur Objekterkennung

YOLOv9: Neudefinition der CNN-Effizienz

Zentrale Architektur

RTDETRv2: Der Transformer Challenger

Zentrale Architektur

Leistungsvergleich

Analyse der Metriken

Effizienz der Ausbildung und Ökosystem

Speicheranforderungen

Der Ultralytics

Code-Beispiel

Ideale Anwendungsfälle

Wann sollte man YOLOv9 wählen YOLOv9

Wann sollte RTDETRv2 in Betracht gezogen werden?

Fazit

Andere Modelle entdecken

Kommentare