YOLO11 RTDETRv2: Vergleich der Entwicklung von CNNs und Vision Transformers
Die Landschaft der Computervision hat sich rasant erweitert und bietet Entwicklern eine Vielzahl von Möglichkeiten für die Erstellung robuster, auf Bildverarbeitung basierender Anwendungen. Im Bereich der Echtzeit-Objekterkennung ist die Debatte zwischen Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs) aktueller denn je. Dieser technische Vergleich befasst sich mit zwei führenden Architekturen: YOLO11, das den Gipfel hochoptimierter CNN-Frameworks darstellt, und RTDETRv2, eine leistungsstarke Iteration der Detection Transformer-Familie.
Durch die Analyse ihrer Architekturen, Leistungskennzahlen und idealen Einsatzszenarien soll dieser Leitfaden Machine-Learning-Ingenieuren dabei helfen, fundierte Entscheidungen zu treffen. Beide Modelle erweitern zwar die Grenzen der Genauigkeit, Ultralytics YOLO Modelle in der Regel eine überlegene Balance zwischen Geschwindigkeit, Ökosystemunterstützung und Benutzerfreundlichkeit für den realen Produktionsbetrieb.
YOLO11: Der Maßstab für Vielseitigkeit in der Praxis
YOLO11 wurde von Ultralytics eingeführt und YOLO11 auf jahrelanger Grundlagenforschung, um ein Modell zu liefern, das schnell, genau und unglaublich vielseitig ist. Es wurde entwickelt, um Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und die Extraktion orientierter Begrenzungsrahmen (OBB) nahtlos und nativ zu verarbeiten.
- Autoren: Glenn Jocher und Jing Qiu
- Organisation:Ultralytics
- Datum: 2024-09-27
- GitHub:Ultralytics Repository
- Dokumentation:YOLO11 Dokumentation
Architektur und Stärken
YOLO11 ein optimiertes CNN-Backbone und fortschrittliche räumliche Merkmalspyramiden, wodurch es außergewöhnlich ressourceneffizient ist. Es eignet sich besonders für Umgebungen mit strengen Hardwarebeschränkungen und benötigt sowohl während des Trainings als auch während der Inferenz nur minimalen Speicherplatz. Die Ultralytics bietet native Unterstützung für YOLO11 und ermöglicht so eine optimierte Modellüberwachung, Datenannotation und Cloud-Training, ohne dass unterschiedliche MLops-Tools miteinander verbunden werden müssen.
Für Entwickler, die sich mit Edge-Computing befassen, YOLO11 eine extrem niedrige Latenz. Dank seiner Leichtigkeit läuft es effizient auf Geräten wie Raspberry Pis bis hin zu handelsüblichen Mobiltelefonen und ist damit ein Standard für den intelligenten Einzelhandel, die Qualitätskontrolle in der Fertigung und das automatisierte Verkehrsmanagement.
RTDETRv2: Echtzeit-Transformatoren von Baidu
RTDETRv2 (Real-Time Detection Transformer Version 2) steht für Baidus Bemühungen, Transformer-basierte Architekturen für Echtzeitaufgaben nutzbar zu machen. Es baut auf dem ursprünglichen RT-DETR auf RT-DETR integriert einen „Bag-of-Freebies”-Ansatz, um die Basisgenauigkeit zu verbessern, ohne die Inferenzlatenz zu erhöhen.
- Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
- Organisation:Baidu
- Datum: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETRv2 Repository
- Dokumente:RTDETRv2 README
Architektur und Stärken
Im Gegensatz zu herkömmlichen CNNs verwendet RTDETRv2 eine Encoder-Decoder-Architektur mit Selbstaufmerksamkeitsmechanismen, wodurch es den globalen Kontext eines Bildes erfassen kann. Dies ist besonders vorteilhaft in überfüllten Szenen, in denen es häufig zu Verdeckungen kommt. RTDETRv2 macht eine Nicht-Maximal-Unterdrückung (NMS) in der Nachbearbeitung überflüssig und stützt sich stattdessen während des Trainings auf ungarisches Matching für ein-zu-eins-zweiseitiges Matching.
Allerdings sind Transformer-Modelle bekanntermaßen sehr speicherintensiv und benötigen viel VRAM- und CUDA . Das Training von RTDETRv2 von Grund auf oder die Feinabstimmung anhand benutzerdefinierter Datensätze erfordert oft umfangreiche High-End GPU , was für kleinere agile Teams im Vergleich zum geringen Speicherbedarf der Ultralytics eine Hürde darstellen kann.
Leistungs- und Metrikanalyse
Bei der Bewertung dieser Modelle anhand des COCO beobachten wir deutliche Kompromisse zwischen Parametern, FLOPs und Rohgenauigkeit.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Auswertung der Ergebnisse
Wie aus der Tabelle hervorgeht, YOLO11 ein unglaubliches Verhältnis von Leistung zu Größe. YOLO11x erreicht einen höherenmAPval-Wert (54,7) als RTDETRv2-x (54,3), wobei es deutlich weniger Parameter (56,9 Mio. gegenüber 76 Mio.) und wesentlich weniger Rechen-FLOPs (194,9 Mrd. gegenüber 259 Mrd.) verwendet.
Darüber hinaus sind die Inferenzgeschwindigkeiten YOLO11 auf T4 TensorRT außergewöhnlich schnell. YOLO11s schließt die Inferenz in nur 2,5 ms ab, während das kleinste RTDETRv2-s 5,03 ms benötigt. Damit ist YOLO11 erste Wahl für schnelle Echtzeit-Videoanalyseströme, bei denen die Bildverarbeitungszeit den größten Engpass darstellt.
Die Kosten für Transformatoren
Während RTDETRv2 durch seine Attention-Layer eine hervorragende Genauigkeit erzielt, skalieren diese Mechanismen quadratisch mit der Bildauflösung, was sowohl während des Trainings als auch während der Inferenz zu einem höheren VRAM-Verbrauch führt. YOLO11 dies mit seinen hocheffizienten Convolutional Blocks.
Trainings-Ökosystem und Benutzerfreundlichkeit
Der wesentliche Vorteil der Einführung eines Ultralytics liegt im umgebenden Ökosystem. Das Training von RTDETRv2 umfasst häufig die Navigation in komplexen Repositorien auf Forschungsniveau, die Anpassung komplizierter bipartiter Matching-Verlustgewichte und die Verwaltung eines erheblichen Speicher-Overheads.
Umgekehrt Ultralytics stark auf die Entwicklererfahrung. Die einheitliche Python abstrahiert Boilerplate-Code und lässt sich nahtlos in Tools wie Weights & Biases für die Nachverfolgung von Experimenten und die automatische Verarbeitung von Datenerweiterungen.
So einfach ist es, ein Modell mit dem ultralytics Paket:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")
Nach dem Training kann ein YOLO11 in Formate wie ONNX, OpenVINOoder CoreML erfordert nur einen einzigen Befehl, sodass Ihre Vision-Pipeline mühelos über verschiedene Hardware-Backends hinweg skaliert werden kann.
Multitasking-Fähigkeiten
Beachten Sie, dass RTDETRv2 sich ausschließlich auf die Erkennung von Begrenzungsrahmen konzentriert, während die YOLO11 von Haus aus die Posenschätzung und Instanzsegmentierung unterstützt, sodass Sie mehrere Bildverarbeitungsaufgaben in einer einzigen Modellfamilie zusammenfassen können.
Anwendungsfälle und Empfehlungen
Die Wahl zwischen YOLO11 RT-DETR von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen RT-DETR .
Wann YOLO11 wählen?
YOLO11 eine gute Wahl für:
- Produktions-Edge-Bereitstellung: Kommerzielle Anwendungen auf Geräten wie Raspberry Pi oder NVIDIA , bei denen Zuverlässigkeit und aktive Wartung von größter Bedeutung sind.
- Multitasking-Bildverarbeitungsanwendungen: Projekte, die Erkennung, Segmentierung, Posenschätzung und OBB innerhalb eines einzigen einheitlichen Rahmens erfordern.
- Schnelle Prototypenerstellung und Bereitstellung: Teams, die mithilfe der optimierten Ultralytics Python schnell von der Datenerfassung zur Produktion übergehen müssen.
Wann sollte man sich für RT-DETR entscheiden?
RT-DETR empfohlen für:
- Transformer-basierte Erkennung Forschung: Projekte, die Aufmerksamkeitsmechanismen und Transformer-Architekturen für die End-to-End-Objekterkennung ohne NMS untersuchen.
- Szenarien mit hoher Genauigkeit und flexibler Latenz: Anwendungen, bei denen die Erkennungsgenauigkeit oberste Priorität hat und eine etwas höhere Inferenzlatenz akzeptabel ist.
- Erkennung großer Objekte: Szenen mit überwiegend mittelgroßen bis großen Objekten, in denen der globale Aufmerksamkeitsmechanismus von Transformatoren einen natürlichen Vorteil bietet.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Ausblick: Die Leistungsfähigkeit von YOLO26
Während YOLO11 eine ausgezeichnete Wahl für die Produktion YOLO11 , sollten Teams, die nach der absoluten Spitzenklasse suchen, YOLO26 in Betracht ziehen. YOLO26 wurde im Januar 2026 veröffentlicht und schließt die architektonische Lücke, indem es ein NMS (erstmals in YOLOv10 eingeführt) direkt in seinen Kern integriert und so die Latenz bei der Nachbearbeitung und die Komplexität der Bereitstellungslogik vollständig eliminiert.
YOLO26 führt außerdem mehrere revolutionäre Funktionen ein:
- MuSGD Optimizer: Inspiriert von den LLM-Trainingstechniken von Moonshot AI's Kimi K2 sorgt diese Mischung aus SGD Muon für ein unglaublich stabiles Training und eine deutlich schnellere Konvergenz.
- DFL-Entfernung: Distribution Focal Loss wurde entfernt, um einen saubereren, vereinfachten Exportprozess zu ermöglichen und die Kompatibilität mit Edge-Geräten mit geringem Stromverbrauch drastisch zu verbessern.
- ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was eine wichtige Voraussetzung für die Überwachung durch Drohnen, die Überwachung in der Landwirtschaft und IoT-Edge-Sensoren ist.
- Bis zu 43 % schnellere CPU : Für Bereitstellungen ohne dedizierte GPUs ist YOLO26 speziell für CPU optimiert und übertrifft damit frühere Generationen bei weitem.
Für diejenigen, die sich für eine größere Bandbreite an Architekturen interessieren, bietet die Ultralytics auch Einblicke in YOLOv8, das weit verbreitete YOLOv5und spezialisierte Modelle wie YOLO für Anwendungen zur Erkennung offener Vokabulare. Unabhängig davon, ob Sie der bewährten Stabilität von YOLO11 den bahnbrechenden Innovationen von YOLO26 den Vorzug geben, bietet das Ultralytics unvergleichliche Tools, mit denen Sie Ihre Computer-Vision-Lösungen zum Leben erwecken können.