RTDETRv2 vs. YOLOv6.0: Bewertung von Echtzeit-Transformatoren im Vergleich zu industriellen CNNs

Die Landschaft der Computervision entwickelt sich ständig weiter und bietet Entwicklern eine Vielzahl von Architekturmöglichkeiten für die Objekterkennung. Zwei herausragende Modelle, die unterschiedliche Ansätze repräsentieren, sind RTDETRv2, ein hochmoderner Vision-Transformer, und YOLOv6.YOLOv6, ein hochoptimiertes Convolutional Neural Network (CNN), das speziell für industrielle Anwendungen entwickelt wurde.

Dieser umfassende technische Vergleich untersucht die jeweiligen Architekturen, Leistungskennzahlen und idealen Einsatzszenarien. Wir werden auch untersuchen, wie das breitere Ultralytics eine überlegene Entwicklererfahrung bietet, und schließlich einen Blick auf die Funktionen der nächsten Generation von Ultralytics werfen.

RTDETRv2: Der Vision-Transformer-Ansatz

Entwickelt von Forschern bei Baidu, baut RTDETRv2 auf dem Fundament des ursprünglichen RT-DETR auf, was einen bedeutenden Fortschritt in der transformatorbasierten Objekterkennung darstellt.

Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
Organisation: Baidu
Datum: 24.07.2024
Arxiv: 2407.17140
GitHub: RT-DETR
Dokumentation: RTDETRv2 GitHub README

Architektonische Highlights

RTDETRv2 nutzt eine hybride Architektur, die einen CNN-Feature-Extractor mit einem leistungsstarken Transformer-Decoder kombiniert. Das auffälligste Merkmal dieses Modells ist sein nativ NMS Design. Durch den Verzicht auf Non-Maximum Suppression (NMS) während der Nachbearbeitung prognostiziert das Modell direkt Begrenzungsrahmen, was die Bereitstellung vereinfacht und die Inferenzlatenz stabilisiert.

Die in RTDETRv2 integrierte „Bag-of-Freebies”-Funktion verbessert die Fähigkeit des Modells, komplexe Szenen und überlappende Objekte zu verarbeiten, da globale Aufmerksamkeitsmechanismen räumliche Beziehungen von Natur aus besser verstehen als lokalisierte Faltungen.

Transformer-Speichernutzung

Transformatoren zeichnen sich zwar durch ein hervorragendes Verständnis komplexer Szenen aus, benötigen jedoch im Vergleich zu CNNs während des Trainings in der Regel deutlich mehr CUDA . Dies kann die Batch-Größen auf Standard-Consumer-GPUs einschränken und die Gesamt-Trainingszeit verlängern.

Erfahren Sie mehr über RTDETR

YOLOv6.0: Maximierung des industriellen Durchsatzes

YOLOv6. YOLOv6 stammt aus der Vision-AI-Abteilung von Meituan und wurde speziell als Detektor der nächsten Generation für industrielle Pipelines entwickelt, bei denen GPU von entscheidender Bedeutung ist.

Autoren: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu und Xiangxiang Chu
Organisation: Meituan
Datum: 13.01.2023
Arxiv: 2301.05586
GitHub: YOLOv6

Architektonischer Schwerpunkt

YOLOv6.YOLOv6 basiert auf einem EfficientRep-Backbone, das sorgfältig entwickelt wurde, um die Speicherzugriffskosten auf Hardwarebeschleunigern wie NVIDIA zu minimieren. Die Neck-Architektur verfügt über ein Bi-directional Concatenation (BiC)-Modul, um die Merkmalsfusion über verschiedene Skalen hinweg zu verbessern.

Während des Trainings verwendet es eine Anchor-Aided Training (AAT)-Strategie, um von ankerbasierten Paradigmen zu profitieren, während ein ankerfreier Inferenzmodus für eine schnellere Ausführung beibehalten wird. Obwohl es auf Server-GPUs (z. B. T4, A100) einen außergewöhnlichen Durchsatz erzielt, kann seine spezialisierte Architektur bei der Bereitstellung auf reinen CPU-Edge-Geräten zu suboptimaler Latenz führen.

Erfahren Sie mehr über YOLOv6

Leistungsvergleich

Bei der Bewertung von Modellen für die Produktion ist es entscheidend, die Genauigkeit (mAP) mit der Inferenzgeschwindigkeit und den Rechenkosten (FLOPs) in Einklang zu bringen. Die folgende Tabelle zeigt, wie diese Modelle im Vergleich zueinander abschneiden.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Während YOLOv6. YOLOv6 bei der reinen Verarbeitungsgeschwindigkeit auf TensorRT dominiert, erzielt RTDETRv2 höhere mAP und skaliert insbesondere bei größeren Modellvarianten besser. Allerdings fehlt beiden Modellen die umfassende Vielseitigkeit moderner einheitlicher Frameworks. YOLOv6. YOLOv6 ist in erster Linie auf die Erkennung spezialisiert und bietet keine native Unterstützung für Aufgaben wie Instanzsegmentierung und Posenschätzung.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen RT-DETR und YOLOv6 hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann sollte man sich für RT-DETR entscheiden?

RT-DETR eine gute Wahl für:

Transformer-basierte Detektionsforschung: Projekte, die Aufmerksamkeitsmechanismen und Transformer-Architekturen für die End-to-End-Objektdetektion ohne NMS erforschen.
Szenarien mit hoher Genauigkeit und flexibler Latenz: Anwendungen, bei denen die detect-Genauigkeit oberste Priorität hat und eine etwas höhere Inferenzlatenz akzeptabel ist.
Erkennung großer Objekte: Szenen mit hauptsächlich mittelgroßen bis großen Objekten, bei denen der globale Aufmerksamkeitsmechanismus von Transformatoren einen natürlichen Vorteil bietet.

Wann man YOLOv6 wählen sollte

YOLOv6 empfohlen für:

Industrielle hardwarebewusste Bereitstellung: Szenarien, in denen das hardwarebewusste Design des Modells und die effiziente Reparametrisierung eine optimierte Leistung auf spezifischer Zielhardware bieten.
Schnelle einstufige Detektion: Anwendungen, die eine hohe Inferenzgeschwindigkeit auf der GPU für die Echtzeit-Videoverarbeitung in kontrollierten Umgebungen priorisieren.
Integration in das Meituan-Ökosystem: Teams, die bereits innerhalb des Technologie-Stacks und der Bereitstellungsinfrastruktur von Meituan arbeiten.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Der Ultralytics Vorteil

Die Wahl des richtigen Modells umfasst mehr als nur reine Benchmark-Zahlen; Entwicklererfahrung, Bereitstellungsflexibilität und Ökosystem-Support sind gleichermaßen entscheidend. Durch die Nutzung von Modellen, die in die Ultralytics-Plattform integriert sind, erhalten Benutzer erhebliche Vorteile gegenüber statischen Forschungs-Repositories.

Benutzerfreundlichkeit: Die ultralytics Python bietet eine nahtlose API. Das Trainieren, Validieren und Exportieren von Modellen erfordert nur wenige Zeilen Code.
Gut gepflegtes Ökosystem: Im Gegensatz zu isolierten akademischen Repositories wird die Ultralytics Platform aktiv aktualisiert. Sie bietet robuste Integrationen für Tools wie ONNX, OpenVINO und CoreML.
Trainingseffizienz: Ultralytics-Modelle verbrauchen im Training typischerweise deutlich weniger VRAM im Vergleich zu Transformer-Architekturen wie RTDETRv2, was größere Batch-Größen auf Consumer-Hardware ermöglicht.
Vielseitigkeit: Im Gegensatz zum fokussierten Umfang von YOLOv6-3.0 sind Ultralytics-Modelle multimodal und unterstützen nativ die Bildklassifizierung, orientierten Bounding Boxes (OBB) und Segmentierung innerhalb eines einzigen, vereinheitlichten Frameworks.

Optimierte Bereitstellung

Mit der Ultralytics CLI ist das Exportieren eines trainierten Modells für die Edge-Bereitstellung so einfach wie das Ausführen von: yolo export model=yolo11n.pt format=tensorrt.

YOLO26: Die ultimative Lösung

RTDETRv2 und YOLOv6. YOLOv6 bieten zwar spezifische Vorteile, doch die Entwicklung in diesem Bereich schreitet rasant voran. Teams, die neue Computer-Vision-Projekte starten, empfehlen wir daher dringend YOLO26, das Ultralytics Januar 2026 von Ultralytics veröffentlicht wurde.

YOLO26 vereint die Stärken industrieller CNNs und moderner Transformer und beseitigt gleichzeitig deren jeweilige Schwächen:

End-to-End NMS-freies Design: Das in YOLOv10 erstmals eingeführte bahnbrechende Konzept aufgreifend, eliminiert YOLO26 die NMS-Nachbearbeitung nativ, was eine stabile, vorhersagbare Bereitstellung ähnlich RTDETRv2, aber mit deutlich geringerem Overhead gewährleistet.
MuSGD-Optimierer: Inspiriert von fortschrittlichen LLM-Trainingsmethoden (wie Kimi K2 von Moonshot AI), gewährleistet dieser hybride Optimierer ein stabiles Training und eine schnellere Konvergenz und überwindet die bekannte Instabilität traditioneller Vision Transformer.
Für Edge optimiert: Mit bis zu 43% schnellerer CPU-Inferenz als frühere Generationen und der strategischen Entfernung von Distribution Focal Loss (DFL) ist YOLO26 perfekt für mobile und IoT-Geräte geeignet, bei denen keine GPU-Beschleunigung verfügbar ist.
ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, einer historischen Herausforderung für CNNs, was YOLO26 ideal für Luftbildaufnahmen und Robotik macht.

Trainingsbeispiel

Mit der intuitiven Ultralytics können Sie nahtlos modernste Modelle trainieren. Nachfolgend finden Sie ein ausführbares Beispiel, das zeigt, wie das YOLO26 Nano-Modell auf dem COCO8 trainiert wird:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Zusammenfassung

Beim Vergleich von RTDETRv2 und YOLOv6. YOLOv6 hängt die Entscheidung weitgehend von Ihrer spezifischen Hardware und Ihren Latenzbedingungen ab. RTDETRv2 eignet sich besonders für Forschungsumgebungen und serverseitige Verarbeitung, wo die Handhabung komplexer überlappender Objekte entscheidend ist. YOLOv6. YOLOv6 bleibt eine gute Wahl für Fertigungslinien mit hohem Durchsatz, die mit leistungsstarken NVIDIA ausgestattet sind.

Für Entwickler, die das Beste aus beiden Welten suchen – die Eleganz von Transformatoren NMS kombiniert mit der atemberaubenden Geschwindigkeit und dem geringen Speicherbedarf von CNNs – istYOLO26 jedoch unübertroffen. Unterstützt durch die umfassende Dokumentation und die aktive Community des Ultralytics sorgt YOLO26 dafür, dass Ihre Vision-AI-Projekte robust, skalierbar und zukunftssicher sind.