YOLOv6.0 gegenüber RTDETRv2: Gleichgewicht zwischen industrieller Geschwindigkeit und Transformatorpräzision
Die Auswahl der optimalen Architektur für die Objekterkennung ist oft mit einem Kompromiss zwischen Latenzzeit und Erkennungsgenauigkeit verbunden. In diesem technischen Vergleich werden zwei unterschiedliche Ansätze zur Bewältigung dieser Herausforderung untersucht: YOLOv6.0, ein CNN-basiertes Modell, das von Meituan für industrielle Geschwindigkeit entwickelt wurde, und RTDETRv2, eine Vision-Transformer-Architektur (ViT) von Baidu, die Transformator-Genauigkeit für Echtzeitanwendungen bietet.
YOLOv6.0
Die Autoren: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, und Xiangxiang Chu
Organisation: Meituan
Datum: 2023-01-13
Arxiv: YOLOv6 v3.0: A Full-Scale Reloading
GitHub: YOLOv6
Docs: Ultralytics YOLOv6 Dokumentation
YOLOv6.0 stellt eine bedeutende Weiterentwicklung der einstufigen Detektorlinie dar, die speziell auf industrielle Anwendungen zugeschnitten ist, bei denen die Hardware-Effizienz im Vordergrund steht. Es führt ein "Full-Scale Reloading" der Architektur ein, das fortschrittliche Feature-Fusion und Trainingsstrategien zur Maximierung des Durchsatzes auf GPUs beinhaltet.
Architektur und Hauptmerkmale
Die Architektur YOLOv6.0 konzentriert sich auf ein hardwarefreundliches Design. Sie nutzt ein effizientes Reparameterization Backbone (RepBackbone), das es dem Modell ermöglicht, während des Trainings komplexe Merkmale zu extrahieren, während es für die Inferenz in eine schlanke Struktur zusammenfällt. Zu den wichtigsten architektonischen Innovationen gehören:
- Bi-direktionale Verkettung (BiC): Ein Modul im Hals, das die Genauigkeit der Merkmalsfusion ohne großen Rechenaufwand verbessert.
- Ankergestütztes Training (AAT): Eine Strategie, die die Vorteile von ankerbasierten und ankerlosen Paradigmen während der Trainingsphase kombiniert, um die Konvergenz zu stabilisieren.
- Selbst-Destillation: Der Rahmen verwendet eine Lehrer-Schüler-Trainingsschleife, in der das Modell aus seinen eigenen Vorhersagen lernt und so die Genauigkeit erhöht, ohne die Modellgröße zu erhöhen.
Stärken
- Industrielle Effizienz: Das Modell ist explizit optimiert für TensorRT Einsatz optimiert und bietet außergewöhnlich niedrige Latenzzeiten auf NVIDIA GPUs.
- Niedrige Latenzzeit am Rande: Mit speziellen "Lite"-Varianten lässt sich die Lösung gut auf mobilen CPU einsetzen, wodurch sie sich für industrielle Handscanner eignet.
- Quantisierungsunterstützung: Es bietet robuste Unterstützung für Quantization Aware Training (QAT) und verhindert so erhebliche Genauigkeitsverluste beim Übergang zu INT8-Präzision.
Schwächen
- Aufgabenbeschränkung: YOLOv6 ist in erster Linie für die Erkennung von Bounding Boxen konzipiert. Es fehlt die native Unterstützung für komplexe Aufgaben wie Posenschätzung oder Oriented Bounding Box (OBB)-Erkennung, die in vielseitigeren Frameworks zu finden sind.
- Komplexität der Ausbildung: Die Abhängigkeit von Selbstdistillation und speziellen Reparametrisierungsschritten kann die Trainingspipeline im Vergleich zu YOLO spröder und schwieriger anzupassen machen.
Ideale Anwendungsfälle
- Hochgeschwindigkeitsfertigung: Defekterkennung auf sich schnell bewegenden Förderbändern, bei denen eine Latenzzeit von Millisekunden entscheidend ist.
- Eingebettete Robotik: Navigationssysteme auf Plattformen wie dem NVIDIA Jetson, bei denen die Rechenressourcen streng budgetiert sind.
Erfahren Sie mehr über YOLOv6.0
RTDETRv2
Die Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organisation: Baidu
Datum: 2023-04-17 (Original), 2024-07-24 (v2)
Arxiv: RT-DETRv2: Verbesserte Baseline mit Bag-of-Freebies
GitHub: RT-DETR
Docs: Ultralytics RT-DETR Dokumentation
RTDETRv2 (Real-Time Detection Transformer v2) fordert die Dominanz von CNNs heraus, indem es beweist, dass Transformatoren Echtzeitgeschwindigkeiten erreichen können. Es baut auf dem DETR-Paradigma (Detection Transformer) auf, geht aber die langsame Konvergenz und die hohen Rechenkosten an, die typischerweise mit Aufmerksamkeitsmechanismen verbunden sind.
Architektur und Hauptmerkmale
RTDETRv2 verwendet einen hybriden Kodierer, der Multiskalenmerkmale effizient verarbeitet. Im Gegensatz zu herkömmlichen Transformatoren, die alle Bildbereiche gleichermaßen verarbeiten, konzentriert RTDETRv2 die Aufmerksamkeit auf relevante Bereiche zu Beginn der Pipeline.
- Effizienter Hybrid-Encoder: Entkoppelt die skaleninterne Interaktion und die skalenübergreifende Fusion, um den Rechenaufwand zu verringern.
- IoU Abfrageauswahl: Wählt qualitativ hochwertige anfängliche Objektabfragen aus der Encoder-Ausgabe aus, um die Initialisierung des Decoders zu verbessern und die Konvergenz zu beschleunigen.
- Ankerfreies Design: Es ist keine Nachbearbeitung mit Non-Maximum SuppressionNMS) erforderlich, was die Bereitstellungspipeline vereinfacht und die Latenzschwankungen in überfüllten Szenen reduziert.
Stärken
- Globale Kontextwahrnehmung: Der Mechanismus der Selbstaufmerksamkeit ermöglicht es dem Modell, das gesamte Bild auf einmal zu "sehen", was zu einer besseren Erkennung verdeckter Objekte im Vergleich zu CNNs führt, die sich auf lokale rezeptive Felder verlassen.
- Hohe Genauigkeitsobergrenze: Sie erreicht durchgängig eine höhere mAP Ergebnisse auf dem COCO für eine bestimmte Modellskala im Vergleich zu vielen CNN-Pendants.
- NMS: Durch das Fehlen von NMS wird die Inferenzzeit deterministischer, was ein wesentlicher Vorteil für Echtzeitsysteme ist.
Schwächen
- Speicherintensität: Transformatoren benötigen aufgrund der quadratischen Komplexität von Aufmerksamkeitsmatrizen deutlich mehr VRAM während des Trainings und der Inferenz (obwohl RTDETR dies optimiert).
- Datenhunger: Vision Transformers benötigen im Allgemeinen größere Datensätze und längere Trainingszeiten, um vollständig zu konvergieren, verglichen mit CNNs wie YOLOv6.
Ideale Anwendungsfälle
- Komplexe Verkehrsszenen: Erkennung von Fußgängern und Fahrzeugen in dichten, chaotischen Umgebungen, in denen es häufig zu Verdeckungen kommt.
- Autonomes Fahren: Anwendungen, die eine hochzuverlässige Wahrnehmung erfordern, bei denen die Kosten einer verpassten Erkennung die Kosten der geringfügig höheren Hardwareanforderungen überwiegen.
Erfahren Sie mehr über RTDETRv2
Leistungsvergleich
In der folgenden Tabelle wird die Leistung von YOLOv6.0 und RTDETRv2 gegenübergestellt. Während RTDETRv2 bei der Genauigkeit an die Grenzen stößt, behält YOLOv6.0 einen Vorsprung bei der reinen Schlussfolgerungsgeschwindigkeit, insbesondere auf der "Nano"-Skala.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analyse
- Geschwindigkeit vs. Genauigkeit: Die
YOLOv6-3.0nist unglaublich leichtgewichtig (1,17 ms Inferenz), was es zum unbestrittenen König für extrem eingeschränkte Hardware macht. Wenn jedoch Genauigkeit die Priorität ist,RTDETRv2-sbietet einen deutlich höheren mAP (48,1) alsYOLOv6-3.0s(45,0), allerdings bei fast doppelt so langer Inferenzzeit (5,03 ms gegenüber 2,66 ms). - Skalierungsverhalten: Mit zunehmender Modellgröße verringert sich der Abstand.
RTDETRv2-l(53,4 mAP) besser abschneidet alsYOLOv6-3.0l(52,8 mAP) bei weniger Parametern (42M vs. 59,6M), was die Parametereffizienz der Transformer-Architektur verdeutlicht, obwohl die FLOPs vergleichbar bleiben. - Hardware-Implikationen: Der Vorteil von YOLOv6 liegt in seiner reinen CNN-Struktur, die sich sehr direkt auf Hardware-Beschleuniger übertragen lässt. RTDETRv2 benötigt Hardware, die effizient mit Matrixmultiplikationen und Aufmerksamkeitsoperationen umgehen kann, um seine theoretische Geschwindigkeit zu erreichen.
Überlegungen zum Einsatz
Bei der Bereitstellung für Edge-Geräte ist zu bedenken, dass "Parameter" nicht immer perfekt mit Geschwindigkeit korrelieren. Während RTDETRv2 in manchen Konfigurationen weniger Parameter hat, können seine Speicherzugriffsmuster (Aufmerksamkeit) auf älterer Hardware langsamer sein als die hoch optimierten Faltungen von YOLOv6.
Trainingsmethoden
Die Ausbildungslandschaft für diese beiden Modelle unterscheidet sich erheblich, was sich auf die für die Entwicklung erforderlichen Ressourcen auswirkt.
YOLOv6.0 folgt den Standardverfahren für Deep Learning bei CNNs. Es profitiert von kürzeren Trainingsplänen (typischerweise 300-400 Epochen) und geringerem GPU . Techniken wie die Selbstdistillation werden intern gehandhabt, erhöhen aber die Komplexität der Verlustfunktionsberechnung um eine Ebene.
RTDETRv2, das auf Transformern basiert, erfordert im Allgemeinen mehr CUDA Speicher während des Trainings. Die quadratische Komplexität des Aufmerksamkeitsmechanismus in Bezug auf die Bildgröße bedeutet, dass die Stapelgrößen oft reduziert oder leistungsfähigere GPUs verwendet werden müssen. Außerdem profitieren Transformatoren oft von längeren Trainingszeiträumen, um räumliche Beziehungen ohne induktive Verzerrungen vollständig zu lernen.
Der Ultralytics
Sowohl YOLOv6 als auch RTDETR bieten überzeugende Funktionen für bestimmte Nischen, Ultralytics YOLO11 bietet eine einheitliche Lösung, die das Beste aus beiden Welten vereint. Es integriert die Effizienz von CNNs mit modernen architektonischen Verfeinerungen, die es mit der Genauigkeit von Transformern aufnehmen können, und das alles in einem Ökosystem, das auf die Produktivität der Entwickler ausgerichtet ist.
Warum Ultralytics wählen?
- Benutzerfreundlichkeit: Ultralytics bietet eine Pythonic-API, die die Komplexität von Training und Bereitstellung eliminiert. Sie können ein hochmodernes Modell in drei Codezeilen trainieren.
- Ausgewogene Leistung: YOLO11 wurde entwickelt, um einen optimalen Kompromiss zu bieten. Es bietet Echtzeit-Inferenzgeschwindigkeiten, die mit denen YOLOv6 vergleichbar sind, und erreicht dabei Genauigkeitsstufen, die RTDETR herausfordern, ohne den massiven Speicher-Overhead von Transformatoren.
- Vielseitigkeit: Im Gegensatz zu YOLOv6 (nur Erkennung) unterstützen Ultralytics von Haus aus Instance-Segmentierung, Pose Estimation, Klassifizierung und Oriented Bounding Box (OBB )-Erkennung.
- Gut gepflegtes Ökosystem: Dank regelmäßiger Aktualisierungen, umfangreicher Dokumentation und Unterstützung durch die Community sind Sie bei der Fehlersuche nie auf sich allein gestellt.
- Trainingseffizienz: Ultralytics sind für ihre effizienten Trainingspipelines bekannt, die eine schnelle Iteration auch auf bescheidener Hardware ermöglichen.
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with a single command
results = model("path/to/image.jpg")
Fazit
Sowohl YOLOv6.0 als auch RTDETRv2 sind beeindruckende Errungenschaften in der Computer Vision. YOLOv6.0 ist die pragmatische Wahl für rein industrielle Pipelines, bei denen die Hardware nicht veränderbar ist und die Geschwindigkeit die einzige relevante Größe ist. RTDETRv2 ist eine ausgezeichnete Wahl für Forschung und High-End-Anwendungen, bei denen die Genauigkeit in komplexen Szenen entscheidend ist und Hardware-Ressourcen im Überfluss vorhanden sind.
Für die überwiegende Mehrheit der Anwendungen in der Praxis ist dies jedoch nicht der Fall, Ultralytics YOLO11 weiterhin die beste Wahl. Es bietet einen "Sweet Spot" an Leistung, Vielseitigkeit und Benutzerfreundlichkeit, der den Weg vom Konzept zur Produktion beschleunigt. Ganz gleich, ob Sie ein Forscher sind, der schnelle Experimente benötigt, oder ein Ingenieur, der Tausende von Edge-Geräten einsetzen will, das Ultralytics bietet die Werkzeuge, die den Erfolg sicherstellen.
Andere Modelle entdecken
Wenn Sie an weiteren Vergleichen interessiert sind, sollten Sie sich diese Ressourcen in der Ultralytics ansehen: