EfficientDet vs. RTDETRv2: Ein technischer Vergleich für die moderne Objekterkennung
Die Auswahl der optimalen Architektur für die Objekterkennung erfordert einen Kompromiss zwischen architektonischer Komplexität, Inferenzlatenz und Erkennungsgenauigkeit. Dieser technische Vergleich analysiert zwei unterschiedliche Ansätze: EfficientDet, eine zusammengesetzte skalierbare CNN-Architektur von Google, und RTDETRv2, ein Echtzeit-Transformator-basiertes Modell von Baidu.
Während EfficientDet 2019 Maßstäbe für Skalierbarkeit gesetzt hat, steht RTDETRv2 für den Wandel hin zu Transformer-Architekturen, die Non-Maximum Suppression (NMS) eliminieren. Für Entwickler, die 2026 nach Spitzenleistung streben, untersuchen wir auch, wie Ultralytics mit seinem nativen End-to-End-Design das Beste aus diesen Welten vereint.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
EfficientDet: Das Vermächtnis der Compound-Skalierung
Ende 2019 wurde EfficientDet veröffentlicht, eine systematische Methode zur Skalierung von Convolutional Neural Networks (CNNs). Es wurde entwickelt, um die Effizienz über ein breites Spektrum von Ressourcenbeschränkungen hinweg zu optimieren, von mobilen Geräten bis hin zu Rechenzentren.
- Autoren: Mingxing Tan, Ruoming Pang, und Quoc V. Le
- Organisation:Google
- Datum: 2019-11-20
- Arxiv:EfficientDet: Skalierbare und effiziente Objektdetektion
Architektur und Hauptmerkmale
EfficientDet nutzt ein EfficientNet-Backbone in Verbindung mit einem gewichteten bidirektionalen Feature-Pyramiden-Netzwerk (BiFPN). Das BiFPN ermöglicht eine einfache und schnelle Fusion von Merkmalen auf mehreren Ebenen, sodass das Modell die Bedeutung verschiedener Eingabemerkmale effektiv erlernen kann. Die zentrale Innovation war das Compound Scaling, das die Auflösung, Tiefe und Breite des Netzwerk-Backbones, des Merkmalsnetzwerks und der Box-/Klassenvorhersagenetzwerke einheitlich skaliert.
Trotz seines akademischen Erfolgs stützt sich EfficientDet auf Ankerboxen und aufwendige Nachbearbeitungsschritte wie Non-Maximum Suppression (NMS), die zu Latenzschwankungen führen und die Bereitstellung auf Edge-Hardware erschweren können.
RTDETRv2: Echtzeit-Transformatoren
RTDETRv2 (Real-Time Detection Transformer v2) baut auf dem Erfolg des ursprünglichen RT-DETR auf und zielt darauf ab, die hohen Rechenkosten von DETR-basierten Modellen zu lösen und gleichzeitig ihre überragende Genauigkeit und globale Kontextwahrnehmung beizubehalten.
- Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organisation:Baidu
- Datum: 17.04.2023 (Original), aktualisiert 2024
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
Architektur und Hauptmerkmale
RTDETRv2 verwendet einen Hybrid-Encoder, der Multi-Scale-Merkmale effizienter verarbeitet als herkömmliche Vision Transformers (ViTs). Sein charakteristisches Merkmal ist das NMS Design. Durch die direkte Vorhersage von Objekten als Set entfällt die Notwendigkeit einer heuristischen Nachbearbeitung, wodurch die Inferenzgeschwindigkeit theoretisch stabilisiert wird.
Allerdings sind transformatorbasierte Modelle bekanntermaßen sehr speicherintensiv. Das Training von RTDETRv2 erfordert in der Regel viel GPU , sodass für eine effiziente Konvergenz oft High-End-Hardware wie NVIDIA erforderlich ist, im Gegensatz zu CNN-basierten YOLO , die weniger anspruchsvoll an die Hardware sind.
Erfahren Sie mehr über RT-DETR
Ultralytics von Ultralytics : Geben Sie YOLO26 ein
Während EfficientDet und RTDETRv2 bedeutende Meilensteine darstellen, setzt Ultralytics (veröffentlicht im Januar 2026) einen neuen Standard, indem es die Stärken beider Architekturen in einem einheitlichen, leistungsstarken Framework vereint.
YOLO26 wurde für Entwickler entwickelt, die die Genauigkeit eines Transformers und die Geschwindigkeit eines leichtgewichtigen CNN benötigen.
- End-to-End-Design NMS: Wie RTDETRv2 ist auch YOLO26 von Haus aus End-to-End. Es macht NMS überflüssig und gewährleistet eine deterministische Latenz, die für sicherheitskritische Anwendungen wie autonome Fahrzeuge von entscheidender Bedeutung ist.
- MuSGD-Optimierer: Inspiriert von den Innovationen im Bereich des Trainings großer Sprachmodelle (LLM) von Moonshot AI nutzt YOLO26 den MuSGD-Optimierer. Diese Mischung aus SGD Muon sorgt für eine stabile Trainingsdynamik und eine schnellere Konvergenz, wodurch das „Ausprobieren” reduziert wird, das häufig bei der Abstimmung von Hyperparametern für Transformatoren erforderlich ist.
- DFL-Entfernung: Durch die Entfernung von Distribution Focal Loss vereinfacht YOLO26 den Modellgraphen. Diese Optimierung ist entscheidend für den Export von Modellen in Formate wie ONNX CoreML, wo komplexe Verlustschichten Kompatibilitätsprobleme auf Edge-Geräten verursachen können.
- Leistungsausgewogenheit: YOLO26 bietet im Vergleich zu früheren Generationen CPU um bis zu 43 % schnellere CPU und eignet sich damit weitaus besser für den Einsatz am Netzwerkrand als das rechenintensive EfficientDet-d7 oder das VRAM-intensive RTDETRv2.
Technischer Einblick
Trainingseffizienz und Speicher
Ein entscheidender Unterschied zwischen diesen Modellen ist ihr Ressourcenverbrauch während des Trainings.
- EfficientDet: Die Compound-Scaling-Methode ist zwar parameter-effizient, kann jedoch zu tiefen Netzwerken führen, deren Training langsam ist. Die komplexen BiFPN-Verbindungen erhöhen außerdem die Speicherzugriffskosten (MAC) und verlangsamen den Durchsatz.
- RTDETRv2: Transformatoren erfordern die Berechnung von Aufmerksamkeits-Karten, die quadratisch mit der Sequenzlänge skalieren. Dies führt zu einer hohen VRAM-Auslastung, was das Training mit großen Batch-Größen auf Standard-GPUs (z. B. RTX 3060/4070) erschwert.
- Ultralytics YOLO : Modelle wie YOLO11 und YOLO26 sind auf Speichereffizienz optimiert. Sie ermöglichen größere Batch-Größen auf Verbraucherhardware und demokratisieren so den Zugang zu leistungsstarker KI. Darüber hinaus optimiert die Ultralytics (ehemals HUB) diesen Prozess weiter und bietet verwaltetes Cloud-Training, das die Komplexität der Infrastruktur automatisch bewältigt.
Vielseitigkeit und Ökosystem
EfficientDet ist in erster Linie eine reine Erkennungsarchitektur. Im Gegensatz dazu unterstützt das Ultralytics eine Vielzahl von Aufgaben innerhalb einer einzigen Codebasis.
Multitasking-Fähigkeiten
Ultralytics sind nicht auf Begrenzungsrahmen beschränkt. Mit derselben API können Sie Modelle für Instanzsegmentierung, Posenabschätzungund orientierter Objekterkennung (OBB)bieten ein flexibles Toolkit für vielfältige Herausforderungen im Bereich Computer Vision.
YOLO26 umfasst speziell aufgabenbezogene Verbesserungen wie ProgLoss und STAL (Soft Target Assignment Loss), die zu deutlichen Verbesserungen bei der Erkennung kleiner Objekte führen – einer traditionellen Schwäche früherer CNNs und Transformer.
Anwendungsfälle in der Praxis
Wann man RTDETRv2 verwenden sollte
RTDETRv2 eignet sich besonders für Umgebungen, in denen reichlich Hardware-Ressourcen zur Verfügung stehen und der globale Kontext von entscheidender Bedeutung ist.
- Komplexes Szenenverständnis: In Szenen mit hoher Okklusion oder Unordnung kann der globale Aufmerksamkeitsmechanismus track zwischen weit entfernten Objekten besser track als lokale Faltungen.
- GPU : Bei einer Bereitstellung ausschließlich auf GPUs der Serverklasse (z. B. T4, A10) bietet RTDETRv2 eine wettbewerbsfähige Genauigkeit.
Wann man EfficientDet verwenden sollte
EfficientDet wird weitgehend als veraltete Architektur angesehen, bleibt jedoch in bestimmten Nischen relevant.
- Ältere Google : Für Teams, die stark in ältere TensorFlow integriert sind, könnte die Beibehaltung von EfficientDet weniger störend sein als die Migration von Frameworks.
- Forschungsgrundlagen: Es bleibt eine Standardgrundlage für den Vergleich der Effizienz von Feature-Fusion-Netzwerken.
Die beste Wahl: YOLO26
Für die überwiegende Mehrheit moderner Anwendungen ist YOLO26 aufgrund seiner Vielseitigkeit und einfachen Implementierung die empfohlene Wahl.
- Edge Computing: Dank DFL-Entfernung und CPU eignet sich YOLO26 ideal für IoT-Geräte und mobile Anwendungen, bei denen die Akkulaufzeit und thermische Einschränkungen eine Rolle spielen.
- Robotik: Das NMS Design stellt sicher, dass die Regelkreise des Roboters Wahrnehmungsdaten mit einer konstanten, vorhersehbaren Rate erhalten.
- Luftbildaufnahmen: Die ProgLoss-Funktion verbessert die Erkennung kleiner Objekte wie Fahrzeuge oder Vieh in Drohnenaufnahmen und übertrifft damit die Standard-EfficientDet-Baselines.
Fazit
Während EfficientDet den Weg für effiziente Skalierung ebnete und RTDETRv2 die Leistungsfähigkeit von Echtzeit-Transformatoren unter Beweis stellte, hat sich die Landschaft weiterentwickelt. YOLO26 verkörpert die nächste Generation der Computer Vision: nativ End-to-End, hochgradig optimiert für verschiedene Hardware und unterstützt durch das robuste Ultralytics .
Für Entwickler, die ihre ML-Pipelines optimieren möchten, bietet der Übergang zu Ultralytics nicht nur Leistungssteigerungen, sondern auch einen vereinfachten Workflow von der Annotation auf der Ultralytics bis zur Bereitstellung am Rand.
Weiterführende Informationen
- Weitere Informationen zur Implementierung finden Sie in der DokumentationUltralytics .
- Informieren Sie sich über Leistungskennzahlen wie mAP IoU.
- Lesen Sie den Leitfaden zum Exportieren von Modellen für die Bereitstellung in TensorRT OpenVINO.