YOLO . EfficientDet: Ein tiefer Einblick in Architekturen zur Objekterkennung
Die Auswahl der optimalen Computer-Vision-Architektur ist eine entscheidende Entscheidung, die sich auf alles auswirkt, von der Inferenzlatenz bis zu den Hardwarekosten. In diesem technischen Vergleich analysieren wir zwei einflussreiche Modelle: YOLO von Alibaba und EfficientDet Google. Während EfficientDet das Konzept der skalierbaren Effizienz eingeführt hat,YOLO die Grenzen der Echtzeitleistung mit neuartigen Destillationstechniken.
Dieser Leitfaden enthält eine gründliche Analyse ihrer Architekturen, Leistungskennzahlen und Eignung für moderne Bereitstellungen und untersucht gleichzeitig, wie Lösungen der nächsten Generation wie Ultralytics neue Standards für Benutzerfreundlichkeit und Edge-Effizienz setzen.
DAMO-YOLO Übersicht
YOLO ein von der Alibaba Group entwickeltes Hochleistungs-Framework zur Objekterkennung. Es priorisiert den Kompromiss zwischen Geschwindigkeit und Genauigkeit und nutzt Technologien wie Neural Architecture Search (NAS) und umfangreiche Neuparametrisierung. Es wurde in erster Linie für industrielle Anwendungen entwickelt und zielt darauf ab, die Latenz zu reduzieren, ohne die Erkennungsqualität zu beeinträchtigen.
Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation:Alibaba Group
Datum: 23. November 2022
Arxiv:YOLO
GitHub:YOLO
Dokumentation:YOLO
Wesentliche Architekturmerkmale
- MAE-NAS-Backbone: Verwendet eine auf einem maskierten Autoencoder (MAE) basierende neuronale Architektursuche, um effiziente Backbone-Strukturen zu finden.
- Effizientes RepGFPN: Ein Heavy-Neck-Design, das eine Neuparametrisierung nutzt (ähnlich wie YOLOv6), um Merkmale effektiv zu fusionieren und gleichzeitig die Inferenz schnell zu halten.
- ZeroHead: Ein leichter Erkennungskopf, der den Rechenaufwand während der letzten Vorhersagestufe minimiert.
- AlignedOTA: Eine verbesserte Strategie zur Zuweisung von Labels, die Probleme mit der Fehlausrichtung zwischen Klassifizierungs- und Regressionsaufgaben während des Trainings löst.
EfficientDet Übersicht
EfficientDet, entwickelt vom Google Team, führte einen systematischen Ansatz zur Modellskalierung ein. Durch die gemeinsame Skalierung von Backbone, Auflösung und Tiefe erreicht EfficientDet eine bemerkenswerte Effizienz. Es basiert auf dem EfficientNet-Backbone und führt das BiFPN (Bidirectional Feature Pyramid Network) für die komplexe Merkmalsfusion ein.
Autoren: Mingxing Tan, Ruoming Pang und Quoc V. Le
Organisation:Google
Datum: 20. November 2019
Arxiv:EfficientDet Paper
GitHub:google
Dokumente:EfficientDet README
Wesentliche Architekturmerkmale
- Verbundskalierung: Eine Methode zur einheitlichen Skalierung von Netzwerkbreite, -tiefe und -auflösung mit einem einfachen Verbundkoeffizienten (phi).
- BiFPN: Ein gewichtetes bidirektionales Feature-Pyramiden-Netzwerk, das eine einfache und schnelle Fusion von Merkmalen auf mehreren Ebenen ermöglicht.
- EfficientNet Backbone: Nutzt die leistungsstarke EfficientNet -Architektur für die Merkmalsextraktion.
Leistungsvergleich
Die folgende Tabelle vergleicht die Leistung der VariantenYOLO EfficientDet.YOLO bietetYOLO ein überlegenes Verhältnis von Geschwindigkeit zu Genauigkeit, insbesondere auf GPU , wo seine neu parametrisierten Blöcke glänzen. EfficientDet ist zwar genau, leidet jedoch aufgrund komplexer BiFPN-Verbindungen und langsamerer Aktivierungsfunktionen oft unter einer höheren Latenz.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Analyse der Ergebnisse
- Latenz:YOLO übertrifft EfficientDet in Bezug auf TensorRT YOLO . Beispielsweise erreicht DAMO-YOLOl 50,8 mAP ~7 ms, während EfficientDet-d4 für eine ähnliche Genauigkeit ~33 ms benötigt.
- Architektureffizienz: Die geringe Parameteranzahl von EfficientDet (z. B. hat d0 nur 3,9 Millionen Parameter) macht es speicherfreundlich, aber seine komplexe Graphstruktur (BiFPN) führt oft zu langsameren tatsächlichen Inferenzgeschwindigkeiten im Vergleich zu den optimierten Strukturen von YOLO Modellen.
- Ressourcennutzung:YOLO während des Trainings „Distillation Enhancement“, wodurch kleinere Schülermodelle von größeren Lehrern lernen können, was die Leistung steigert, ohne die Inferenzkosten zu erhöhen.
Erläuterung der Neuparametrisierung
YOLO ähnliche Reparametrisierungstechniken wie RepVGG. Während des Trainings nutzt das Modell komplexe Mehrfachverzweigungsblöcke, um reichhaltige Merkmale zu erlernen. Vor der Inferenz werden diese Verzweigungen mathematisch zu einer einzigen Faltung zusammengefasst, wodurch die Geschwindigkeit drastisch erhöht wird, ohne dass dabei an Genauigkeit eingebüßt wird.
Anwendungsfälle und Anwendungen
Wenn man versteht, wo die Stärken der einzelnen Modelle liegen, kann man das richtige Werkzeug für die jeweilige Aufgabe auswählen.
Wann sollteYOLO verwendet werden?
- Industrieinspektion: Ideal für Fertigungslinien, bei denen eine Latenzzeit im Millisekundenbereich entscheidend für die Erkennung von Fehlern auf schnell laufenden Förderbändern ist.
- Smart City Surveillance: Dank seines hohen Durchsatzes können mehrere Videostreams auf einer einzigen GPU verarbeitet werden.
- Robotik: Geeignet für autonome Navigation, bei der schnelle Reaktionszeiten erforderlich sind, um Hindernissen auszuweichen.
Wann man EfficientDet verwenden sollte
- Akademische Forschung: Dank seiner systematischen Skalierungsregeln eignet es sich hervorragend als Grundlage für die Untersuchung von Theorien zur Modelleffizienz.
- Umgebungen mit begrenzter Speicherkapazität: Die extrem geringe Parameteranzahl der d0/d1-Varianten ist von Vorteil, wenn der Speicherplatz der primäre Engpass ist, obwohl die RAM-Auslastung und CPU immer noch höher sein können als bei vergleichbaren YOLO .
- Mobile Anwendungen (Legacy): Frühe mobile Implementierungen nutzten TFLite Versionen von EfficientDet, während moderne Architekturen wie YOLO11 haben diese jedoch weitgehend abgelöst.
Ultralytics von Ultralytics : Geben Sie YOLO26 ein
YOLO EfficientDet waren zwar wichtige Meilensteine, doch das Gebiet hat sich weiterentwickelt. Ultralytics repräsentiert den aktuellen Stand der Technik und behebt die Einschränkungen früherer Architekturen durch ein End-to-End-Design und überlegene Optimierung.
Warum Entwickler Ultralytics bevorzugen
Benutzerfreundlichkeit und Ökosystem: Ultralytics eine nahtlose „Zero-to-Hero”-Erfahrung. Im Gegensatz zu den komplexen Konfigurationsdateien, die oft von Forschungsrepositorien verlangt werden, Ultralytics Sie Ultralytics mit nur wenigen Zeilen Python mit dem Training beginnen. Das Ökosystem umfasst die Ultralytics für eine einfache Datenverwaltung und Cloud-Training.
from ultralytics import YOLO # Load the latest YOLO26 model model = YOLO("yolo26n.pt") # Train on a custom dataset results = model.train(data="coco8.yaml", epochs=100)Leistungsausgewogenheit: YOLO26 wurde entwickelt, um die Pareto-Grenze zu dominieren. Es bietet CPU um bis zu 43 % schnellere CPU im Vergleich zu früheren Generationen und ist damit ein Kraftpaket für Edge-KI-Anwendungen, bei denen keine GPUs verfügbar sind.
End-to-End NMS: Einer der größten Schwachpunkte beim Einsatz von Objektdetektoren ist die Nicht-Maximalunterdrückung (NMS).YOLO EfficientDet basieren auf NMS, was die Nachbearbeitung erschwert und zu Latenzschwankungen führt. YOLO26 ist von Haus aus End-to-End und verzichtet NMS auf NMS , um eine deterministische und schnellere Inferenz zu ermöglichen.
Trainingseffizienz & MuSGD: YOLO26 integriert den MuSGD-Optimierer, eine Mischung aus SGD Muon. Diese Innovation, die vom LLM-Training inspiriert ist, sorgt für eine stabile Konvergenz und reduziert den Bedarf an umfangreicher Hyperparameter-Optimierung. In Kombination mit geringeren Speicheranforderungen während des Trainings ermöglicht es Benutzern, größere Batch-Größen auf handelsüblicher Hardware zu trainieren als bei speicherintensiven Transformer-Hybriden wie RT-DETR.
Vielseitigkeit: Während EfficientDet undYOLO in erster Linie auf BegrenzungsrahmenYOLO , unterstützen Ultralytics nativ eine Vielzahl von Aufgaben, darunter Instanzsegmentierung, Posenschätzung, OBB und Klassifizierung – alles innerhalb einer einzigen einheitlichen API.
Vergleichszusammenfassung
| Merkmal | EfficientDet | DAMO-YOLO | Ultralytics YOLO26 |
|---|---|---|---|
| Architektur | Ankerbasiert, BiFPN | Ankerfrei, RepGFPN | End-to-End, NMS |
| Inferenzgeschwindigkeit | Langsam (komplexes Diagramm) | Schnell (GPU ) | SOTA (CPU GPU) |
| Bereitstellung | Komplex (NMS ) | Mäßig (NMS ) | Einfach (NMS) |
| Gedächtnistraining | Hoch | Moderat | Niedrig (optimiert) |
| Aufgabenunterstützung | Erkennung | Erkennung | Erkennen, Seg, Pose, OBB |
Fazit
SowohlYOLO EfficientDet haben einen bedeutenden Beitrag zur Geschichte der Bildverarbeitung geleistet. EfficientDet demonstrierte die Leistungsfähigkeit der zusammengesetzten Skalierung, währendYOLO die Wirksamkeit der Neuparametrisierung und DestillationYOLO . Für Entwickler, die 2026 neue Projekte starten, bietet Ultralytics jedoch einen überzeugenden Vorteil.
Durch den Wegfall von NMS die Bereitstellungspipelines NMS , der MuSGD-Optimierer beschleunigt das Training und die optimierte Architektur sorgt für überragende Geschwindigkeit sowohl auf Edge-CPUs als auch auf leistungsstarken GPUs. Ganz gleich, ob Sie ein intelligentes Kamerasystem oder eine cloudbasierte Videoanalyseplattform entwickeln – das robuste Ökosystem und die Leistungsfähigkeit von Ultralytics es zur ersten Wahl.
Für weitere Informationen könnte es für Sie interessant sein, YOLO26 mit YOLOv10 zu vergleichen oder die Vorteile von YOLO11 für die Unterstützung älterer Versionen.