Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 vs. EfficientDet#

Die Auswahl des optimalen neuronalen Netzes für Computer Vision-Projekte erfordert ein tiefes Verständnis der verfügbaren Architekturen. Dieser Leitfaden bietet einen ausführlichen technischen Vergleich zwischen Ultralytics YOLO11 und Googles EfficientDet. Wir untersuchen ihre architektonischen Unterschiede, Leistungskennzahlen, Trainingseffizienz und ideale Einsatzszenarien, um dir bei der fundierten Entscheidung für deine Machine Learning-Workloads zu helfen.

Link to this sectionModell-Hintergründe und Spezifikationen#

Beide Modelle haben die Deep Learning-Landschaft maßgeblich geprägt, obwohl sie aus unterschiedlichen Design-Philosophien und KI-Entwicklungsperioden stammen.

Link to this sectionYOLO11 Details#

Autoren: Glenn Jocher und Jing Qiu
Organisation: Ultralytics
Datum: 27.09.2024
GitHub: https://github.com/ultralytics/ultralytics
Dokumentation: https://docs.ultralytics.com/models/yolo11/

Erfahre mehr über YOLO11

Link to this sectionEfficientDet-Details#

Autoren: Mingxing Tan, Ruoming Pang und Quoc V. Le
Organisation: Google
Datum: 20.11.2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
Dokumentation: https://github.com/google/automl/tree/master/efficientdet#readme

Erfahre mehr über EfficientDet

Vorteil des Ökosystems

Bei der Arbeit mit Computer-Vision-Modellen ist das umgebende Ökosystem genauso wichtig wie das Modell selbst. Das Ultralytics-Ökosystem bietet eine beispiellose Entwicklererfahrung, umfassende Dokumentation, aktive Community-Unterstützung und nahtlose Exportmöglichkeiten in Formate wie ONNX und TensorRT.

Link to this sectionArchitektonische Innovationen#

Link to this sectionEfficientDet: BiFPN und Compound Scaling#

EfficientDet wurde Ende 2019 eingeführt und zielte darauf ab, die Genauigkeit zu maximieren und gleichzeitig die Rechenkosten zu minimieren. Dies wird hauptsächlich durch zwei Mechanismen erreicht. Erstens verwendet es ein EfficientNet-Backbone, das Tiefe, Breite und Auflösung kohärent skaliert. Zweitens wurde das Bi-directional Feature Pyramid Network (BiFPN) eingeführt, das eine einfache und schnelle Feature-Fusion auf mehreren Ebenen ermöglicht.

Obwohl EfficientDet für seine Zeit hocheffizient war, kann die Abhängigkeit von der TensorFlow AutoML-Bibliothek es unflexibel machen. Forscher empfinden Modell-Pruning und benutzerdefinierte Modifikationen im Vergleich zu modernen, modularen, auf PyTorch basierenden Frameworks oft als herausfordernd.

Link to this sectionYOLO11: Verbesserte Merkmalsextraktion und Vielseitigkeit#

YOLO11 stellt einen bedeutenden Sprung nach vorne bei Objekterkennungsarchitekturen dar. Es baut auf den Erfolgen seiner Vorgänger auf und führt verfeinerte C3k2-Blöcke sowie ein verbessertes Spatial Pyramid Pooling-Modul ein. Diese Verbesserungen führen zu einer überlegenen Merkmalsextraktion, wodurch YOLO11 komplexe visuelle Muster mit außergewöhnlicher Klarheit erfassen kann.

Ein Hauptvorteil von YOLO11 ist seine Vielseitigkeit. Während EfficientDet rein ein Modell zur Objekterkennung ist, unterstützt YOLO11 nativ Instanzsegmentierung, Bildklassifizierung, Pose-Schätzung und orientierte Begrenzungsrahmen (OBB). Darüber hinaus bietet YOLO11 unglaublich geringe Speicheranforderungen sowohl beim Training als auch bei der Inferenz, was es älteren Modellen und massiven Vision Transformers beim Einsatz in ressourcenbeschränkten Edge AI-Umgebungen weit überlegen macht.

Link to this sectionLeistung und Benchmarks#

Das Gleichgewicht zwischen Genauigkeit, gemessen in mean Average Precision (mAP), und Inferenzgeschwindigkeit ist der entscheidende Faktor für reale Implementierungen. Die folgende Tabelle veranschaulicht die Rohleistung beider Modellfamilien auf dem Standard-COCO-Datensatz.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02,59.421,5
YOLO11m64051.5183.24.720,168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356,9194.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513,57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520,755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Wie dargestellt, erzielt YOLO11 eine äußerst vorteilhafte Leistungsbilanz. YOLO11x erreicht die höchste Gesamtgenauigkeit (54,7 mAP), während die kleineren YOLO11-Varianten bei der GPU-Inferenzgeschwindigkeit absolut dominieren (bis zu 1,5 ms auf einer T4 unter Verwendung von TensorRT).

Link to this sectionTrainingseffizienz und Ökosystem#

Eine der definierenden Eigenschaften von Ultralytics-Modellen ist ihre Benutzerfreundlichkeit. Das Training eines EfficientDet-Modells erfordert oft die Navigation durch komplexe TensorFlow-Graph-Konfigurationen und die Verwaltung komplizierter Abhängigkeitsketten. Im krassen Gegensatz dazu basiert YOLO11 auf einem sauberen, grundlegend modernen PyTorch-Fundament.

Dieses gut gepflegte Ökosystem bedeutet, dass Entwickler das Paket installieren, ein vortrainiertes Modell laden und das Training auf einem benutzerdefinierten Datensatz mit nur wenigen Zeilen Code starten können.

Link to this sectionPython-Codebeispiel#

Hier ist ein vollständig ausführbares Beispiel, das die Einfachheit der Ultralytics-API demonstriert. Dieses Skript lädt ein vortrainiertes YOLO11-Modell, trainiert es und führt eine schnelle Vorhersage aus.

from ultralytics import YOLO

# Initialize a pretrained YOLO11 nano model
model = YOLO("yolo11n.pt")

# Train the model efficiently using the integrated PyTorch engine
# Training efficiency is high, requiring less VRAM than legacy models
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, device="cpu")

# Run real-time inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the output bounding boxes
prediction[0].show()

Link to this sectionBlick in die Zukunft: Der YOLO26-Vorteil#

Während YOLO11 außergewöhnlich leistungsstark ist, sollten Teams, die neue Greenfield-Projekte starten, Ultralytics YOLO26 in Betracht ziehen, das im Januar 2026 veröffentlicht wurde. YOLO26 stellt einen Paradigmenwechsel in Bezug auf Bereitstellungseinfachheit und Edge-Performance dar.

Die wichtigsten Innovationen von YOLO26 umfassen:

  • End-to-End NMS-freies Design: Durch den Wegfall der Non-Maximum Suppression (NMS) bei der Nachbearbeitung gewährleistet YOLO26 eine konsistente, extrem niedrige Latenz, die für Hochgeschwindigkeits-Robotik und autonomes Fahren entscheidend ist.
  • Bis zu 43 % schnellere CPU-Inferenz: Für Implementierungen ohne dedizierte GPUs ist YOLO26 speziell optimiert, um den Durchsatz auf Standardprozessoren zu maximieren.
  • MuSGD-Optimierer: Inspiriert von Moonshot AIs Kimi K2, bringt dieser hybride Optimierer die Stabilität von LLM-Trainings in die Computer Vision und ermöglicht eine schnellere Konvergenz.
  • ProgLoss + STAL: Diese verbesserten Verlustfunktionen verbessern die Erkennung kleiner Objekte drastisch, was oft ein Schwachpunkt bei der Satellitenbildanalyse und Drohnenaufnahmen ist.
  • DFL-Entfernung: Die Entfernung der Distribution Focal Loss vereinfacht den Exportprozess des Modells auf Edge-Geräte.
Alternative Modelle zum Ausprobieren

Wenn dein Projekt sehr spezifische Anforderungen hat, möchtest du vielleicht auch das RT-DETR-Modell für Transformer-basierte Erkennung oder das weit verbreitete YOLOv8 benchmarken, das nach wie vor ein fester Bestandteil vieler Legacy-Unternehmensimplementierungen ist.

Link to this sectionAnwendungsfälle und Empfehlungen#

Die Wahl zwischen YOLO11 und EfficientDet hängt von deinen spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Präferenzen für das Ökosystem ab.

Link to this sectionWann du YOLO11 wählen solltest#

YOLO11 ist eine starke Wahl für:

  • Edge-Deployment in der Produktion: Kommerzielle Anwendungen auf Geräten wie Raspberry Pi oder NVIDIA Jetson, bei denen Zuverlässigkeit und aktive Wartung von größter Bedeutung sind.
  • Multitasking-Vision-Anwendungen: Projekte, die Erkennung, Segmentierung, Pose Estimation und OBB innerhalb eines einzigen einheitlichen Frameworks erfordern.
  • Schnelles Prototyping und Deployment: Teams, die mithilfe der optimierten Ultralytics Python API schnell von der Datenerfassung bis zur Produktion gelangen müssen.

Link to this sectionWann du dich für EfficientDet entscheiden solltest#

EfficientDet wird empfohlen für:

  • Google Cloud und TPU Pipelines: Systeme, die tief in Google Cloud Vision APIs oder TPU-Infrastrukturen integriert sind, für die EfficientDet nativ optimiert ist.
  • Compound Scaling Forschung: Akademische Benchmarks, die sich auf die Untersuchung der Auswirkungen von ausgewogener Netzwerk-Tiefe, -Breite und Auflösungsskalierung konzentrieren.
  • Mobile Bereitstellung via TFLite: Projekte, die speziell den TensorFlow Lite-Export für Android oder eingebettete Linux-Geräte erfordern.

Link to this sectionWann du Ultralytics wählen solltest (YOLO26)#

Für die meisten neuen Projekte bietet Ultralytics YOLO26 die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
  • Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.

Link to this sectionFazit#

EfficientDet war eine wegweisende Architektur, die die Lebensfähigkeit von Compound Scaling bei der Objekterkennung bewies. Das schnelle Tempo der KI-Forschung hat jedoch Modelle hervorgebracht, die schlichtweg leistungsfähiger, einfacher zu integrieren und schneller auszuführen sind.

Mit seinen robusten Multi-Task-Fähigkeiten, unglaublichen GPU-Inferenzgeschwindigkeiten und der wohl entwicklerfreundlichsten API der Branche ist YOLO11 der klare Gewinner für moderne Vision-Pipelines. Für diejenigen, die auf den absoluten technologischen Vorsprung abzielen – insbesondere bei Edge-First-Deployments – bietet ein Upgrade auf YOLO26 die ultimative Kombination aus NMS-freier Geschwindigkeit und beispielloser Genauigkeit.

Kommentare