Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 vs RTDETRv2: Evaluierung von CNN- vs. Transformer-Architekturen für die Objekterkennung#

Die Landschaft des Computer Vision hat sich in den letzten Jahren erheblich erweitert und bietet Entwicklern eine breite Palette an Architekturen zur Bewältigung komplexer visueller Aufgaben. Zu den populärsten Paradigmen gehören Convolutional Neural Networks (CNNs) und Detection Transformers (DETRs).

Dieser Leitfaden bietet einen fundierten technischen Vergleich zwischen zwei zentralen Modellen dieser Kategorien: Ultralytics YOLOv5, ein hocheffizientes und weit verbreitetes CNN-basiertes Modell, und RTDETRv2, ein hochmoderner Transformer-basierter Echtzeit-Objektdetektor.

Link to this sectionUltralytics YOLOv5: Der Industriestandard für Effizienz#

Seit seiner Veröffentlichung ist Ultralytics YOLOv5 zu einem Grundpfeiler der KI-Community geworden und unterstützt weltweit Tausende von kommerziellen Anwendungen und Forschungsprojekten. Es basiert vollständig auf dem PyTorch-Framework und priorisiert eine intuitive Entwicklererfahrung, ohne dabei Kompromisse bei der Echtzeit-Performance einzugehen.

Hauptmerkmale:

Link to this sectionArchitektur und Stärken#

YOLOv5 verwendet eine optimierte CNN-Architektur, die darauf ausgelegt ist, die Effizienz der Merkmalsextraktion zu maximieren und gleichzeitig einen extrem geringen Speicherbedarf beizubehalten. Es nutzt ein CSPDarknet-Backbone und einen PANet-Neck, was eine leistungsstarke Kombination für die Feature-Fusion auf mehreren Skalen schafft.

Einer der Hauptvorteile von YOLOv5 ist seine Performance-Balance. Es erzielt einen hervorragenden Kompromiss zwischen Geschwindigkeit und Genauigkeit, was es zur idealen Wahl für die Modellbereitstellung auf Hardware mit begrenzten Ressourcen wie NVIDIA Jetson-Geräten und Smartphones macht.

Darüber hinaus besticht YOLOv5 durch seine unvergleichliche Vielseitigkeit. Im Gegensatz zu Modellen, die rein auf die Vorhersage von Bounding Boxes beschränkt sind, unterstützt YOLOv5 nativ Bildklassifizierung und Instanzsegmentierung und bietet so ein einheitliches Framework für verschiedene visuelle Aufgaben. Auch seine Trainingseffizienz ist bemerkenswert, da es im Vergleich zu Transformer-basierten Architekturen deutlich weniger CUDA-Speicher während des Trainings benötigt.

Link to this sectionSchwächen#

Da es auf einem älteren CNN-Framework basiert, ist YOLOv5 bei der Nachverarbeitung inhärent auf Non-Maximum Suppression (NMS) angewiesen, um doppelte Bounding Boxes zu eliminieren. Obwohl NMS innerhalb des Ultralytics-Frameworks hochgradig optimiert ist, kann es gelegentlich zu Latenz-Engpässen auf spezialisierten Edge-NPUs führen.

Erfahre mehr über YOLOv5

Link to this sectionRTDETRv2: Echtzeit-Transformer von Baidu#

RTDETRv2 (Real-Time Detection Transformer v2) stellt einen bedeutenden Fortschritt bei der Anwendung von Transformer-Architekturen auf die Echtzeit-Objekterkennung dar und adressiert die rechnerischen Ineffizienzen, die klassische DETRs historisch plagten.

Hauptmerkmale:

Link to this sectionArchitektur und Stärken#

RTDETRv2 baut auf seinem Vorgänger auf, indem es einen hybriden Encoder und ein flexibles Decoder-Design zur Bildverarbeitung verwendet. Der Self-Attention-Mechanismus des Transformers verleiht dem Modell ein globales Verständnis des Bildkontexts, wodurch es in komplexen Szenen mit starker Objektverdeckung hervorragend abschneidet.

Ein prägendes Merkmal von RTDETRv2 ist sein End-to-End, NMS-freies Design. Durch die direkte Vorhersage von Objekt-Queries, ohne dass Ankerboxen oder eine NMS-Nachverarbeitung erforderlich sind, vereinfacht es die Inferenz-Pipeline. Diese Architektur erreicht eine beeindruckende mAP (mean Average Precision) auf Benchmark-Datensätzen wie COCO.

Link to this sectionSchwächen#

Trotz seiner Echtzeitfähigkeiten hat RTDETRv2 im Vergleich zu YOLO-Modellen deutlich höhere Speicheranforderungen. Die Attention-Mechanismen in Transformern skalieren quadratisch mit der Sequenzlänge, was bei hochauflösendem Training zu Out-of-Memory-Fehlern führen kann, sofern keine massiven GPU-Cluster verwendet werden. Zudem fehlt ihm die Vielseitigkeit des Ultralytics-Ökosystems, da es sich primär nur auf die 2D-Objekterkennung konzentriert, ohne native Unterstützung für Segmentierung oder Pose-Estimation.

Erfahre mehr über RTDETR

Link to this sectionTabelle zum Leistungsvergleich#

Um diese Architekturen objektiv zu bewerten, haben wir deren Leistungskennzahlen zusammengestellt. Werte, die fett hervorgehoben sind, stellen die effizientesten oder leistungsstärksten Kennzahlen über die getesteten Skalen hinweg dar.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049,0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Leistungskontext

Während RTDETRv2-x die höchste absolute mAP erreicht, benötigt es fast 30-mal mehr Parameter als YOLOv5n. Für Hochgeschwindigkeitsanwendungen auf begrenzter Hardware bieten Ultralytics-Modelle durchweg die beste Recheneffizienz.

Link to this sectionDer Vorteil des Ultralytics-Ökosystems#

Beim Transfer eines Modells von einem Forschungs-Notebook in eine Produktionsumgebung ist die Software rund um das Modell genauso wichtig wie die neuronale Netzwerkarchitektur. Das von Ultralytics bereitgestellte gut gepflegte Ökosystem beschleunigt den Entwicklungszyklus drastisch.

Link to this sectionUnübertroffene Benutzerfreundlichkeit#

Ultralytics-Modelle priorisieren eine unglaublich optimierte Benutzererfahrung. Egal, ob du ein benutzerdefiniertes Modell trainieren, eine Validierung durchführen oder in hardware-spezifische Formate wie TensorRT oder ONNX exportieren möchtest, die Ultralytics Python API macht dies mit nur wenigen Zeilen Code möglich.

Hier ist ein praktisches Code-Beispiel, das zeigt, wie einfach es ist, ein Ultralytics-Modell zu trainieren und eine Inferenz auszuführen:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

Diese einfache, vereinheitlichte API unterstützt nativ Integrationen für Experiment-Tracking mit Tools wie Weights & Biases und Comet, wodurch Entwickler Metriken nahtlos protokollieren können, ohne komplexen Boilerplate-Code schreiben zu müssen.

Link to this sectionAnwendungsfälle und Empfehlungen#

Die Entscheidung zwischen YOLOv5 und RT-DETR hängt von deinen spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Link to this sectionWann du YOLOv5 wählen solltest#

YOLOv5 ist eine starke Wahl für:

  • Bewährte Produktionssysteme: Bestehende Bereitstellungen, bei denen die langjährige Stabilität, die umfangreiche Dokumentation und die massive Community-Unterstützung von YOLOv5 geschätzt werden.
  • Ressourcenbegrenztes Training: Umgebungen mit begrenzten GPU-Ressourcen, in denen die effiziente Trainings-Pipeline und der geringere Speicherbedarf von YOLOv5 von Vorteil sind.
  • Umfangreiche Unterstützung von Exportformaten: Projekte, die eine Bereitstellung über viele Formate hinweg erfordern, einschließlich ONNX, TensorRT, CoreML und TFLite.

Link to this sectionWann du RT-DETR wählen solltest#

RT-DETR wird empfohlen für:

  • Transformer-basierte Erkennungsforschung: Projekte, die Aufmerksamkeitsmechanismen und Transformer-Architekturen für die End-to-End-Objekterkennung ohne NMS erforschen.
  • Szenarien mit hoher Genauigkeit bei flexibler Latenz: Anwendungen, bei denen die Erkennungsgenauigkeit oberste Priorität hat und eine etwas höhere Inferenzlatenz akzeptabel ist.
  • Erkennung großer Objekte: Szenen mit hauptsächlich mittelgroßen bis großen Objekten, bei denen der globale Aufmerksamkeitsmechanismus von Transformern einen natürlichen Vorteil bietet.

Link to this sectionWann du Ultralytics wählen solltest (YOLO26)#

Für die meisten neuen Projekte bietet Ultralytics YOLO26 die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
  • Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.

Link to this sectionEin Blick voraus: YOLO11 und YOLO26#

Wenn du heute ein neues Vision-Projekt startest, wird dringend empfohlen, die neuesten Generationen der Ultralytics-Modelle zu erkunden.

Während YOLOv5 unglaublich zuverlässig bleibt, bietet YOLO11 eine verbesserte Genauigkeit und eine erweiterte Palette an Aufgaben, einschließlich Oriented Bounding Box (OBB)-Erkennung.

Noch bedeutsamer ist, dass das hochmoderne YOLO26 das Beste aus beiden Welten vereint. Es implementiert ein End-to-End NMS-freies Design (erstmals Pionierarbeit geleistet in YOLOv10), wodurch der Overhead der Nachverarbeitung eliminiert wird, während die Effizienz eines CNN beibehalten bleibt. YOLO26 führt zudem den MuSGD Optimizer ein, inspiriert durch Innovationen beim LLM-Training, für eine schnellere Konvergenz. Mit DFL-Entfernung (Distribution Focal Loss entfernt für vereinfachten Export und bessere Kompatibilität mit Edge-/Low-Power-Geräten) liefert YOLO26 eine bis zu 43 % schnellere CPU-Inferenz, was es zur absolut besten Wahl für Edge-KI macht. Zusätzlich bietet ProgLoss + STAL verbesserte Verlustfunktionen mit bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was kritisch für IoT, Robotik und Luftbildaufnahmen ist.

Link to this sectionFazit#

Die Entscheidung zwischen YOLOv5 und RTDETRv2 hängt stark von deinen Bereitstellungsbeschränkungen ab. RTDETRv2 verschiebt die Grenzen von mAP unter Nutzung leistungsstarker Transformer-Attention-Mechanismen, ist jedoch mit hohen Kosten in Bezug auf Speicher und Rechenaufwand verbunden.

Im Gegensatz dazu bietet Ultralytics YOLOv5 eine bewährte, hochoptimierte und vielseitige Lösung, die überall reibungslos läuft – von Cloud-Servern bis zu Mikrocontrollern. Für Teams, die die höchstmögliche Genauigkeit in Verbindung mit nahtlosen Bereitstellungstools suchen, ist das Upgrade innerhalb des Ultralytics-Ökosystems auf YOLO26 die definitive State-of-the-Art-Lösung für moderne Vision AI-Anwendungen.

Kommentare