Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 vs. YOLOv5: Evaluierung von Echtzeit-Detektions-Transformern und CNNs#

Die Evolution der Computer Vision wurde maßgeblich durch das unermüdliche Streben bestimmt, Genauigkeit mit Echtzeit-Inferenzgeschwindigkeit in Einklang zu bringen. Beim Vergleich von RTDETRv2 und Ultralytics YOLOv5 wägen Entwickler im Grunde die ausgefeilten globalen Kontextfähigkeiten von Transformer-Architekturen gegen die hochoptimierte, praxiserprobte Effizienz von Convolutional Neural Networks (CNNs) ab.

Dieser Leitfaden bietet eine tiefgreifende technische Analyse dieser beiden prominenten Architekturen und beschreibt deren Leistungsmetriken, Trainingsmethoden, Speicheranforderungen und ideale Einsatzszenarien, damit du das beste Modell zur Objekterkennung für deinen spezifischen Anwendungsfall auswählen kannst.

Link to this sectionRTDETRv2: Der Transformer-Ansatz für Echtzeit-Erkennung#

Aufbauend auf dem ursprünglichen Real-Time Detection Transformer (RT-DETR) führt RTDETRv2 eine Reihe von "Bag-of-Freebies" ein, um die Basisarchitektur zu verbessern, ohne die Inferenzlatenz zu beeinträchtigen.

Link to this sectionArchitektur und Fähigkeiten#

RTDETRv2 nutzt eine hybride CNN-Transformer-Architektur. Das CNN dient als Backbone zur Extraktion feinkörniger visueller Merkmale, während die Transformer-Encoder-Decoder-Schichten die gesamte Feature-Map verarbeiten, um den globalen Kontext zu verstehen. Ein wesentliches Merkmal von RTDETRv2 ist seine End-to-End-Natur, die den Bedarf an Non-Maximum Suppression (NMS)-Nachbearbeitung vollständig eliminiert.

Obwohl RTDETRv2 eine beeindruckende Genauigkeit erreicht – insbesondere in komplexen, dichten Szenen, in denen sich Objekte überlappen –, bringt es spürbare Kompromisse mit sich. Der den Transformern innewohnende Aufmerksamkeitsmechanismus erfordert während des Trainings deutlich mehr CUDA-Speicher als Standard-CNNs. Außerdem ist die Architektur zwar auf High-End-GPUs wie der NVIDIA A100 oder T4 leistungsstark, läuft jedoch auf Standard-CPUs und stark eingeschränkten Edge-Geräten merklich langsamer.

Erfahre mehr über RTDETRv2

Link to this sectionUltralytics YOLOv5: Der Industriestandard für Effizienz#

Ultralytics YOLOv5 hat die Landschaft des angewandten maschinellen Lernens nach seiner Veröffentlichung grundlegend verändert und durch ein außergewöhnlich intuitives Framework leistungsstarke Computer Vision für Entwickler weltweit zugänglich gemacht.

Link to this sectionÖkosystem und Leistungsgleichgewicht#

YOLOv5 basiert vollständig auf dem PyTorch-Framework und setzt auf eine überaus effiziente CNN-Architektur. Es wurde von Grund auf für Benutzerfreundlichkeit entwickelt und bietet eine optimierte API sowie eine der umfassendsten Dokumentationen in der KI-Branche.

Der größte Vorteil von YOLOv5 liegt in seiner unübertroffenen Vielseitigkeit und den geringen Speicheranforderungen. Das Training eines YOLOv5-Modells erfordert drastisch weniger VRAM als bei transformerbasierten Modellen, was es für Forscher und Ingenieure mit begrenztem Hardwarebudget zugänglich macht. Während sich RTDETRv2 zudem ausschließlich auf die Bounding-Box-Detektion konzentriert, hat sich YOLOv5 zu einem vielseitigen Kraftpaket entwickelt, das Instanzsegmentierung und Bildklassifizierung unterstützt.

Enterprise-Modellmanagement

Um den ultimativen, optimierten Arbeitsablauf zu erleben, kannst du YOLOv5 direkt über die Ultralytics Platform trainieren, validieren und bereitstellen. Die Plattform bietet Cloud-Trainingskapazitäten und Zero-Code-Deployment-Pipelines.

Erfahre mehr über YOLOv5

Link to this sectionLeistungs- und Metrikenvergleich#

Bei der Analyse der Rohleistung auf dem Standard-COCO-Datensatz lassen sich klare Unterschiede in der Priorisierung der Ressourcen erkennen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045,4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Link to this sectionAnalyse der Kompromisse#

Die Daten zeigen, dass RTDETRv2-x eine Spitzen-mean Average Precision (mAP) von 54,3 % erreicht und damit die 50,7 % von YOLOv5x leicht übertrifft. Dieser geringfügige Genauigkeitsgewinn geht jedoch mit enormen Rechenkosten einher. YOLOv5x arbeitet mit geringerer Latenz (11,89 ms gegenüber 15,03 ms auf TensorRT) und benötigt nur einen Bruchteil des Speicherbedarfs. Für Edge-Deployments mit extrem niedrigem Energieverbrauch bleibt YOLOv5n (Nano) ungeschlagen und führt Inferenzen in nur 1,12 ms mit einer winzigen Parametergröße von 2,6 M aus – eine Klasse, in der RTDETRv2 erst gar nicht antritt.

Link to this sectionTrainingseffizienz und Code-Einfachheit#

Eine der Hauptstärken des Ultralytics-Ökosystems ist seine einheitliche API. Selbst wenn du dich für eine spezifische rechenintensive Aufgabe für die Transformer-Architektur von RT-DETR entscheidest, kannst du dies vollständig innerhalb des Ultralytics Python-Pakets tun und Modelle nahtlos mit nur einer einzigen Codezeile austauschen.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

Durch die Nutzung der Ultralytics-Bibliothek erhalten Entwickler automatisch Zugriff auf ein gut gepflegtes Ökosystem mit Integrationen zur Experimentverfolgung (wie Weights & Biases und Comet ML) sowie Ein-Klick-Exporten in Deployment-Formate wie ONNX und OpenVINO.

Link to this sectionPraxisanwendungen und ideale Anwendungsfälle#

Link to this sectionWo RTDETRv2 glänzt#

RTDETRv2 eignet sich am besten für Umgebungen, in denen keine Hardwareeinschränkungen bestehen und maximale Präzision das alleinige Ziel ist.

  • Serverseitige medizinische Bildgebung: Detektion mikroskopischer Anomalien in hochauflösenden Röntgenaufnahmen.
  • Satellitenbilder: Verfolgung dichter, überlappender Objekte bei Luftüberwachungsaufgaben auf leistungsstarken Cloud-Clustern.

Link to this sectionWo YOLOv5 dominiert#

YOLOv5 ist der unbestrittene Champion für den praktischen, realen Einsatz auf verschiedenster Hardware.

  • Edge-KI-Geräte: Bereitstellung von Sicherheitsalarmsystemen auf Raspberry Pi- oder NVIDIA Jetson-Geräten, bei denen der Speicher streng begrenzt ist.
  • Mobile Anwendungen: Ausführung schneller Echtzeit-Inferenz für Bounding-Boxen und Segmentierung direkt auf Smartphones mittels CoreML oder TFLite.
  • Hochgeschwindigkeits-Industriefertigung: Inspektion von Teilen an schnellen Produktionslinien, bei denen eine Latenz im Millisekundenbereich entscheidend für den operativen Erfolg ist.
Entdeckung anderer Ultralytics-Modelle

Obwohl YOLOv5 ein legendäres Modell ist, erweitert das Ultralytics-Ökosystem ständig die Grenzen der KI. Wenn du Modelle für ein neues Projekt im Jahr 2026 vergleichst, solltest du einen Blick auf das hochmoderne Ultralytics YOLO26 werfen. YOLO26 integriert ein natives End-to-End NMS-freies Design (ähnlich wie bei Transformern, jedoch mit CNN-Geschwindigkeit), bietet den revolutionären MuSGD Optimizer für ein unglaublich stabiles Training und liefert bis zu 43 % schnellere CPU-Inferenz. Alternativ bleibt YOLO11 eine fantastische, stark unterstützte Wahl für vielseitige Deployments, die Pose Estimation und OBB-Detektion erfordern.

Letztendlich, während RTDETRv2 die Genauigkeitsgrenze mithilfe von Transformer-Schichten nach oben verschiebt, bietet das Ultralytics YOLO-Framework ein unübertroffenes Gleichgewicht aus Geschwindigkeit, geringem Speicherbedarf und einer brillant gestalteten Entwicklererfahrung, die die Zeit vom Prototyp bis zur Produktion dramatisch verkürzt.

Kommentare