Zum Inhalt springen

RTDETRv2 vs. YOLOv5: Bewertung von Echtzeit-Erkennungstransformatoren und CNNs

Die Entwicklung der Computervision wurde weitgehend durch das unermüdliche Streben nach einem Gleichgewicht zwischen Genauigkeit und Echtzeit-Inferenzgeschwindigkeit geprägt. Beim Vergleich von RTDETRv2 und Ultralytics YOLOv5 wägen Entwickler im Wesentlichen die ausgefeilten globalen Kontextfähigkeiten von Transformer-Architekturen gegen die hochoptimierte, praxiserprobte Effizienz von Convolutional Neural Networks (CNNs) ab.

Dieser Leitfaden enthält eine detaillierte technische Analyse dieser beiden bedeutenden Architekturen und beschreibt deren Leistungskennzahlen, Trainingsmethoden, Speicheranforderungen und ideale Einsatzszenarien, um Ihnen bei der Auswahl des für Ihren speziellen Anwendungsfall am besten geeigneten Objekterkennungsmodells zu helfen.

RTDETRv2: Der Transformer-Ansatz zur Echtzeit-Erkennung

Aufbauend auf dem ursprünglichen Real-Time Detection Transformer (RT-DETR) führt RTDETRv2 eine Reihe von „Bag-of-Freebies” ein, um die Basisarchitektur zu verbessern, ohne dabei die Inferenzlatenz zu beeinträchtigen.

Architektur und Fähigkeiten

RTDETRv2 nutzt eine hybride CNN-Transformer-Architektur. Das CNN fungiert als Rückgrat, um feinkörnige visuelle Merkmale zu extrahieren, während die Transformer-Encoder-Decoder-Schichten die gesamte Merkmalskarte verarbeiten, um den globalen Kontext zu verstehen. Ein wesentliches Merkmal von RTDETRv2 ist sein End-to-End-Charakter, der die Notwendigkeit einer Nachbearbeitung durch Non-Maximum Suppression (NMS) vollständig überflüssig macht.

RTDETRv2 erzielt zwar eine beeindruckende Genauigkeit – insbesondere in komplexen, dichten Szenen, in denen sich Objekte überlappen –, hat jedoch auch einige nennenswerte Nachteile. Der Transformatoren inhärente Aufmerksamkeitsmechanismus erfordert während des Trainings deutlich mehr CUDA als bei Standard-CNNs. Darüber hinaus funktioniert es zwar gut auf High-End-GPUs wie NVIDIA oder T4, aber seine Architektur ist auf Standard-CPUs und stark eingeschränkten Edge-Geräten deutlich langsamer.

Erfahren Sie mehr über RTDETRv2

Ultralytics YOLOv5: Der Industriestandard für Effizienz

Ultralytics YOLOv5 hat bei seiner Veröffentlichung die Landschaft des angewandten maschinellen LernensYOLOv5 verändert und Entwicklern weltweit durch ein außergewöhnlich intuitives Framework den Zugang zu leistungsstarker Computer Vision ermöglicht.

Ökosystem und Leistungsbilanz

YOLOv5 vollständig auf dem PyTorch Framework und basiert auf einer äußerst effizienten CNN-Architektur. Es wurde von Grund auf für eine einfache Bedienung entwickelt und verfügt über eine optimierte API sowie eine der umfangreichsten Dokumentationen in der KI-Branche.

Der größte Vorteil von YOLOv5 in seiner unübertroffenen Vielseitigkeit und seinem geringen Speicherbedarf. Das Training eines YOLOv5 erfordert deutlich weniger VRAM als transformatorbasierte Modelle, wodurch es für Forscher und Ingenieure mit begrenztem Hardware-Budget zugänglich ist. Während sich RTDETRv2 ausschließlich auf die Erkennung von Begrenzungsrahmen konzentriert, YOLOv5 zu einem vielseitigen Kraftpaket entwickelt, das Instanzsegmentierung und Bildklassifizierung unterstützt.

Unternehmensmodell-Management

Um den ultimativen optimierten Workflow zu erleben, können Sie YOLOv5 über die Ultralytics trainieren, validieren und bereitstellen. Die Plattform bietet Cloud-Trainingsfunktionen und Zero-Code-Bereitstellungspipelines.

Erfahren Sie mehr über YOLOv5

Leistung und Metriken im Vergleich

Bei der Analyse der Rohleistung anhand des COCO lassen sich deutliche Unterschiede in der Priorisierung der Ressourcen durch diese Modelle feststellen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Analyse der Kompromisse

Die Daten zeigen, dass RTDETRv2-x eine durchschnittliche Präzision (mAP) von 54,3 % erreicht und damit YOLOv5x mit 50,7 % leicht übertrifft. Dieser geringfügige Genauigkeitsgewinn ist jedoch mit einem enormen Rechenaufwand verbunden. YOLOv5x arbeitet mit einer geringeren Latenz (11,89 ms gegenüber 15,03 ms bei TensorRT) und benötigt nur einen Bruchteil des Speicherplatzes. Für Edge-Anwendungen mit extrem geringem Stromverbrauch bleibt YOLOv5n (Nano) unangefochten und führt Inferenzvorgänge in nur 1,12 ms mit einem minimalen Parameterbedarf von 2,6 Millionen durch – eine Leistungsklasse, in der RTDETRv2 nicht einmal ansatzweise mithalten kann.

Trainingseffizienz und Code-Einfachheit

Eine der größten Stärken des Ultralytics ist seine einheitliche API. Selbst wenn Sie sich entscheiden, die Transformer-Architektur von RT-DETR eine bestimmte rechenintensive Aufgabe zu nutzen, können Sie dies vollständig innerhalb desPython tun und Modelle mit nur einer einzigen Codezeile nahtlos austauschen.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

Durch die Nutzung der Ultralytics erhalten Entwickler automatisch Zugriff auf ein gut gepflegtes Ökosystem mit Experiment-Tracking-Integrationen (wie Weights & Biases Comet ) und Ein-Klick-Exporten in Bereitstellungsformate wie ONNX und OpenVINO.

Anwendungen in der Praxis und ideale Anwendungsfälle

Wo RTDETRv2 glänzt

RTDETRv2 eignet sich am besten für Umgebungen, in denen keine Hardwarebeschränkungen bestehen und die höchstmögliche Präzision das einzige Ziel ist.

  • Serverseitige medizinische Bildgebung: Erkennung mikroskopischer Anomalien in hochauflösenden Röntgenbildern.
  • Satellitenbilder: Verfolgung dichter, sich überlappender Objekte bei Luftüberwachungsaufgaben auf leistungsstarken Cloud-Clustern.

Wo YOLOv5

YOLOv5 der unbestrittene Champion für den praktischen, realen Einsatz auf unterschiedlicher Hardware.

  • Edge-KI-Geräte: Einsatz von Sicherheitsalarmsystemen auf Raspberry Pi- oder NVIDIA -Geräten, deren Speicherplatz stark begrenzt ist.
  • Mobile Anwendungen: Schnelle Echtzeit-Bounding-Box- und Segmentierungsinferenz direkt auf Smartphones über CoreML TFLite.
  • Hochgeschwindigkeits-Industriefertigung: Prüfung von Teilen auf schnellen Fertigungslinien, bei denen eine Latenz von Millisekunden für den Betriebserfolg entscheidend ist.

Andere Ultralytics erkunden

YOLOv5 zwar ein legendäres Modell, doch das Ultralytics erweitert kontinuierlich die Grenzen der KI. Wenn Sie Modelle für ein neues Projekt im Jahr 2026 vergleichen, sollten Sie das hochmoderne Ultralytics in Betracht ziehen. YOLO26 verfügt über ein natives NMS (ähnlich wie Transformatoren, aber mit CNN-Geschwindigkeit), den revolutionären MuSGD-Optimierer für unglaublich stabiles Training und eine um bis zu 43 % schnellere CPU . Alternativ YOLO11 eine fantastische, stark unterstützte Wahl für vielseitige Einsätze, die Pose-Schätzung und OBB-Erkennung erfordern.

Während RTDETRv2 die Genauigkeitsgrenze mithilfe von Transformer-Schichten erweitert, bietet das Ultralytics YOLO eine unübertroffene Balance zwischen Geschwindigkeit, geringen Speicheranforderungen und einer brillant entwickelten Entwicklererfahrung, die die Zeit vom Prototyp bis zur Produktion drastisch verkürzt.


Kommentare