RTDETRv2 vs. YOLOv5: Bewertung von Echtzeit-Erkennungstransformatoren und CNNs
Die Entwicklung der Computervision wurde weitgehend durch das unermüdliche Streben nach einem Gleichgewicht zwischen Genauigkeit und Echtzeit-Inferenzgeschwindigkeit geprägt. Beim Vergleich von RTDETRv2 und Ultralytics YOLOv5 wägen Entwickler im Wesentlichen die ausgefeilten globalen Kontextfähigkeiten von Transformer-Architekturen gegen die hochoptimierte, praxiserprobte Effizienz von Convolutional Neural Networks (CNNs) ab.
Dieser Leitfaden enthält eine detaillierte technische Analyse dieser beiden bedeutenden Architekturen und beschreibt deren Leistungskennzahlen, Trainingsmethoden, Speicheranforderungen und ideale Einsatzszenarien, um Ihnen bei der Auswahl des für Ihren speziellen Anwendungsfall am besten geeigneten Objekterkennungsmodells zu helfen.
RTDETRv2: Der Transformer-Ansatz zur Echtzeit-Erkennung
Aufbauend auf dem ursprünglichen Real-Time Detection Transformer (RT-DETR) führt RTDETRv2 eine Reihe von „Bag-of-Freebies” ein, um die Basisarchitektur zu verbessern, ohne dabei die Inferenzlatenz zu beeinträchtigen.
- Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
- Organisation:Baidu
- Datum: 2024-07-24
- Links:Arxiv-Artikel, GitHub-Repository
Architektur und Fähigkeiten
RTDETRv2 nutzt eine hybride CNN-Transformer-Architektur. Das CNN fungiert als Rückgrat, um feinkörnige visuelle Merkmale zu extrahieren, während die Transformer-Encoder-Decoder-Schichten die gesamte Merkmalskarte verarbeiten, um den globalen Kontext zu verstehen. Ein wesentliches Merkmal von RTDETRv2 ist sein End-to-End-Charakter, der die Notwendigkeit einer Nachbearbeitung durch Non-Maximum Suppression (NMS) vollständig überflüssig macht.
RTDETRv2 erzielt zwar eine beeindruckende Genauigkeit – insbesondere in komplexen, dichten Szenen, in denen sich Objekte überlappen –, hat jedoch auch einige nennenswerte Nachteile. Der Transformatoren inhärente Aufmerksamkeitsmechanismus erfordert während des Trainings deutlich mehr CUDA als bei Standard-CNNs. Darüber hinaus funktioniert es zwar gut auf High-End-GPUs wie NVIDIA oder T4, aber seine Architektur ist auf Standard-CPUs und stark eingeschränkten Edge-Geräten deutlich langsamer.
Erfahren Sie mehr über RTDETRv2
Ultralytics YOLOv5: Der Industriestandard für Effizienz
Ultralytics YOLOv5 hat bei seiner Veröffentlichung die Landschaft des angewandten maschinellen LernensYOLOv5 verändert und Entwicklern weltweit durch ein außergewöhnlich intuitives Framework den Zugang zu leistungsstarker Computer Vision ermöglicht.
- Autor: Glenn Jocher
- Organisation: Ultralytics
- Datum: 26. Juni 2020
- Links:Offizielle Dokumentation, GitHub-Repository
Ökosystem und Leistungsbilanz
YOLOv5 vollständig auf dem PyTorch Framework und basiert auf einer äußerst effizienten CNN-Architektur. Es wurde von Grund auf für eine einfache Bedienung entwickelt und verfügt über eine optimierte API sowie eine der umfangreichsten Dokumentationen in der KI-Branche.
Der größte Vorteil von YOLOv5 in seiner unübertroffenen Vielseitigkeit und seinem geringen Speicherbedarf. Das Training eines YOLOv5 erfordert deutlich weniger VRAM als transformatorbasierte Modelle, wodurch es für Forscher und Ingenieure mit begrenztem Hardware-Budget zugänglich ist. Während sich RTDETRv2 ausschließlich auf die Erkennung von Begrenzungsrahmen konzentriert, YOLOv5 zu einem vielseitigen Kraftpaket entwickelt, das Instanzsegmentierung und Bildklassifizierung unterstützt.
Unternehmensmodell-Management
Um den ultimativen optimierten Workflow zu erleben, können Sie YOLOv5 über die Ultralytics trainieren, validieren und bereitstellen. Die Plattform bietet Cloud-Trainingsfunktionen und Zero-Code-Bereitstellungspipelines.
Leistung und Metriken im Vergleich
Bei der Analyse der Rohleistung anhand des COCO lassen sich deutliche Unterschiede in der Priorisierung der Ressourcen durch diese Modelle feststellen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Analyse der Kompromisse
Die Daten zeigen, dass RTDETRv2-x eine durchschnittliche Präzision (mAP) von 54,3 % erreicht und damit YOLOv5x mit 50,7 % leicht übertrifft. Dieser geringfügige Genauigkeitsgewinn ist jedoch mit einem enormen Rechenaufwand verbunden. YOLOv5x arbeitet mit einer geringeren Latenz (11,89 ms gegenüber 15,03 ms bei TensorRT) und benötigt nur einen Bruchteil des Speicherplatzes. Für Edge-Anwendungen mit extrem geringem Stromverbrauch bleibt YOLOv5n (Nano) unangefochten und führt Inferenzvorgänge in nur 1,12 ms mit einem minimalen Parameterbedarf von 2,6 Millionen durch – eine Leistungsklasse, in der RTDETRv2 nicht einmal ansatzweise mithalten kann.
Trainingseffizienz und Code-Einfachheit
Eine der größten Stärken des Ultralytics ist seine einheitliche API. Selbst wenn Sie sich entscheiden, die Transformer-Architektur von RT-DETR eine bestimmte rechenintensive Aufgabe zu nutzen, können Sie dies vollständig innerhalb desPython tun und Modelle mit nur einer einzigen Codezeile nahtlos austauschen.
from ultralytics import RTDETR, YOLO
# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")
# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")
# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo[0].show()
Durch die Nutzung der Ultralytics erhalten Entwickler automatisch Zugriff auf ein gut gepflegtes Ökosystem mit Experiment-Tracking-Integrationen (wie Weights & Biases Comet ) und Ein-Klick-Exporten in Bereitstellungsformate wie ONNX und OpenVINO.
Anwendungen in der Praxis und ideale Anwendungsfälle
Wo RTDETRv2 glänzt
RTDETRv2 eignet sich am besten für Umgebungen, in denen keine Hardwarebeschränkungen bestehen und die höchstmögliche Präzision das einzige Ziel ist.
- Serverseitige medizinische Bildgebung: Erkennung mikroskopischer Anomalien in hochauflösenden Röntgenbildern.
- Satellitenbilder: Verfolgung dichter, sich überlappender Objekte bei Luftüberwachungsaufgaben auf leistungsstarken Cloud-Clustern.
Wo YOLOv5
YOLOv5 der unbestrittene Champion für den praktischen, realen Einsatz auf unterschiedlicher Hardware.
- Edge-KI-Geräte: Einsatz von Sicherheitsalarmsystemen auf Raspberry Pi- oder NVIDIA -Geräten, deren Speicherplatz stark begrenzt ist.
- Mobile Anwendungen: Schnelle Echtzeit-Bounding-Box- und Segmentierungsinferenz direkt auf Smartphones über CoreML TFLite.
- Hochgeschwindigkeits-Industriefertigung: Prüfung von Teilen auf schnellen Fertigungslinien, bei denen eine Latenz von Millisekunden für den Betriebserfolg entscheidend ist.
Andere Ultralytics erkunden
YOLOv5 zwar ein legendäres Modell, doch das Ultralytics erweitert kontinuierlich die Grenzen der KI. Wenn Sie Modelle für ein neues Projekt im Jahr 2026 vergleichen, sollten Sie das hochmoderne Ultralytics in Betracht ziehen. YOLO26 verfügt über ein natives NMS (ähnlich wie Transformatoren, aber mit CNN-Geschwindigkeit), den revolutionären MuSGD-Optimierer für unglaublich stabiles Training und eine um bis zu 43 % schnellere CPU . Alternativ YOLO11 eine fantastische, stark unterstützte Wahl für vielseitige Einsätze, die Pose-Schätzung und OBB-Erkennung erfordern.
Während RTDETRv2 die Genauigkeitsgrenze mithilfe von Transformer-Schichten erweitert, bietet das Ultralytics YOLO eine unübertroffene Balance zwischen Geschwindigkeit, geringen Speicheranforderungen und einer brillant entwickelten Entwicklererfahrung, die die Zeit vom Prototyp bis zur Produktion drastisch verkürzt.