Zum Inhalt springen

YOLOv7 RTDETRv2: Ein technischer Vergleich für die Echtzeit-Objekterkennung

Die Landschaft der Computervision entwickelt sich weiterhin rasant und wird stark vom Wettbewerb zwischen Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs) beeinflusst. Dieser technische Vergleich befasst sich mit zwei Schwergewichten unter den Architekturen: YOLOv7, einem hochoptimierten CNN-basierten Objektdetektor, und RTDETRv2, einem hochmodernen Echtzeit-Detektions-Transformer.

Durch die Analyse ihrer architektonischen Unterschiede, Leistungskennzahlen und idealen Einsatzszenarien können Entwickler fundierte Entscheidungen treffen, wenn sie diese Vision-KI-Modelle in ihre Produktionspipelines integrieren.

YOLOv7: Die Bag-of-Freebies-CNN-Architektur

YOLOv7 mehrere paradigmenverändernde strukturelle Optimierungen für die traditionelle YOLO YOLOv7 und erweiterte die Grenzen der Echtzeit-Objekterkennung durch eine Reihe von „trainierbaren Bag-of-Freebies”.

Wichtigste Merkmale: Autoren: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organisation: Institut für Informationswissenschaft, Academia Sinica
Datum: 06.07.2022
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

Architektur und Stärken

YOLOv7 auf seiner Extended Efficient Layer Aggregation Network (E-ELAN)-Architektur. Dieses strukturelle Design ermöglicht es dem Modell, vielfältigere Merkmale zu lernen, ohne den ursprünglichen Gradientenpfad zu zerstören. Darüber hinaus umfasst es geplante reparametrisierte Faltungen, die die Inferenzgeschwindigkeit optimieren, ohne die Genauigkeit zu beeinträchtigen. Dank seiner entkoppelten Kopfstruktur erzielt es einen beeindruckenden Kompromiss zwischen Geschwindigkeit und Genauigkeit und eignet sich daher hervorragend für Echtzeit-Objekterkennungsaufgaben auf Server-GPUs.

YOLOv7 außerdem äußerst vielseitig. Über die standardmäßige Bounding-Box-Erkennung hinaus bietet das Repository Zweige für die Posenschätzung und Instanzsegmentierung, was seine Anpassungsfähigkeit unter Beweis stellt.

Einschränkungen

Wie viele ältere CNN-Modelle YOLOv7 auch YOLOv7 bei der Nachbearbeitung auf Non-Maximum Suppression (NMS). NMS variablen Latenzzeiten, insbesondere in überfüllten Szenen, was strenge Echtzeitgarantien auf Edge-Geräten erschweren kann.

Erfahren Sie mehr über YOLOv7

RTDETRv2: Weiterentwicklung von Echtzeit-Transformatoren

RTDETRv2 baut auf dem ursprünglichen RT-DETR auf und bestätigt, dass Transformatoren in Echtzeit mit YOLO konkurrieren können, ohne dabei an räumlicher Genauigkeit einzubüßen.

Wichtigste Merkmale: Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Organisation: Baidu
Datum: 24.07.2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: RT-DETR

Architektur und Stärken

RTDETRv2 stellt einen bedeutenden Fortschritt für Vision Transformers dar. Es nutzt einen flexiblen Abfrageauswahlprozess und einen effizienten Hybrid-Encoder, um Multi-Scale-Features schnell zu verarbeiten. Durch die Einführung eines neuen „Bag-of-Freebies”, das speziell auf Detection Transformers (DETRs) zugeschnitten ist, werden die Grenzen des räumlichen Denkens erweitert. Da es von Haus aus NMS ist, bietet es deterministische Inferenzzeiten, eine wichtige Funktion für anspruchsvolle Smart-City-Anwendungen und autonomes Fahren.

Einschränkungen

Trotz seiner Fortschritte weist RTDETRv2 die traditionellen Nachteile transformatorbasierter Architekturen auf. Im Vergleich zu CNNs benötigt es sowohl beim Training als auch bei der Inferenz deutlich mehr CUDA . Darüber hinaus sind die Trainingskonvergenzzeiten deutlich länger, was große Mengen an hochwertigen annotierten Daten (wie den COCO ) und umfangreiche Rechenressourcen erfordert.

Erfahren Sie mehr über RTDETRv2

Leistungsvergleich

Beim Benchmarking dieser Modelle müssen wir ein ganzheitliches Bild betrachten, das Präzision, rohe Inferenzgeschwindigkeit und Rechenaufwand umfasst. Nachstehend finden Sie eine Tabelle mit einem direkten Vergleich.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Interpretation der Benchmarks

RTDETRv2-x erreicht zwar mit 54,3 % den absolut höchstenmAP-Wert, benötigt dafür jedoch enorme 259 Milliarden FLOPs. Umgekehrt bieten YOLOv7 eine hervorragende Basis, leiden jedoch unter NMS älterer NMS , der in reinen Netzwerk-Latenzmetriken nicht vollständig erfasst wird.

Ultralytics von Ultralytics : Ökosystem und Evolution

YOLOv7 RTDETRv2 bieten zwar robuste Funktionen, doch ihre Bereitstellung in Produktionsumgebungen führt häufig zu logistischen Reibungsverlusten. Hier kommt das Ultralytics zum Tragen. Das Ultralytics wurde für eine nahtlose End-to-End-Integration entwickelt und bietet Entwicklern eine einheitliche API, die die typischen Komplexitäten von Computer-Vision-Pipelines abstrahiert.

Unübertroffene Vielseitigkeit und Speichereffizienz

Im Gegensatz zu starren Transformermodellen, die enorme Mengen an VRAM verbrauchen, zeichnen sichYOLO Ultralytics durch eine strenge Speichereffizienz aus. Dies ermöglicht ein schnelles Modelltraining auf zugänglicher Hardware. Das Ökosystem unterstützt von Haus aus mehrere Computer-Vision-Aufgaben aus einer einzigen Codebasis, darunter Bildklassifizierung und OBB-Erkennung (Oriented Bounding Box), und bietet damit eine Flexibilität, die RTDETRv2 derzeit fehlt.

Nahtlose Bereitstellung

Der Übergang von der Forschung zur Produktion erfordert robuste Bereitstellungsoptionen. Die Ultralytics unterstützt nativ den Export von Modellen mit einem Klick in branchenübliche Formate. Ganz gleich, ob Sie ONNX für plattformübergreifende Kompatibilität oder TensorRT für maximale GPU verwenden möchten, die Pipeline ist vollständig automatisiert und zuverlässig.

Das ultimative Upgrade: Ultralytics

Für Entwickler, die zwischen YOLOv7 RTDETRv2 schwanken, ist der optimale Weg in die Zukunft tatsächlich der neue Standard in der Bildverarbeitungs-KI: Ultralytics . YOLO26 wurde im Januar 2026 veröffentlicht und schließt die Lücke zwischen der Geschwindigkeit von CNNs und der ausgefeilten Argumentation von Transformatoren, während es deren jeweilige Schwächen vollständig beseitigt.

Erfahren Sie mehr über YOLO26

YOLO26 bietet bahnbrechende Innovationen, die sowohl für Server- als auch für Edge-Bereitstellungen maßgeschneidert sind:

  • End-to-End-Design NMS: Erstmals entwickelt in YOLOv10, eliminiert YOLO26 nativ NMS . Dies gewährleistet die deterministische Latenz von RTDETRv2 ohne den aufwändigen Rechenaufwand eines Transformators.
  • MuSGD-Optimierer: Inspiriert von Trainingsverfahren für große Sprachmodelle (wie Moonshot AI's Kimi K2) nutzt YOLO26 eine Mischung aus SGD Muon. Dies sorgt für eine beispiellose Trainingsstabilität und deutlich schnellere Konvergenzzeiten im Vergleich zu AdamW von ViTs verwendeten AdamW .
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte und konkurrieren direkt mit den multiskaligen Merkmalvorteilen von RTDETRv2, was für die Roboterautomatisierung von entscheidender Bedeutung ist.
  • Edge-Optimierung und DFL-Entfernung: Durch die Entfernung des Distribution Focal Loss (DFL) optimiert YOLO26 den Output-Head, was zu CPU um bis zu 43 % schnelleren CPU führt – wodurch es auf Edge-Geräten unendlich viel besser einsetzbar ist als schwere Transformer-Modelle.

Schulungsbeispiel mit Ultralytics

Dank der Einfachheit der Ultralytics Python können Sie das hochmoderne YOLO26-Modell mit nur wenigen Zeilen Code trainieren:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

Ideale Anwendungsfälle

Die Wahl der richtigen Architektur hängt stark von den Einsatzbeschränkungen und der Verfügbarkeit der Hardware ab:

Wann sollte man YOLOv7 in Betracht ziehen?

  • Ältere Forschungsprojekte, bei denen YOLOv7 eine etablierte Basis YOLOv7 .
  • Umgebungen, in denen GPU hohe GPU verfügbar ist und die NMS ank NMS akzeptabel sind.

Wann sollte RTDETRv2 in Betracht gezogen werden?

  • High-End-Serverbereitstellungen, die mAP absolut maximale mAP erfordern.
  • Szenarien, in denen eine deterministische Inferenzlatenz (NMS) zwingend erforderlich ist, vorausgesetzt, Sie verfügen über den VRAM, um dessen Transformer-Backbone zu unterstützen.

Wann sollte man sich für Ultralytics entscheiden?

  • Fast immer. Es bietet den NMS Determinismus von RTDETRv2, übertrifft die Geschwindigkeit und Genauigkeit von YOLOv7, verbraucht deutlich weniger VRAM und ist vollständig in die Ultralytics integriert, was eine mühelose Verwaltung, Schulung und Bereitstellung von Datensätzen ermöglicht.

Weitere Modelle entdecken

Interessiert daran, wie andere Architekturen abschneiden? Entdecken Sie unsere detaillierten Einblicke in frühere Generationen wie YOLO11 und YOLOv8, oder erfahren Sie, wie Sie die Hyperparameter-Optimierung nutzen können, um die Genauigkeit Ihres Projekts zu maximieren.


Kommentare