Zum Inhalt springen

YOLOv7 vs. YOLOX: Ein detaillierter technischer Vergleich

Die Wahl des optimalen Objekterkennungsmodells ist eine kritische Entscheidung für Computer-Vision-Projekte. Das Verständnis der spezifischen Stärken und Schwächen verschiedener Architekturen ist der Schlüssel zur Erzielung einer Top-Leistung. Diese Seite bietet einen technischen Vergleich von zwei einflussreichen Modellen, YOLOv7 und YOLOX, und beschreibt detailliert ihre architektonischen Nuancen, Performance-Benchmarks und idealen Einsatzszenarien.

YOLOv7: Hocheffiziente und genaue Detektion

YOLOv7, eingeführt im Juli 2022, setzte schnell neue Standards für Echtzeit-Objektdetektoren, indem sowohl die Trainingseffizienz als auch die Inferenzgeschwindigkeit optimiert wurden. Es stellt einen bedeutenden Schritt nach vorn dar, um Geschwindigkeit und Genauigkeit für anspruchsvolle Anwendungen in Einklang zu bringen.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Dokumentation: https://docs.ultralytics.com/models/yolov7/

Architektur und Hauptmerkmale

YOLOv7 führte mehrere architektonische Innovationen ein, die in seinem Paper detailliert beschrieben sind. Eine Schlüsselkomponente ist das Extended Efficient Layer Aggregation Network (E-ELAN), das die Fähigkeit des Netzwerks verbessert, zu lernen, ohne den Gradientenpfad zu unterbrechen, wodurch die Feature-Extraktion verbessert wird. Das Modell verwendet auch fortschrittliche Skalierungstechniken, die für auf Konkatenation basierenden Modellen geeignet sind, und verwendet einen "trainierbaren Bag-of-Freebies". Dies sind Trainingsverbesserungen, wie z. B. geplante Re-Parametrisierungs-Faltung und Coarse-to-Fine Auxiliary Loss, die die Genauigkeit verbessern, ohne die Kosten der Inferenz zu erhöhen. Diese Funktionen ermöglichen es YOLOv7, in der Objekterkennung mit wettbewerbsfähigen Modellgrößen modernste Ergebnisse zu erzielen.

Leistung und Anwendungsfälle

YOLOv7 zeichnet sich in Szenarien aus, die sowohl schnelle Inferenz als auch hohe Genauigkeit erfordern. Seine beeindruckenden mAP- und Geschwindigkeitsmetriken machen es zu einer guten Wahl für Anwendungen wie Echtzeit-Videoanalyse, autonome Fahrsysteme und hochauflösende Bildverarbeitung. In Smart-City-Anwendungen kann YOLOv7 für Verkehrsmanagement oder zur Verbesserung von Sicherheitssystemen für die sofortige Erkennung von Bedrohungen eingesetzt werden.

Stärken und Schwächen

  • Stärken: Bietet ein starkes Gleichgewicht zwischen Erkennungsgenauigkeit und Inferenzgeschwindigkeit. Es verwendet fortschrittliche Trainingstechniken („Bag-of-Freebies“) für eine bessere Leistung, ohne die Rechenanforderungen während der Inferenz wesentlich zu erhöhen. Die Architektur beinhaltet hochmoderne Module wie E-ELAN.
  • Schwächen: Die Architektur und der Trainingsprozess können im Vergleich zu einfacheren Modellen wie YOLOv5 komplexer sein. Das Training größerer YOLOv7-Modelle erfordert zudem erhebliche Rechenressourcen, obwohl die Inferenz schnell bleibt.

Erfahren Sie mehr über YOLOv7

YOLOX: Ankerfreie Exzellenz

YOLOX, eingeführt von Megvii im Jahr 2021, zeichnet sich durch sein ankerfreies Design aus, das den Trainingsprozess vereinfacht und die Generalisierung verbessern soll. Durch den Verzicht auf vordefinierte Anchor-Boxen sagt YOLOX Objektpositionen direkt voraus und bietet so einen anderen Ansatz für die Objekterkennung.

Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation: Megvii
Datum: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Dokumente: https://yolox.readthedocs.io/en/latest/

Architektur und Hauptmerkmale

YOLOX verwendet mehrere wichtige architektonische Innovationen. Sein ankerfreier Ansatz macht Anker-Boxen überflüssig, was die Designkomplexität und die Rechenkosten reduziert. Dies macht es anpassungsfähiger an verschiedene Objektgrößen und -seitenverhältnisse, was potenziell die Leistung auf verschiedenen Datensätzen wie COCO verbessert. Es verwendet auch einen entkoppelten Head für Klassifizierung und Lokalisierung, was zu einer schnelleren Konvergenz und verbesserter Genauigkeit beiträgt. YOLOX verwendet starke Datenerweiterungs-Techniken wie MixUp und Mosaic sowie eine fortschrittliche Label-Zuweisungsstrategie namens SimOTA (Simplified Optimal Transport Assignment), um die Trainingseffizienz weiter zu verbessern.

Leistung und Anwendungsfälle

YOLOX erzielt ein gutes Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Seine anchor-freie Natur macht es besonders geeignet für Anwendungen, bei denen die Objektgrößen stark variieren. Es ist ein starker Anwärter für Aufgaben, die eine effiziente und genaue Erkennung erfordern, wie z. B. in der Robotik und bei Edge-KI-Bereitstellungen. Zum Beispiel kann YOLOX in der Fertigung für die Qualitätsprüfung eingesetzt werden, wobei seine Robustheit gegenüber verschiedenen Objektformen zur Fehlererkennung genutzt wird.

Stärken und Schwächen

  • Stärken: Das ankerfreie Design vereinfacht die Implementierung und die Trainingspipelines. Starke Datenerweiterung und der ankerfreie Ansatz verbessern die Generalisierung auf neue Datensätze. Der entkoppelte Head und die ankerfreie Natur tragen zu einer effizienten Inferenz bei.
  • Schwächen: Obwohl effizient, ist es möglicherweise nicht das schnellste unter allen YOLO-Modellen, insbesondere im Vergleich zu optimierten Versionen von YOLOv7 oder neueren Ultralytics-Modellen wie YOLOv8. Darüber hinaus ist es nicht Teil des integrierten Ultralytics-Ökosystems, wodurch möglicherweise eine nahtlose Integration mit Tools wie Ultralytics HUB fehlt.

Erfahren Sie mehr über YOLOX

Performance und Benchmarks: YOLOv7 vs. YOLOX

Im Vergleich der beiden Modelle erzielt YOLOv7 im Allgemeinen eine höhere Genauigkeit (mAP) für seine größeren Modelle und verschiebt den Stand der Technik für Echtzeitdetektoren zum Zeitpunkt seiner Veröffentlichung. YOLOX hingegen bietet eine größere Auswahl an skalierbaren Modellen, vom sehr kleinen YOLOX-Nano bis zum großen YOLOX-X. Das ankerfreie Design von YOLOX kann Vorteile in Bezug auf Einfachheit und Generalisierung bieten, während der "Bag-of-Freebies"-Ansatz von YOLOv7 die Genauigkeit maximiert, ohne den Inferenz-Overhead zu erhöhen.

Modell Größe
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Fazit und Empfehlung

Sowohl YOLOv7 als auch YOLOX sind leistungsstarke Objekterkennungsmodelle, die bedeutende Beiträge zum Bereich geleistet haben. YOLOv7 ist eine ausgezeichnete Wahl für Anwendungen, bei denen das Erreichen der höchstmöglichen Genauigkeit bei Echtzeitgeschwindigkeit das Hauptziel ist. YOLOX bietet eine überzeugende ankerfreie Alternative, die sich durch Generalisierung auszeichnet und eine hochskalierbare Familie von Modellen bietet, die für verschiedene Rechenbudgets geeignet sind.

Für Entwickler und Forscher, die das modernste, vielseitigste und benutzerfreundlichste Framework suchen, stellen neuere Ultralytics YOLO-Modelle wie YOLOv8 und Ultralytics YOLO11 oft eine überzeugendere Wahl dar. Diese Modelle bieten mehrere entscheidende Vorteile:

  • Benutzerfreundlichkeit: Eine optimierte Benutzererfahrung mit einer einfachen Python API, umfassender Dokumentation und unkomplizierten CLI-Befehlen.
  • Gut gepflegtes Ökosystem: Aktive Entwicklung, eine starke Open-Source-Community, häufige Updates und nahtlose Integration mit Tools wie Ultralytics HUB für durchgängige MLOps.
  • Vielseitigkeit: Unterstützung für mehrere Bildverarbeitungsaufgaben über die Objekterkennung hinaus, einschließlich Segmentierung, Klassifizierung, Pose-Schätzung und orientierte Objekterkennung (OBB).
  • Performance Balance: Ein ausgezeichneter Kompromiss zwischen Geschwindigkeit und Genauigkeit, geeignet für verschiedene reale Szenarien von Edge-Geräten bis zu Cloud-Servern.
  • Trainingseffizienz: Effiziente Trainingsprozesse, leicht verfügbare vortrainierte Gewichte und schnellere Konvergenzzeiten.

Andere Modelle entdecken

Für weitere Erkundungen sollten Sie diese Vergleiche mit YOLOv7, YOLOX und anderen relevanten Modellen in Betracht ziehen:



📅 Vor 1 Jahr erstellt ✏️ Vor 1 Monat aktualisiert

Kommentare