Zum Inhalt springen

YOLOv7 vs YOLOv5: Ein detaillierter technischer Vergleich

Die Wahl der richtigen Objekterkennungsarchitektur ist eine entscheidende Entscheidung, die Geschwindigkeit, Genauigkeit und die Machbarkeit der Bereitstellung Ihrer Computer-Vision-Projekte beeinflusst. Diese Seite bietet einen umfassenden technischen Vergleich zwischen YOLOv7 und Ultralytics YOLOv5, zwei einflussreichen Modellen aus der YOLO-Linie. Wir gehen auf ihre architektonischen Innovationen, Leistungsbenchmarks und idealen Anwendungsfälle ein, um Ihnen bei der Auswahl der besten Lösung für Ihre Anwendung zu helfen.

Während YOLOv7 im Jahr 2022 bedeutende akademische Fortschritte einführte, bleibt Ultralytics YOLOv5 aufgrund seiner unübertroffenen Benutzerfreundlichkeit, Robustheit und Bereitstellungsflexibilität eine dominierende Kraft in der Branche. Für diejenigen, die das absolut Neueste an Leistung suchen, untersuchen wir auch, wie diese Modelle den Weg für das hochmoderne Ultralytics YOLO11 ebnen.

Vergleich von Leistungsmetriken

Die folgende Tabelle hebt die Leistungskompromisse zwischen den beiden Architekturen hervor. Während YOLOv7 auf eine höhere Mean Average Precision (mAP) abzielt, bietet YOLOv5 deutliche Vorteile bei der Inferenzgeschwindigkeit und geringeren Parameteranzahlen für bestimmte Modellgrößen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOv7: Die Grenzen der Genauigkeit erweitern

Im Juli 2022 veröffentlicht, wurde YOLOv7 entwickelt, um einen neuen Stand der Technik für Echtzeit-Objektdetektoren zu setzen. Es konzentriert sich stark auf architektonische Optimierung, um die Genauigkeit zu verbessern, ohne die Inferenzkosten signifikant zu erhöhen.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docs:https://docs.ultralytics.com/models/yolov7/

Architektur und wichtige Innovationen

YOLOv7 führt mehrere komplexe architektonische Änderungen ein, die darauf abzielen, das Feature-Lernen zu verbessern:

  • E-ELAN (Extended Efficient Layer Aggregation Network): Eine fortschrittliche Backbone-Struktur, die die Lernfähigkeit des Netzwerks durch die Steuerung der kürzesten und längsten Gradientenpfade verbessert. Dies ermöglicht es dem Modell, vielfältigere Merkmale zu lernen.
  • Modellskalierung für auf Konkatenation basierende Modelle: Im Gegensatz zur Standardskalierung skaliert YOLOv7 Tiefe und Breite gleichzeitig für auf Konkatenation basierende Architekturen, um eine optimale Ressourcennutzung zu gewährleisten.
  • Trainierbare Bag-of-Freebies: Dazu gehören geplante re-parametrisierte Faltung (RepConv) und das Training von Hilfs-Heads. Die Hilfs-Heads generieren hierarchische Labels von grob bis fein, die den Lernprozess während des Trainings leiten, aber während der Inferenz entfernt werden, um die Geschwindigkeit zu erhalten.

Was ist ein 'Bag of Freebies'?

"Bag of Freebies" bezieht sich auf eine Sammlung von Trainingsmethoden und Datenerweiterungstechniken, die die Genauigkeit eines Objektdetektionsmodells verbessern, ohne die Inferenzkosten zu erhöhen. In YOLOv7 umfasst dies ausgefeilte Strategien wie Coarse-to-Fine Lead Guided Label Assignment.

Ideale Anwendungsfälle für YOLOv7

Aufgrund seines Fokus auf hohe Genauigkeit ist YOLOv7 besonders gut geeignet für:

  • Akademische Forschung: Benchmarking gegenüber SOTA-Modellen, bei denen jede Fraktion von mAP zählt.
  • High-End GPU-Bereitstellung: Anwendungen, bei denen leistungsstarke Hardware (wie NVIDIA A100s) verfügbar ist, um die größeren Modellgrößen und Speicheranforderungen zu bewältigen.
  • Statische Analyse: Szenarien, in denen Echtzeit-Latenz weniger kritisch ist als Präzision, wie die Analyse hochauflösender Satellitenbilder oder medizinischer Scans.

Erfahren Sie mehr über YOLOv7

Ultralytics YOLOv5: Der Industriestandard

Ultralytics YOLOv5 gilt weithin als eines der praktischsten und benutzerfreundlichsten verfügbaren Objekterkennungsmodelle. Seit seiner Veröffentlichung im Jahr 2020 ist es aufgrund seines Gleichgewichts aus Geschwindigkeit, Präzision und technischer Exzellenz zum Rückgrat unzähliger kommerzieller Anwendungen geworden.

Autor: Glenn Jocher
Organisation:Ultralytics
Datum: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Dokumentation:https://docs.ultralytics.com/models/yolov5/

Architektur und Ökosystemnutzen

YOLOv5 verwendet ein CSP-Darknet53-Backbone mit einem PANet-Neck und einem YOLOv3-Head, optimiert für diverse Bereitstellungsziele. Seine wahre Stärke liegt jedoch im Ultralytics-Ökosystem:

  • Benutzerfreundlichkeit: Bekannt für seine „Install-and-Run“-Philosophie, ermöglicht YOLOv5 Entwicklern, innerhalb weniger Minuten mit dem Training auf benutzerdefinierten Datensätzen zu beginnen. Die API ist intuitiv und die Dokumentation ist umfassend.
  • Trainingseffizienz: YOLOv5 benötigt während des Trainings typischerweise weniger CUDA-Speicher im Vergleich zu neueren, komplexeren Architekturen, was es für Entwickler mit Mid-Range-GPUs zugänglich macht.
  • Bereitstellungsflexibilität: Es unterstützt den Ein-Klick-Export nach ONNX, TensorRT, CoreML, TFLite und mehr, was die Bereitstellung auf allem von Cloud-Servern bis hin zu Mobiltelefonen erleichtert.
  • Gut gepflegtes Ökosystem: Mit häufigen Updates, Fehlerbehebungen und einer riesigen Community stellt Ultralytics sicher, dass das Modell für Produktionsumgebungen stabil und sicher bleibt.

Ideale Anwendungsfälle für YOLOv5

YOLOv5 zeichnet sich in realen Szenarien aus, die Zuverlässigkeit und Geschwindigkeit erfordern:

  • Edge-KI: Ausführung auf Geräten wie dem NVIDIA Jetson oder Raspberry Pi aufgrund des leichtgewichtigen Nano (yolov5n) und Small (yolov5s) Varianten.
  • Mobile Anwendungen: Integration in iOS- und Android-Apps über CoreML und TFLite für die Inferenz auf dem Gerät.
  • Schnelles Prototyping: Startups und Entwickler, die schnell vom Konzept zum MVP gelangen müssen, profitieren vom optimierten Workflow.
  • Industrieautomation: Zuverlässige detect für Fertigungslinien, wo Latenz und Stabilität von größter Bedeutung sind.

Erfahren Sie mehr über YOLOv5

Detaillierte Vergleichsanalyse

Bei der Entscheidung zwischen YOLOv7 und YOLOv5 spielen mehrere technische Faktoren eine Rolle, die über den reinen mAP-Wert hinausgehen.

1. Kompromiss zwischen Geschwindigkeit und Genauigkeit

YOLOv7 erreicht eine höhere Spitzenpräzision auf dem COCO-Datensatz. Zum Beispiel erreicht YOLOv7x 53,1 % mAP im Vergleich zu YOLOv5x' 50,7 %. Dies geht jedoch zulasten der Komplexität. YOLOv5 bietet eine sanftere Abstufung von Modellen; das YOLOv5n (Nano)-Modell ist unglaublich schnell (73,6 ms CPU-Geschwindigkeit) und leichtgewichtig (2,6 Mio. Parameter), wodurch es eine Nische für Umgebungen mit extrem geringen Ressourcen schafft, die YOLOv7 in dieser Granularität nicht explizit anspricht.

2. Architektur und Komplexität

YOLOv7 verwendet eine konkatenationsbasierte Architektur mit E-ELAN, was die während des Trainings benötigte Speicherbandbreite erhöht. Dies kann das Training langsamer und speicherintensiver machen als bei YOLOv5. Im Gegensatz dazu nutzt Ultralytics YOLOv5 eine optimierte Architektur, die stark auf Trainingseffizienz ausgelegt ist, was eine schnellere Konvergenz und einen geringeren Speicherverbrauch ermöglicht – ein erheblicher Vorteil für Ingenieure mit begrenzten Rechenbudgets.

3. Benutzerfreundlichkeit und Entwicklererfahrung

Hier glänzt Ultralytics YOLOv5 wirklich. Das Ultralytics-Framework bietet eine einheitliche Erfahrung mit robusten Tools für Datenaugmentation, Hyperparameter-Evolution und Experiment-track.

import torch

# Example: Loading YOLOv5s from PyTorch Hub for inference
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Während YOLOv7 über ein Repository verfügt, fehlt es an den ausgereiften, produktionsreifen CI/CD-Pipelines, den umfassenden Integrationsleitfäden und dem Community-Support, die das Ultralytics-Ökosystem unterstützen.

4. Vielseitigkeit

Obwohl beide Modelle primär Objekterkennungs-Architekturen sind, hat sich das Ultralytics-Ökosystem um YOLOv5 entwickelt, um Instanzsegmentierung und Bildklassifizierung nahtlos zu unterstützen. YOLOv7 unterstützt diese Aufgaben ebenfalls, erfordert jedoch oft unterschiedliche Branches oder Forks des Codes, während Ultralytics einen einheitlicheren Ansatz bietet.

Einfache Bereitstellung

Ultralytics Modelle unterstützen eine Vielzahl von Exportformaten von Haus aus. Sie können Ihr trainiertes Modell einfach in TFLite für Android, CoreML für iOS oder TensorRT für optimierte GPU-Inferenz mithilfe eines einfachen CLI-Befehls oder Python-Skripts konvertieren.

Fazit: Welches Modell sollten Sie wählen?

Die Wahl zwischen YOLOv7 und YOLOv5 hängt von Ihren Projektprioritäten ab:

  • Wählen Sie YOLOv7, wenn Ihre primäre Einschränkung die maximale Genauigkeit ist und Sie in einer Forschungsumgebung oder auf High-End-Hardware arbeiten, wo Inferenzgeschwindigkeit und Speicherbedarf zweitrangige Anliegen sind.
  • Wählen Sie Ultralytics YOLOv5, wenn Sie eine zuverlässige, produktionsreife Lösung benötigen. Seine Benutzerfreundlichkeit, effizientes Training, geringe Latenz auf Edge-Geräten und ein massives Support-Ökosystem machen es zur überlegenen Wahl für die meisten kommerziellen Anwendungen und Entwickler, die ihre Computer-Vision-Reise beginnen.

Blick in die Zukunft: YOLO11

Während YOLOv5 und YOLOv7 exzellente Modelle sind, entwickelt sich das Feld der Computer Vision rasant weiter. Für Entwickler, die das Beste aus beiden Welten – die Genauigkeit von YOLOv7 und die Geschwindigkeit/Benutzerfreundlichkeit von YOLOv5 übertreffen – empfehlen wir dringend, Ultralytics YOLO11 zu erkunden.

YOLO11 stellt die neueste Evolution dar, mit einer ankerfreien Architektur, die die Trainingspipeline vereinfacht und die Leistung bei allen Aufgaben verbessert, einschließlich detect, segment, Pose-Schätzung und Oriented Bounding Boxes (OBB).

Andere Modelle entdecken

Wenn Sie daran interessiert sind, andere Modelle der YOLO-Familie zu vergleichen, sehen Sie sich diese verwandten Seiten an:


Kommentare