YOLOv5 vs. YOLOv7: Gleichgewicht zwischen Ökosystem und Architektur
Die Wahl des richtigen Objekterkennungsmodells ist eine wichtige Entscheidung für Entwickler und Forscher gleichermaßen. In der Weiterentwicklung der YOLO (You Only Look Once) Familie, YOLOv5 und YOLOv7 als zentrale Architekturen hervor, die die Landschaft der Computer Vision geprägt haben. Während YOLOv7 bedeutende architektonische Innovationen für die Genauigkeit einführte, revolutionierte Ultralytics YOLOv5 die Erfahrung der Entwickler mit dem Schwerpunkt auf Benutzerfreundlichkeit, Bereitstellung und einem robusten Ökosystem.
Dieser Leitfaden bietet einen detaillierten technischen Vergleich dieser beiden Modelle, wobei ihre Architekturen, Leistungskennzahlen für den COCO und ihre Eignung für reale Anwendungen analysiert werden.
Ultralytics YOLOv5: Der technische Standard
Mit der Einführung von YOLOv5 im Jahr 2020 wurden die Erwartungen an Open-Source-Software zur Objekterkennung neu definiert. Im Gegensatz zu früheren Versionen, die in erster Linie als Forschungscode existierten, wurde YOLOv5 als produkttaugliches Framework entwickelt. Der Schwerpunkt lag dabei auf Benutzerfreundlichkeit, Exportierbarkeit und Geschwindigkeit, was es zur ersten Wahl für Unternehmen macht, die Echtzeit-Inferenzanwendungen entwickeln.
Autoren: Glenn Jocher
Organisation:Ultralytics
Datum: 26.06.2020
GitHubyolov5
Docsyolov5
Die wichtigsten Vorteile von YOLOv5
- Benutzerzentriertes Design: YOLOv5 führte eine optimierte API und einen nahtlosen Trainingsworkflow ein, der die Einstiegshürde für das Training von benutzerdefinierten Objekterkennungsmodellen senkt.
- Flexibilität bei der Bereitstellung: Durch die native Unterstützung von Exportmodi können YOLOv5 leicht in Formate wie ONNX, CoreML, TFLite, und TensorRT für den Einsatz auf unterschiedlicher Hardware.
- Effiziente Ressourcennutzung: Die Architektur ist für einen geringen Speicherverbrauch optimiert und damit ideal für Edge-KI-Geräte wie den NVIDIA Jetson oder den Raspberry Pi.
Unterstützung des Ökosystems
YOLOv5 wird durch das umfassende Ultralytics unterstützt. Dazu gehört die nahtlose Integration mit Experiment-Tracking-Tools wie Comet und MLflow sowie mit Plattformen zur Datensatzverwaltung.
YOLOv7: Der "Bag-of-Freebies"-Ansatz
YOLOv7 wurde 2022 veröffentlicht und konzentrierte sich stark darauf, die Grenzen der Genauigkeit durch architektonische Optimierung zu erweitern. Die Autoren führten mehrere neue Konzepte ein, die darauf abzielten, das Lernen von Merkmalen zu verbessern, ohne die Inferenzkosten zu erhöhen, eine Strategie, die sie "trainierbare Bag-of-Freebies" nannten.
Die Autoren: Chien-Yao Wang, Alexey Bochkovskiy, und Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Architektonische Innovationen
YOLOv7 enthält Extended Efficient Layer Aggregation Networks (E-ELAN), um die Lernfähigkeit des Netzes zu verbessern. Außerdem werden Modellskalierungstechniken eingesetzt, die die Tiefe und Breite der Architektur gleichzeitig verändern. Diese komplexen architektonischen Änderungen sind zwar wirksam, um die mAP zu erhöhen, erschweren aber manchmal die Änderung oder den Einsatz des Modells im Vergleich zum einfacheren CSP-Darknet-Backbone von YOLOv5.
Technischer Leistungsvergleich
Beim Vergleich der beiden Modelle liegt der Kompromiss in der Regel zwischen der reinen Genauigkeit und der praktischen Einsatzgeschwindigkeit. YOLOv7 (insbesondere die größeren Varianten) erreichen im Allgemeinen eine höhere mAP auf dem COCO val2017-Datensatz. Ultralytics YOLOv5 behält jedoch seine Dominanz bei der Inferenzgeschwindigkeit und Parametereffizienz, insbesondere bei den kleineren Varianten (Nano und Small), die für den mobilen Einsatz entscheidend sind.
Die folgende Tabelle zeigt die Leistungskennzahlen. Beachten Sie die außergewöhnliche Geschwindigkeit des YOLOv5n, der eine der schnellsten Optionen für extrem ressourcenbeschränkte Umgebungen bleibt.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Analyse der Metriken
- Geschwindigkeit vs. Genauigkeit: YOLOv7x erreicht eine höhere mAP von 53,1% und eignet sich damit für High-End-Sicherheits- oder medizinische Analysen, bei denen jedes Pixel zählt. Für Anwendungen wie Videoanalyse oder autonome Navigation bietet die 1,12 ms Inferenzzeit von YOLOv5n auf TensorRT jedoch eine Bildrate, die schwerere Modelle nicht erreichen können.
- Effiziente Ausbildung: Ultralytics YOLOv5 verwendet "AutoAnchor"-Strategien und eine fortschrittliche Hyperparameter-Evolution, die oft zu einer schnelleren Konvergenz während des Trainings im Vergleich zu den komplexen Neuparametrisierungsschemata von YOLOv7 führt.
- Speicherplatzbedarf: Für das Training von Transformern oder komplexen Architekturen wie YOLOv7 werden häufig High-End-GPUs (z. B. A100) benötigt. Im Gegensatz dazu ermöglicht das effiziente Design von YOLOv5 das Training auf verbraucherfreundlicher Hardware, wodurch der Zugang zur KI-Entwicklung demokratisiert wird.
Implementierung des Codes
Eines der stärksten Argumente für Ultralytics YOLOv5 ist die Einfachheit seiner Python . Das Laden eines vorab trainierten Modells und das Ausführen der Inferenz erfordert nur wenige Codezeilen - ein Beweis für die Reife des Frameworks.
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image (url, local path, or numpy array)
img = "https://ultralytics.com/images/zidane.jpg"
# Run inference
results = model(img)
# Print results and show the image with bounding boxes
results.print()
results.show()
Diese Abstraktionsebene ermöglicht es den Entwicklern, sich auf die Erstellung ihrer Geschäftslösungen zu konzentrieren, anstatt Modellarchitekturen zu debuggen.
Ideale Anwendungsfälle
Wann sollte man YOLOv7 wählen YOLOv7
YOLOv7 ist eine ausgezeichnete Wahl für die akademische Forschung und für Szenarien, in denen Hardware-Einschränkungen gegenüber der reinen Erkennungsleistung zweitrangig sind.
- Akademische Forschung: Zum Benchmarking der neuesten Erkennungstechniken.
- Hochpräzise Inspektion: Zum Beispiel bei der Qualitätskontrolle in der Fertigung, wo die Erkennung kleinster Defekte entscheidend ist und die Latenzzeit weniger wichtig ist.
Wann sollte man Ultralytics YOLOv5 wählenYOLOv5
YOLOv5 bleibt der Industriestandard für die schnelle Entwicklung und den Produktionseinsatz.
- Edge-Bereitstellung: Perfekt für die Ausführung auf iOS und Android über TFLite oder CoreML .
- Robotik: Die geringe Latenzzeit ist entscheidend für die in der autonomen Robotik erforderlichen Rückkopplungsschleifen.
- Vielseitigkeit: Neben der Erkennung unterstützt das YOLOv5 auch die Segmentierung von Instanzen und die Klassifizierung von Bildern und bietet damit eine einheitliche Codebasis für verschiedene Bildverarbeitungsaufgaben.
Schlussfolgerung: Der moderne Weg nach vorn
Während YOLOv7 die Leistungsfähigkeit der Architekturabstimmung demonstrierte, Ultralytics YOLOv5 bleibt die beste Wahl für Entwickler, die eine zuverlässige, gut dokumentierte und einfach zu implementierende Lösung benötigen. Seine Ausgewogenheit in Bezug auf Geschwindigkeit, Genauigkeit und Unterstützung durch das Ökosystem sorgt dafür, dass es in Produktionsumgebungen weltweit relevant bleibt.
Allerdings entwickelt sich der Bereich der Computer Vision rasant. Für diejenigen, die die absolut beste Leistung suchen, YOLO11 die neueste Entwicklung von Ultralytics. YOLO11 baut auf der Benutzerfreundlichkeit von YOLOv5 auf, enthält aber modernste Module auf Transformatorbasis und verankerungsfreie Designs, die sowohl YOLOv5 als auch YOLOv7 an Genauigkeit und Effizienz übertreffen.
Für eine zukunftssichere Lösung, die Objekterkennung, Pose Estimation und Oriented Bounding Boxes (OBB) unterstützt, wird die Umstellung auf das Ultralytics YOLO11 Framework dringend empfohlen.
Mehr Vergleiche entdecken
Erfahren Sie, wie andere Modelle im Vergleich zur Ultralytics YOLO abschneiden: