YOLOv7 vs. YOLOv5: Ein detaillierter technischer Vergleich
Die Wahl der richtigen Architektur für die Objekterkennung ist eine wichtige Entscheidung, die sich auf die Geschwindigkeit, die Genauigkeit und die Durchführbarkeit Ihrer Computer-Vision-Projekte auswirkt. Diese Seite bietet einen umfassenden technischen Vergleich zwischen YOLOv7 und Ultralytics YOLOv5, zwei einflussreichen Modellen der YOLO . Wir gehen auf ihre architektonischen Innovationen, Leistungsbenchmarks und idealen Anwendungsfälle ein, um Ihnen bei der Auswahl der besten Lösung für Ihre Anwendung zu helfen.
Während YOLOv7 im Jahr 2022 bedeutende akademische Fortschritte brachte, Ultralytics YOLOv5 aufgrund seiner unvergleichlichen Benutzerfreundlichkeit, Robustheit und Einsatzflexibilität weiterhin eine dominierende Kraft in der Branche. Für diejenigen, die das Allerneueste in Sachen Leistung suchen, untersuchen wir auch, wie diese Modelle den Weg für die hochmodernen Ultralytics YOLO11.
Vergleich der Leistungsmetriken
Die folgende Tabelle verdeutlicht die Leistungsunterschiede zwischen den beiden Architekturen. Während YOLOv7 auf eine höhere durchschnittliche Genauigkeit (mAP) abzielt, bietet YOLOv5 deutliche Vorteile bei der Inferenzgeschwindigkeit und einer geringeren Anzahl von Parametern für bestimmte Modellgrößen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
YOLOv7: Die Grenzen der Genauigkeit überschreiten
Das im Juli 2022 veröffentlichte YOLOv7 wurde entwickelt, um einen neuen Stand der Technik für Echtzeit-Objektdetektoren zu erreichen. Es konzentriert sich stark auf architektonische Optimierungen, um die Genauigkeit zu verbessern, ohne die Inferenzkosten signifikant zu erhöhen.
Autoren: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Architektur und wichtige Innovationen
YOLOv7 führt mehrere komplexe architektonische Änderungen ein, um das Lernen von Merkmalen zu verbessern:
- E-ELAN (Extended Efficient Layer Aggregation Network): Eine erweiterte Backbone-Struktur, die die Lernfähigkeit des Netzes durch die Kontrolle der kürzesten und längsten Gradientenpfade verbessert. Dadurch kann das Modell mehr verschiedene Merkmale lernen.
- Modellskalierung für verkettungsbasierte Modelle: Im Gegensatz zur Standard-Skalierung skaliert YOLOv7 bei verkettungsbasierten Architekturen Tiefe und Breite gleichzeitig und gewährleistet so eine optimale Ressourcennutzung.
- Trainierbare Bag-of-Freebies: Dazu gehören die geplante reparametrisierte Faltung (RepConv) und das Training von Hilfsköpfen. Die Hilfsköpfe erzeugen grob- bis feinhierarchische Beschriftungen, die den Lernprozess während des Trainings unterstützen, aber während der Inferenz entfernt werden, um die Geschwindigkeit zu erhalten.
Was ist eine "Tüte mit Werbegeschenken"?
"Bag of Freebies" bezieht sich auf eine Sammlung von Trainingsmethoden und Techniken zur Datenerweiterung, die die Genauigkeit eines Objekterkennungsmodells verbessern, ohne die Inferenzkosten zu erhöhen. In YOLOv7 gehören dazu ausgefeilte Strategien wie die Grob-zu-Fein-Zuweisung von Lead Guided Label Assignment.
Ideale Anwendungsfälle für YOLOv7
Aufgrund seines Schwerpunkts auf hoher Genauigkeit ist YOLOv7 besonders gut geeignet für:
- Akademische Forschung: Benchmarking mit SOTA-Modellen, bei denen es auf jeden Bruchteil eines mAP ankommt.
- GPU : Anwendungen, bei denen leistungsstarke Hardware (wie NVIDIA A100s) zur Verfügung steht, um die größeren Modellgrößen und Speicheranforderungen zu bewältigen.
- Statische Analyse: Szenarien, bei denen die Echtzeitlatenz weniger wichtig ist als die Präzision, wie z. B. bei der Analyse von hochauflösenden Satellitenbildern oder medizinischen Scans.
Ultralytics YOLOv5: Der Industriestandard
Ultralytics YOLOv5 gilt weithin als eines der praktischsten und benutzerfreundlichsten Modelle zur Objekterkennung auf dem Markt. Seit seiner Veröffentlichung im Jahr 2020 hat es sich aufgrund seiner Ausgewogenheit von Geschwindigkeit, Genauigkeit und technischer Exzellenz zum Rückgrat unzähliger kommerzieller Anwendungen entwickelt.
Autoren: Glenn Jocher
Organisation:Ultralytics
Datum: 26.06.2020
GitHubyolov5
Docsyolov5
Architektur und Ökosystemvorteile
YOLOv5 nutzt einen CSP-Darknet53-Backbone mit einem PANet-Hals und einem YOLOv3-Kopf, der für verschiedene Einsatzziele optimiert ist. Seine wahre Stärke liegt jedoch im Ultralytics :
- Benutzerfreundlichkeit: YOLOv5 ist bekannt für seine "Installieren und Ausführen"-Philosophie und ermöglicht es Entwicklern, innerhalb weniger Minuten mit dem Training auf benutzerdefinierten Datensätzen zu beginnen. Die API ist intuitiv, und die Dokumentation ist umfassend.
- Effizientes Training: YOLOv5 benötigt in der Regel weniger CUDA während des Trainings im Vergleich zu neueren, komplexeren Architekturen, was es für Entwickler mit Mittelklasse-GPUs zugänglich macht.
- Flexibilität bei der Bereitstellung: Es unterstützt den Export mit einem Mausklick nach ONNX, TensorRT, CoreML, TFLite und mehr, was den Einsatz auf Cloud-Servern und Mobiltelefonen erleichtert.
- Gut gewartetes Ökosystem: Mit häufigen Aktualisierungen, Fehlerkorrekturen und einer großen Gemeinschaft stellt Ultralytics sicher, dass das Modell stabil und sicher für Produktionsumgebungen bleibt.
Ideale Anwendungsfälle für YOLOv5
YOLOv5 zeichnet sich in realen Szenarien aus, die Zuverlässigkeit und Geschwindigkeit erfordern:
- Edge AI: Auf Geräten wie dem NVIDIA Jetson oder Raspberry Pi aufgrund des leichten Nano (
yolov5n) und Klein (yolov5s) Varianten. - Mobile Anwendungen: Integration in iOS und Android über CoreML und TFLite für geräteinterne Inferenz.
- Schnelles Prototyping: Startups und Entwickler, die schnell von einem Konzept zu einem MVP kommen müssen, profitieren von dem optimierten Workflow.
- Industrielle Automatisierung: Zuverlässige Erkennung für Fertigungsstraßen, bei denen Latenz und Stabilität von größter Bedeutung sind.
Detaillierte vergleichende Analyse
Bei der Entscheidung zwischen YOLOv7 und YOLOv5 spielen neben dem mAP mehrere technische Faktoren eine Rolle.
1. Abwägung Geschwindigkeit vs. Genauigkeit
YOLOv7 erreicht eine höhere Spitzengenauigkeit auf dem COCO . So erreicht YOLOv7x beispielsweise 53,1 % mAP im Vergleich zu 50,7 % bei YOLOv5x. Dies geht jedoch auf Kosten der Komplexität. YOLOv5 bietet eine sanftere Abstufung der Modelle; das YOLOv5n (Nano)-Modell ist unglaublich schnell (73,6 ms CPU ) und leichtgewichtig (2,6 Mio. Parameter), wodurch eine Nische für Umgebungen mit sehr geringen Ressourcen geschaffen wird, auf die YOLOv7 nicht explizit mit der gleichen Granularität abzielt.
2. Architektur und Komplexität
YOLOv7 verwendet eine auf Verkettung basierende Architektur mit E-ELAN, die die beim Training benötigte Speicherbandbreite erhöht. Dies kann dazu führen, dass es langsamer trainiert und mehr Speicher benötigt als YOLOv5. Im Gegensatz dazu verwendet Ultralytics YOLOv5 eine schlanke Architektur, die in hohem Maße für die Trainingseffizienz optimiert ist, was eine schnellere Konvergenz und eine geringere Speichernutzung ermöglicht, was für Ingenieure mit begrenzten Rechenbudgets einen erheblichen Vorteil darstellt.
3. Benutzerfreundlichkeit und Erfahrung der Entwickler
Dies ist der Punkt, an dem Ultralytics YOLOv5 wirklich glänzt. Das Ultralytics bietet eine einheitliche Erfahrung mit robusten Werkzeugen für Datenerweiterung, Hyperparameterentwicklung und Experimentverfolgung.
import torch
# Example: Loading YOLOv5s from PyTorch Hub for inference
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Print results
results.print()
YOLOv7 verfügt zwar über ein Repository, aber es fehlen die ausgefeilten, produktionsbereiten CI/CD-Pipelines, die umfangreichen Integrationsleitfäden und die Unterstützung der Community, die das Ultralytics unterstützen.
4. Vielseitigkeit
Während es sich bei beiden Modellen in erster Linie um Architekturen zur Objekterkennung handelt, hat sich das Ultralytics rund um YOLOv5 weiterentwickelt, um Instanzsegmentierung und Bildklassifizierung nahtlos zu unterstützen. YOLOv7 unterstützt diese Aufgaben ebenfalls, erfordert aber oft verschiedene Zweige oder Forks des Codes, während Ultralytics einen einheitlicheren Ansatz bietet.
Bereitstellung leicht gemacht
Ultralytics unterstützen von Haus aus eine Vielzahl von Exportformaten. Sie können Ihr trainiertes Modell einfach konvertieren in TFLite für Android konvertieren, CoreML für iOS oder TensorRT für optimierte GPU mit einem einfachen CLI oder Python .
Fazit: Welches Modell sollten Sie wählen?
Die Entscheidung zwischen YOLOv7 und YOLOv5 hängt von Ihren Projektprioritäten ab:
- Entscheiden Sie sich für YOLOv7, wenn Ihre wichtigste Anforderung die maximale Genauigkeit ist und Sie in einer Forschungsumgebung oder auf High-End-Hardware arbeiten, wo die Geschwindigkeit der Schlussfolgerungen und der Speicherbedarf zweitrangig sind.
- Wählen Sie Ultralytics YOLOv5, wenn Sie eine zuverlässige, produktionsreife Lösung benötigen. Seine Benutzerfreundlichkeit, sein effizientes Training, seine geringe Latenz bei Edge-Geräten und sein umfangreiches Support-Ökosystem machen es zur ersten Wahl für die meisten kommerziellen Anwendungen und Entwickler, die mit der Computer Vision beginnen.
Ein Blick in die Zukunft: YOLO11
YOLOv5 und YOLOv7 sind zwar hervorragende Modelle, aber das Feld der Computer Vision entwickelt sich schnell weiter. Entwicklern, die das Beste aus beiden Welten suchen - die Genauigkeit von YOLOv7 und die Geschwindigkeit/Benutzbarkeit von YOLOv5empfehlen wir dringend, sich mit Ultralytics YOLO11.
YOLO11 ist die neueste Entwicklung mit einer verankerungsfreien Architektur, die die Trainingspipeline vereinfacht und die Leistung bei allen Aufgaben verbessert, einschließlich Erkennung, Segmentierung, Posenschätzung und orientierte Bounding Boxes (OBB).
Andere Modelle entdecken
Wenn Sie daran interessiert sind, andere Modelle der YOLO zu vergleichen, sehen Sie sich die entsprechenden Seiten an: