YOLOv5 vs YOLOv7: Abwägung zwischen Ökosystem und Architektur

Die Wahl des richtigen Objekterkennungsmodells ist eine entscheidende Entscheidung für Entwickler und Forscher gleichermaßen. In der Entwicklung der YOLO (You Only Look Once)-Familie stechen YOLOv5 und YOLOv7 als entscheidende Architekturen hervor, die die Landschaft der Computer-Vision geprägt haben. Während YOLOv7 signifikante architektonische Innovationen für die Genauigkeit einführte, revolutionierte Ultralytics YOLOv5 die Entwicklererfahrung mit einem Fokus auf Benutzerfreundlichkeit, Bereitstellung und ein robustes Ökosystem.

Dieser Leitfaden bietet einen detaillierten technischen Vergleich dieser beiden Modelle, wobei deren Architekturen, Leistungsmetriken auf dem COCO dataset und die Eignung für reale Anwendungen analysiert werden.

Ultralytics YOLOv5: Der Engineering-Standard

Im Jahr 2020 eingeführt, definierte YOLOv5 die Erwartungen an Open-Source-Objekterkennungssoftware neu. Im Gegensatz zu früheren Iterationen, die primär als Forschungscode existierten, wurde YOLOv5 als produktionsreifes Framework entwickelt. Es priorisierte Benutzerfreundlichkeit, Exportierbarkeit und Geschwindigkeit, was es zur bevorzugten Wahl für Unternehmen machte, die Echtzeit-Inferenz-Anwendungen entwickeln.

Autor: Glenn Jocher
Organisation:Ultralytics
Datum: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Dokumentation:https://docs.ultralytics.com/models/yolov5/

Hauptvorteile von YOLOv5

Benutzerzentriertes Design: YOLOv5 führte eine optimierte API und einen nahtlosen Trainings-Workflow ein, der die Einstiegshürde für das Training benutzerdefinierter Objekterkennungs-Modelle senkte.
Bereitstellungsflexibilität: Mit nativer Unterstützung für Exportmodi können YOLOv5-Modelle einfach in Formate wie ONNX, CoreML, TFLite und TensorRT für die Bereitstellung auf verschiedener Hardware konvertiert werden.
Effiziente Ressourcennutzung: Die Architektur ist für geringen Speicherverbrauch optimiert, was sie ideal für Edge-AI-Geräte wie den NVIDIA Jetson oder Raspberry Pi macht.

Ökosystemunterstützung

YOLOv5 wird durch das umfassende Ultralytics-Ökosystem gestützt. Dies umfasst die nahtlose Integration mit Experiment-Tracking-Tools wie Comet und MLflow sowie Plattformen für das Dataset-Management.

Erfahren Sie mehr über YOLOv5

YOLOv7: Der „Bag-of-Freebies“-Ansatz

Im Jahr 2022 veröffentlicht, konzentrierte sich YOLOv7 stark darauf, die Grenzen der Genauigkeit durch architektonische Optimierung zu erweitern. Die Autoren führten mehrere neuartige Konzepte ein, die darauf abzielten, das Feature Learning zu verbessern, ohne die Inferenzkosten zu erhöhen, eine Strategie, die sie als „trainierbare Bag-of-Freebies“ bezeichneten.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docs:https://docs.ultralytics.com/models/yolov7/

Architektonische Innovationen

YOLOv7 integriert Extended Efficient Layer Aggregation Networks (E-ELAN), um die Lernfähigkeit des Netzwerks zu verbessern. Es nutzt auch Modellskalierungstechniken, die die Tiefe und Breite der Architektur gleichzeitig modifizieren. Obwohl effektiv zur Erhöhung der mAP-Werte, können diese komplexen architektonischen Änderungen das Modell manchmal schwieriger modifizierbar oder einsetzbar machen, im Vergleich zum einfacheren CSP-Darknet-Backbone, das in YOLOv5 zu finden ist.

Erfahren Sie mehr über YOLOv7

Technischer Leistungsvergleich

Beim Vergleich der beiden Modelle liegt der Kompromiss üblicherweise zwischen Rohgenauigkeit und praktischer Bereitstellungsgeschwindigkeit. YOLOv7-Modelle (insbesondere die größeren Varianten) erreichen im Allgemeinen eine höhere mAP auf dem COCO val2017-Datensatz. Ultralytics YOLOv5 behält jedoch eine Dominanz bei der Inferenzgeschwindigkeit und Parametereffizienz bei, insbesondere mit seinen kleineren Varianten (Nano und Small), die für die mobile Bereitstellung entscheidend sind.

Die folgende Tabelle hebt die Leistungsmetriken hervor. Beachten Sie die außergewöhnliche Geschwindigkeit des YOLOv5n, das eine der schnellsten Optionen für extrem ressourcenbeschränkte Umgebungen bleibt.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Analyse der Metriken

Geschwindigkeit vs. Genauigkeit: YOLOv7x erreicht einen höheren mAP von 53,1 %, was es für hochrangige Sicherheits- oder medizinische Analysen geeignet macht, bei denen jedes Pixel zählt. Für Anwendungen wie Videoanalysen oder autonome Navigation bietet die Inferenzzeit von 1,12 ms von YOLOv5n auf TensorRT jedoch eine Bildratenkapazität, die schwerere Modelle nicht erreichen können.
Trainingseffizienz: Ultralytics YOLOv5 nutzt „AutoAnchor“-Strategien und fortschrittliche Hyperparameter-Evolution, was oft zu einer schnelleren Konvergenz während des Trainings führt, verglichen mit den komplexen Re-Parametrisierungsschemata, die von YOLOv7 benötigt werden.
Speicherbedarf: Das Training von Transformern oder komplexen Architekturen wie YOLOv7 erfordert oft High-End-GPUs (z. B. A100s). Im Gegensatz dazu ermöglicht das effiziente Design von YOLOv5 das Training auf Consumer-Hardware, was den Zugang zur KI-Entwicklung demokratisiert.

Code-Implementierung

Eines der stärksten Argumente für Ultralytics YOLOv5 ist die Einfachheit seiner Python-API. Das Laden eines vortrainierten Modells und die Durchführung der Inferenz erfordert nur wenige Codezeilen, ein Beweis für die Reife des Frameworks.

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image (url, local path, or numpy array)
img = "https://ultralytics.com/images/zidane.jpg"

# Run inference
results = model(img)

# Print results and show the image with bounding boxes
results.print()
results.show()

Diese Abstraktionsebene ermöglicht es Entwicklern, sich auf die Entwicklung ihrer Geschäftslösungen zu konzentrieren, anstatt Modellarchitekturen zu debuggen.

Ideale Anwendungsfälle

Wann YOLOv7 wählen?

YOLOv7 ist eine ausgezeichnete Wahl für die akademische Forschung und Szenarien, in denen Hardwarebeschränkungen gegenüber der reinen detect-Leistung zweitrangig sind.

Akademische Forschung: Für das Benchmarking modernster Detektionstechniken.
Hochpräzise Inspektion: Wie z.B. die Qualitätskontrolle in der Fertigung, wo die Erkennung kleinster Defekte entscheidend ist und Latenz eine geringere Rolle spielt.

Wann Ultralytics YOLOv5 wählen?

YOLOv5 bleibt der Industriestandard für schnelle Entwicklung und Produktionsbereitstellung.

Edge Deployment: Perfekt für die Ausführung auf iOS- und Android-Geräten über TFLite- oder CoreML-Exporte.
Robotik: Ihre geringe Latenz ist entscheidend für die Rückkopplungsschleifen, die in der autonomen Robotik erforderlich sind.
Vielseitigkeit: Über die Objekterkennung hinaus unterstützt das YOLOv5-Repository Instanzsegmentierung und Bildklassifizierung und bietet eine vereinheitlichte Codebasis für verschiedene Computer-Vision-Aufgaben.

Fazit: Der moderne Weg in die Zukunft

Während YOLOv7 die Leistungsfähigkeit architektonischer Feinabstimmung demonstrierte, bleibt Ultralytics YOLOv5 die überlegene Wahl für Entwickler, die eine zuverlässige, gut dokumentierte und einfach bereitzustellende Lösung benötigen. Seine Balance aus Geschwindigkeit, Genauigkeit und Ökosystem-Support stellt sicher, dass es in Produktionsumgebungen weltweit relevant bleibt.

Der Bereich der Computer Vision entwickelt sich jedoch rasant. Für diejenigen, die die absolut beste Leistung suchen, stellt YOLO11 die neueste Evolution von Ultralytics dar. YOLO11 baut auf der Benutzerfreundlichkeit von YOLOv5 auf, integriert jedoch hochmoderne transformatorbasierte Module und ankerfreie Designs, die sowohl YOLOv5 als auch YOLOv7 in Genauigkeit und Effizienz übertreffen.

Für eine zukunftssichere Lösung, die Objekterkennung, Pose Estimation und Oriented Bounding Boxes (OBB) unterstützt, wird die Migration zum Ultralytics YOLO11 Framework dringend empfohlen.

Weitere Vergleiche entdecken

Erfahren Sie, wie andere Modelle im Vergleich zur Ultralytics YOLO-Familie abschneiden: