Modellvergleich: YOLOv9 vs. YOLOv8 für Objekterkennung
Die Wahl des richtigen Objekterkennungsmodells ist eine kritische Entscheidung, die ein ausgewogenes Verhältnis zwischen Genauigkeit, Geschwindigkeit und Rechenressourcen erfordert. Diese Seite bietet einen detaillierten technischen Vergleich zwischen Ultralytics YOLOv8, einem vielseitigen und benutzerfreundlichen Modell, und YOLOv9, einem Modell, das für seine neuartigen architektonischen Fortschritte bekannt ist. Wir werden ihre Architekturen, Leistungskennzahlen und idealen Anwendungsfälle analysieren, um Ihnen bei der Entscheidung zu helfen, welches Modell am besten für Ihre Computer-Vision-Projekte geeignet ist.
YOLOv9: Verbesserung der Genauigkeit mit neuartiger Architektur
YOLOv9 wurde als bedeutender Fortschritt in der Objekterkennung vorgestellt, wobei der Schwerpunkt hauptsächlich auf der Überwindung von Informationsverlusten in tiefen neuronalen Netzen liegt, um die Genauigkeit zu erhöhen.
- Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organisation: Institute of Information Science, Academia Sinica, Taiwan
- Datum: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Docs: https://docs.ultralytics.com/models/yolov9/
Architektur und wichtige Innovationen
YOLOv9 führt zwei wichtige Innovationen ein: Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN). PGI wurde entwickelt, um vollständige Eingangsinformationen für die Berechnung der Verlustfunktion bereitzustellen, was dazu beiträgt, das Problem des Informationsengpasses zu mindern und sicherzustellen, dass zuverlässigere Gradienten für Netzwerkaktualisierungen generiert werden. GELAN ist eine neuartige, hocheffiziente Netzwerkarchitektur, die die Parameternutzung und die Recheneffizienz optimiert. Zusammen ermöglichen diese Funktionen YOLOv9, eine hohe Genauigkeit zu erzielen und oft neue State-of-the-Art-Benchmarks auf Datensätzen wie COCO zu setzen.
Stärken
- Modernste Genauigkeit: YOLOv9-Modelle, insbesondere die größeren Varianten, erzielen erstklassige mAP-Werte und verschieben die Grenzen der Echtzeit-Objekterkennungsgenauigkeit.
- Hohe Effizienz: Die GELAN-Architektur ermöglicht es YOLOv9, eine hohe Leistung mit weniger Parametern und Rechenanforderungen (FLOPs) im Vergleich zu einigen anderen Modellen mit ähnlicher Genauigkeit zu erzielen.
- Informationserhaltung: PGI behebt effektiv das Problem des Informationsverlusts in tiefen Netzwerken, was für das Training sehr tiefer und genauer Modelle entscheidend ist.
Schwächen
- Ökosystem und Benutzerfreundlichkeit: Als Modell aus einem Forschungs-Repository fehlt YOLOv9 das ausgereifte, produktionsreife Ökosystem, das Ultralytics bietet. Der Trainingsprozess kann komplexer sein, und der Community-Support und die Integrationen von Drittanbietern sind weniger ausgereift.
- Aufgabenvielfalt: Die ursprüngliche YOLOv9-Implementierung konzentriert sich hauptsächlich auf die Objekterkennung. Es bietet keine integrierte, einheitliche Unterstützung für andere Bildverarbeitungsaufgaben wie Segmentierung, Pose-Schätzung oder Klassifizierung, die in Ultralytics-Modellen Standard ist.
- Trainingsressourcen: Das Training von YOLOv9 kann ressourcenintensiver und zeitaufwändiger sein als die optimierten Prozesse, die Ultralytics YOLOv8 bietet.
Ultralytics YOLOv8: Vielseitigkeit und Benutzerfreundlichkeit
Ultralytics YOLOv8 ist ein hochmodernes Modell, das von Ultralytics entwickelt wurde und für sein außergewöhnliches Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und vor allem für seine Benutzerfreundlichkeit und Vielseitigkeit bekannt ist. Es ist als umfassendes Framework für das Trainieren, Validieren und Bereitstellen von Modellen für eine Vielzahl von Vision-KI-Aufgaben konzipiert.
- Autoren: Glenn Jocher, Ayush Chaurasia, Jing Qiu
- Organisation: Ultralytics
- Datum: 2023-01-10
- GitHub: https://github.com/ultralytics/ultralytics
- Docs: https://docs.ultralytics.com/models/yolov8/
Architektur und Hauptmerkmale
YOLOv8 baut auf den Erfolgen früherer YOLO-Versionen mit bedeutenden architektonischen Verfeinerungen auf, darunter ein neuer ankerfreier Erkennungskopf und ein modifiziertes C2f-Backbone (CSP mit 2 Faltungen). Dieses Design verbessert nicht nur die Leistung, sondern vereinfacht auch das Modell und seine Nachbearbeitungsschritte. Die wahre Stärke von YOLOv8 liegt jedoch in seinem ganzheitlichen Ökosystem.
Stärken
- Außergewöhnliches Leistungsverhältnis: YOLOv8 bietet einen fantastischen Kompromiss zwischen Geschwindigkeit und Genauigkeit und eignet sich daher hervorragend für eine Vielzahl realer Anwendungen, von ressourcenbeschränkten Edge-Geräten bis hin zu hochleistungsfähigen Cloud-Servern.
- Unmatched Versatility: YOLOv8 ist ein echtes Multi-Tasking-Framework. Es unterstützt Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und orientierte Begrenzungsrahmen (OBB) innerhalb eines einzigen, einheitlichen Frameworks. Diese Vielseitigkeit ist ein großer Vorteil gegenüber spezialisierteren Modellen wie YOLOv9.
- Benutzerfreundlichkeit: Ultralytics hat einer optimierten Benutzererfahrung Priorität eingeräumt. Mit einer einfachen Python API und CLI, einer umfangreichen Dokumentation und einer Fülle von Tutorials können Entwickler in wenigen Minuten loslegen.
- Gut gepflegtes Ökosystem: YOLOv8 wird durch die aktive Entwicklung von Ultralytics, eine starke Open-Source-Community, häufige Updates und die nahtlose Integration mit Ultralytics HUB für No-Code-Training und MLOps-Workflows unterstützt.
- Trainingseffizienz: Der Trainingsprozess ist hocheffizient, mit leicht verfügbaren vortrainierten Gewichten und geringeren Speicheranforderungen im Vergleich zu vielen anderen Architekturen, insbesondere auf Transformer-basierenden Modellen.
- Bereit für die Bereitstellung: YOLOv8 ist für eine einfache Bereitstellung mit integrierter Exportunterstützung für verschiedene Formate wie ONNX, TensorRT und OpenVINO konzipiert, was den Weg zur Produktion vereinfacht.
Schwächen
- Höchste Genauigkeit: Obwohl die größten YOLOv9-Modelle extrem genau sind, können sie bei einer reinen Objekterkennungsaufgabe einen etwas höheren mAP-Wert auf dem COCO-Benchmark erzielen. Dies geht jedoch oft auf Kosten der Vielseitigkeit und Benutzerfreundlichkeit.
Direkter Leistungsvergleich: Genauigkeit und Geschwindigkeit
Beim Vergleich der Leistung ist es wichtig, das Gesamtbild zu betrachten, einschließlich Genauigkeit (mAP), Inferenzgeschwindigkeit, Modellgröße (Parameter) und Rechenkosten (FLOPs).
Modell | Größe (Pixel) |
mAPval 50-95 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4 TensorRT10 (ms) |
Parameter (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Aus der Tabelle können wir ersehen, dass YOLOv9-E die höchste mAP erreicht. YOLOv8-Modelle demonstrieren jedoch überlegene Inferenzgeschwindigkeiten, insbesondere die kleineren Varianten wie YOLOv8n, was für Echtzeitanwendungen entscheidend ist. YOLOv8 bietet ein umfassenderes und praxisgerechteres Leistungsprofil über verschiedene Hardware hinweg, mit gut dokumentierten Geschwindigkeits-Benchmarks, die für die Produktionsplanung unerlässlich sind.
Fazit: Welches Modell sollten Sie wählen?
Die Wahl zwischen YOLOv9 und YOLOv8 hängt stark von den Prioritäten Ihres Projekts ab.
Wählen Sie YOLOv9, wenn:
- Ihr primäres und einziges Ziel ist es, die absolut maximale Objekterkennungsgenauigkeit auf Benchmarks wie COCO zu erreichen.
- Sie arbeiten in einem Forschungskontext, in dem die Erforschung neuartiger Architekturen wie PGI und GELAN das Hauptziel ist.
- Sie verfügen über erhebliche Rechenressourcen und Fachwissen, um einen komplexeren Trainings- und Bereitstellungs-Workflow zu verwalten.
Wählen Sie Ultralytics YOLOv8, wenn:
- Sie benötigen ein robustes, zuverlässiges und einfach zu bedienendes Modell für eine Vielzahl von Anwendungen.
- Ihr Projekt erfordert mehr als nur Objekterkennung, wie z. B. Instanzsegmentierung, Pose-Schätzung oder Klassifizierung. Die Vielseitigkeit von YOLOv8 spart immense Entwicklungszeit.
- Sie priorisieren einen schnellen und effizienten Workflow, vom Training bis zur Bereitstellung. Das Ultralytics-Ökosystem wurde entwickelt, um Sie schneller in die Produktion zu bringen.
- Sie benötigen ein Modell, das ein ausgezeichnetes Gleichgewicht zwischen Geschwindigkeit und Genauigkeit bietet und sowohl für Edge- als auch für Cloud-Bereitstellungen geeignet ist.
- Sie legen Wert auf eine starke Community-Unterstützung, kontinuierliche Updates und eine umfassende Dokumentation.
Für die überwiegende Mehrheit der Entwickler, Forscher und Unternehmen ist Ultralytics YOLOv8 die empfohlene Wahl. Seine Kombination aus starker Leistung, unglaublicher Vielseitigkeit und einem benutzerfreundlichen, gut unterstützten Ökosystem macht es zu einem praktischeren und leistungsstärkeren Werkzeug für die Entwicklung realer Computer Vision-Lösungen.
Wenn Sie andere Modelle in Betracht ziehen, könnten Sie auch an Ultralytics YOLOv5 interessiert sein, das für seine Stabilität und breite Akzeptanz bekannt ist, oder an RT-DETR, einer alternativen, auf Transformatoren basierenden Architektur. Weitere Vergleiche finden Sie auf unserer Modellvergleichsseite.