Zum Inhalt springen

YOLOv9 vs. YOLOv5: Ein detaillierter Vergleich

Diese Seite bietet einen technischen Vergleich zwischen zwei bedeutenden Objekterkennungsmodellen: YOLOv9 und Ultralytics YOLOv5. Beide Modelle sind Teil der einflussreichen YOLO-Serie (You Only Look Once), die für das Ausbalancieren von Geschwindigkeit und Genauigkeit bei der Echtzeit-Objekterkennung bekannt ist. Dieser Vergleich untersucht ihre architektonischen Unterschiede, Leistungskennzahlen und idealen Anwendungsfälle, um Ihnen bei der Auswahl des am besten geeigneten Modells für Ihre Computer-Vision-Projekte zu helfen.

YOLOv9: Verbesserung der Genauigkeit mit neuartiger Architektur

YOLOv9 wurde im Februar 2024 vorgestellt und bringt bedeutende architektonische Innovationen an die Spitze der Objekterkennung. Es zielt darauf ab, das Problem des Informationsverlusts in tiefen neuronalen Netzen zu lösen, eine kritische Herausforderung für das Training hochwirksamer Modelle.

Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Dokumentation: https://docs.ultralytics.com/models/yolov9/

Architektur und Innovationen

YOLOv9 stellt zwei bahnbrechende Konzepte vor, die in seinem Paper "YOLOv9: Lernen, was Sie lernen wollen, mit programmierbaren Gradienteninformationen" detailliert beschrieben werden:

  • Programmable Gradient Information (PGI): Dieser neuartige Ansatz wurde entwickelt, um das Problem des Informationsengpasses anzugehen, das auftritt, wenn Daten durch tiefe Netzwerkschichten fließen. PGI stellt sicher, dass vollständige Eingangsinformationen für die Berechnung der Verlustfunktion verfügbar sind, wodurch wichtige Daten für genauere Gradientenaktualisierungen und ein effektiveres Modelltraining erhalten bleiben.
  • Generalized Efficient Layer Aggregation Network (GELAN): YOLOv9 verfügt außerdem über GELAN, eine neue Netzwerkarchitektur, die für eine überlegene Parameternutzung und Recheneffizienz optimiert ist. Es baut auf den Prinzipien von CSPNet und ELAN auf, um eine Struktur zu schaffen, die eine höhere Genauigkeit mit weniger Parametern und Rechenkosten (FLOPs) erreicht.

Stärken

  • Verbesserte Genauigkeit: YOLOv9 setzt einen neuen State-of-the-Art auf dem COCO-Datensatz und übertrifft viele frühere Echtzeit-Objektdetektoren in der mittleren Average Precision (mAP).
  • Verbesserte Effizienz: Die Kombination aus PGI und GELAN führt zu Modellen, die nicht nur hochgenau, sondern auch recheneffizient sind, was sie für Aufgaben, bei denen Leistung entscheidend ist, leistungsstark macht.
  • Informationserhaltung: Durch die direkte Behebung des Informationsengpasses ermöglicht PGI das Training tieferer, komplexerer Netzwerke ohne die typische Leistungsminderung, was zu robusteren Modellen führt.

Schwächen

  • Trainingsressourcen: Wie in der YOLOv9-Dokumentation erwähnt, kann das Training von YOLOv9-Modellen ressourcenintensiver und zeitaufwändiger sein als das von etablierteren Modellen wie YOLOv5.
  • Neueres Ökosystem: Da es sich um ein neueres Modell einer anderen Forschungsgruppe handelt, sind sein Ökosystem, die Unterstützung durch die Community und die Integrationen von Drittanbietern weniger ausgereift als die des etablierten Ultralytics YOLOv5.
  • Aufgabenvielfalt: Das ursprüngliche YOLOv9 konzentriert sich hauptsächlich auf die Objekterkennung. Es fehlt die integrierte Unterstützung für andere Bildverarbeitungsaufgaben wie Instanzsegmentierung, Bildklassifizierung und Pose-Schätzung, die in Ultralytics-Modellen nativ unterstützt werden.

Anwendungsfälle

  • Anwendungen, die höchste Genauigkeit bei der Objekterkennung erfordern, wie z. B. fortschrittliche Videoanalysen und hochpräzise industrielle Inspektionen.
  • Szenarien, in denen die Berechnungseffizienz mit erstklassiger Leistung in Einklang gebracht werden muss, wie z. B. bei KI für das Verkehrsmanagement.
  • Forschung und Entwicklung im Bereich fortschrittlicher Computer Vision, bei der die Erforschung neuartiger Architekturen Priorität hat.

Erfahren Sie mehr über YOLOv9

Ultralytics YOLOv5: Der etablierte und vielseitige Standard

Ultralytics YOLOv5 wurde 2020 veröffentlicht und entwickelte sich aufgrund seines außergewöhnlichen Gleichgewichts zwischen Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit schnell zu einem Industriestandard. Es wurde vollständig in PyTorch entwickelt, kontinuierlich verfeinert und wird von einem robusten Ökosystem unterstützt.

Autor: Glenn Jocher
Organisation: Ultralytics
Datum: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Dokumentation: https://docs.ultralytics.com/models/yolov5/

Architektur und Funktionen

YOLOv5 verwendet eine bewährte Architektur mit einem CSPDarknet53-Backbone und einem PANet-Neck für eine effektive Feature-Aggregation. Sein ankerbasierter Erkennungs-Head ist hocheffizient. Das Modell ist in verschiedenen Größen (n, s, m, l, x) erhältlich, sodass Entwickler den perfekten Kompromiss zwischen Leistung und Ressourcenbeschränkungen wählen können.

Stärken

  • Außergewöhnliche Geschwindigkeit und Effizienz: YOLOv5 ist hochgradig für schnelle Inferenz optimiert und somit ideal für Echtzeitanwendungen auf einer Vielzahl von Hardware, von leistungsstarken GPUs bis hin zu ressourcenbeschränkten Edge-Geräten.
  • Benutzerfreundlichkeit: YOLOv5 ist bekannt für seine optimierte Benutzererfahrung und bietet einfache Python- und CLI-Schnittstellen sowie eine umfangreiche und übersichtliche Dokumentation.
  • Gut gepflegtes Ökosystem: YOLOv5 profitiert vom umfassenden Ultralytics-Ökosystem, das aktive Entwicklung, eine große und unterstützende Community auf Discord, häufige Updates und leistungsstarke Tools wie Ultralytics HUB für No-Code-Training und -Bereitstellung umfasst.
  • Performance Balance: Es erzielt einen guten Kompromiss zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit, wodurch es für eine Vielzahl von realen Einsatzszenarien geeignet ist.
  • Vielseitigkeit: Im Gegensatz zu vielen spezialisierten Modellen unterstützt YOLOv5 standardmäßig mehrere Aufgaben, darunter Objekterkennung, Instanzsegmentierung und Bildklassifizierung.
  • Trainingseffizienz: YOLOv5 bietet effiziente Trainingsprozesse, leicht verfügbare, vortrainierte Gewichte und einen im Allgemeinen geringeren Speicherbedarf im Vergleich zu vielen anderen Architekturen, insbesondere Transformer-basierten Modellen.

Schwächen

  • Höchste Genauigkeit: Obwohl es für seine Zeit sehr genau war, können neuere Modelle wie YOLOv9 höhere mAP-Werte auf Benchmarks wie COCO erzielen.
  • Anchor-Based Design: Es basiert auf vordefinierten Anchor-Boxen, die möglicherweise mehr Abstimmung für Datensätze mit ungewöhnlich geformten Objekten erfordern als moderne ankerfreie Ansätze.

Anwendungsfälle

Erfahren Sie mehr über YOLOv5

Performance und Benchmarks: YOLOv9 vs. YOLOv5

Der Performance-Vergleich zwischen YOLOv9 und YOLOv5 verdeutlicht die Fortschritte in der Modellarchitektur im Laufe der Jahre. YOLOv9-Modelle erzielen durchweg höhere mAP-Werte als ihre YOLOv5-Pendants, oft bei effizienterer Nutzung von Parametern und FLOPs am oberen Ende. Zum Beispiel erreicht YOLOv9-C 53,0 % mAP mit 25,3 Millionen Parametern und übertrifft damit YOLOv5x mit 50,7 % mAP und 86,7 Millionen Parametern.

YOLOv5 zeichnet sich jedoch durch seine Geschwindigkeit aus, insbesondere seine kleineren Varianten wie YOLOv5n und YOLOv5s, die extrem schnelle Inferenzzeiten sowohl auf der CPU als auch auf der GPU bieten und sie für viele Echtzeit-Edge-Anwendungen unschlagbar machen.

Modell Größe
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Fazit: Welches Modell sollten Sie wählen?

Die Wahl zwischen YOLOv9 und YOLOv5 hängt stark von den spezifischen Bedürfnissen Ihres Projekts ab.

  • YOLOv9 ist die bessere Wahl für Anwendungen, bei denen maximale Genauigkeit das Hauptziel ist und Sie über genügend Rechenressourcen für das Training verfügen. Seine innovative Architektur macht es ideal, um die Grenzen der Objekterkennungsleistung in spezialisierten Bereichen zu verschieben.

  • Ultralytics YOLOv5 bleibt die praktischere und vielseitigere Option für ein breiteres Anwendungsspektrum. Seine Hauptvorteile – Benutzerfreundlichkeit, Geschwindigkeit, Multi-Task-Unterstützung und ein ausgereiftes, gut unterstütztes Ökosystem – machen es zum Go-to-Modell für Entwickler, die schnell und effizient robuste, reale Lösungen erstellen müssen. Für Projekte, die den Einsatz auf Edge-Geräten oder ein ausgewogenes Verhältnis zwischen Geschwindigkeit und Genauigkeit erfordern, ist YOLOv5 oft die optimale Wahl.

Für diejenigen, die einen Mittelweg oder noch fortschrittlichere Funktionen suchen, bietet Ultralytics eine vollständige Suite von Modellen. Erwägen Sie die Erkundung von YOLOv8, das viele der Vorteile von YOLOv5 in Bezug auf die Benutzerfreundlichkeit mit einer ankerfreien Architektur und noch größerer Vielseitigkeit kombiniert, oder das neueste YOLO11 für eine hochmoderne Leistung innerhalb des Ultralytics-Ökosystems. Weitere Vergleiche finden Sie auf unserer Modellvergleichsseite.



📅 Vor 1 Jahr erstellt ✏️ Vor 1 Monat aktualisiert

Kommentare