YOLOv7 vs. YOLOv9: Ein detaillierter technischer Vergleich
Bei der Auswahl eines YOLO-Modells für die Objekterkennung ist es entscheidend, die Unterschiede zwischen den verschiedenen Versionen zu verstehen. Diese Seite bietet einen detaillierten technischen Vergleich zwischen YOLOv7 und YOLOv9, zwei bedeutenden Modellen der YOLO-Serie, die von Forschern am Institute of Information Science, Academia Sinica, Taiwan, entwickelt wurden. Wir werden ihre architektonischen Innovationen, Performance-Benchmarks und Eignung für verschiedene Anwendungen untersuchen, um Sie bei einer fundierten Entscheidung für Ihr nächstes Computer Vision-Projekt zu unterstützen.
YOLOv7: Effiziente und schnelle Objektdetektion
YOLOv7 wurde im Juli 2022 veröffentlicht und war ein bahnbrechendes Modell, das darauf abzielte, sowohl die Geschwindigkeit als auch die Genauigkeit für die Echtzeit-Objekterkennung deutlich zu optimieren und damals neue Maßstäbe für die Effizienz zu setzen.
Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Dokumentation: https://docs.ultralytics.com/models/yolov7/
Architektur und Hauptmerkmale
Die Designphilosophie von YOLOv7 konzentriert sich auf die Maximierung der Inferenzgeschwindigkeit, ohne die Genauigkeit zu beeinträchtigen. Es wurden mehrere wichtige Architekturelemente und Trainingsstrategien eingeführt, um dieses Gleichgewicht zu erreichen:
- Extended Efficient Layer Aggregation Network (E-ELAN): Diese Kernkomponente des Backbones verbessert die Lernfähigkeit des Netzwerks, indem sie die Feature-Aggregation effizienter verwaltet. Wie im Forschungsbericht detailliert beschrieben, ermöglicht sie dem Modell, robustere Merkmale ohne eine wesentliche Erhöhung der Rechenkosten zu erlernen.
- Compound Model Scaling: YOLOv7 führte Compound-Skalierungsmethoden für Modelltiefe und -breite ein, die eine effektive Optimierung über eine Reihe von Modellgrößen hinweg ermöglichen, um verschiedenen Rechenbudgets gerecht zu werden.
- Trainable Bag-of-Freebies: Dieses Konzept beinhaltet die Integration verschiedener Optimierungstechniken während des Trainingsprozesses, wie z.B. fortgeschrittene Datenerweiterung und Label-Zuweisungsstrategien. Diese Methoden verbessern die Genauigkeit des finalen Modells, ohne den Inferenz-Kosten Overhead hinzuzufügen.
Stärken und Schwächen
Stärken
- Hohe Inferenzgeschwindigkeit: Optimiert für Echtzeitanwendungen, bietet YOLOv7 in bestimmten Hardware- und Batchgrößenkonfigurationen oft eine schnellere Inferenz als viele nachfolgende Modelle.
- Starke Leistung: Es erzielt wettbewerbsfähige mAP-Werte und ist somit eine zuverlässige und leistungsstarke Wahl für viele Erkennungsaufgaben.
- Eingeführtes Modell: Da YOLOv7 schon seit einiger Zeit verfügbar ist, profitiert es von einer breiteren Akzeptanz, umfangreichen Community-Ressourcen und zahlreichen bewährten Bereitstellungsbeispielen.
Schwächen
- Geringere Spitzen-Genauigkeit: Im Vergleich zum neueren YOLOv9 kann YOLOv7 eine etwas geringere maximale Genauigkeit aufweisen, insbesondere in komplexen Szenarien mit vielen kleinen oder überlappenden Objekten.
- Anchor-Based Detection: Es basiert auf vordefinierten Anchor-Boxen, die manchmal weniger flexibel sein können als ankerfreie Ansätze, um Objekte mit ungewöhnlichen oder stark unterschiedlichen Seitenverhältnissen zu erkennen.
Anwendungsfälle
YOLOv7 eignet sich hervorragend für Anwendungen, bei denen die Inferenzgeschwindigkeit der wichtigste Faktor ist:
- Echtzeit-Videoanalyse- und Überwachungssysteme.
- Edge AI Bereitstellungen auf ressourcenbeschränkten Geräten, wie sie beispielsweise in der Robotik und bei Drohnen zu finden sind.
- Schnelles Prototyping und Entwicklung von Objekterkennungssystemen, bei denen eine schnelle Umsetzung entscheidend ist.
YOLOv9: Programmierbare Gradienteninformationen für erhöhte Genauigkeit
Das im Februar 2024 eingeführte YOLOv9 stellt eine bedeutende architektonische Weiterentwicklung dar, da es das Problem des Informationsverlusts in tiefen neuronalen Netzen direkt angeht, was zu erheblichen Genauigkeitssteigerungen führt.
Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Dokumentation: https://docs.ultralytics.com/models/yolov9/
Architektur und Hauptmerkmale
YOLOv9 führt neuartige Konzepte ein, die entwickelt wurden, um den Informationsfluss durch das Netzwerk zu verbessern, was zu effektiverem Lernen und höherer Genauigkeit führt.
- Programmable Gradient Information (PGI): Dies ist die grundlegende Innovation von YOLOv9. PGI behebt das Problem des Informationsengpasses, das tiefen Netzwerken innewohnt, indem es zuverlässige Gradienten durch reversible Hilfszweige erzeugt. Dies stellt sicher, dass wichtige Informationen für Aktualisierungen in tieferen Schichten erhalten bleiben, wodurch der Verlust wichtiger Details verhindert wird, die für eine genaue Erkennung erforderlich sind.
- Generalized Efficient Layer Aggregation Network (GELAN): Aufbauend auf den Erfolgen von Architekturen wie CSPNet (verwendet in YOLOv5) ist GELAN eine neue, hocheffiziente Netzwerkarchitektur. Sie optimiert die Parameternutzung und die Recheneffizienz, wodurch YOLOv9 mit weniger Ressourcen eine bessere Leistung erzielen kann.
Stärken und Schwächen
Stärken
- Verbesserte Genauigkeit: Die Kombination aus PGI und GELAN führt zu einer überlegenen Merkmalsextraktion und deutlich höheren mAP-Werten im Vergleich zu YOLOv7, was besonders bei den größeren Modellvarianten deutlich wird.
- Verbesserte Effizienz: YOLOv9 erzielt eine bessere Genauigkeit mit weniger Parametern und Berechnungen als frühere Modelle. Für ein gegebenes Genauigkeitsniveau ist YOLOv9 oft effizienter als YOLOv7.
- Modernste Innovationen: Es stellt die neuesten Fortschritte aus der ursprünglichen YOLO-Forschungslinie dar und verschiebt die Grenzen dessen, was in der Echtzeit-Objekterkennung möglich ist.
Schwächen
- Rechenaufwand: Obwohl die fortschrittliche Architektur für ihre Genauigkeit effizient ist, kann sie, insbesondere in größeren Varianten wie YOLOv9e, immer noch erhebliche Rechenressourcen für das Training und die Bereitstellung erfordern.
- Neueres Modell: Da es sich um eine neuere Version handelt, ist die Unterstützung durch die Community und die Bereitstellungs-Tutorials von Drittanbietern möglicherweise weniger umfangreich als bei einem etablierten Modell wie YOLOv7. Die Integration in das Ultralytics-Ökosystem trägt jedoch dazu bei, dies durch die Bereitstellung einer optimierten Benutzererfahrung zu mildern.
Anwendungsfälle
YOLOv9 ist die ideale Wahl für Anwendungen, die höchste Genauigkeit und Effizienz erfordern:
- Komplexe Erkennungsaufgaben in autonomen Fahrzeugen und fortschrittlichen Fahrerassistenzsystemen.
- Hochpräzise Sicherheitssysteme, die die Minimierung von falsch positiven und falsch negativen Ergebnissen erfordern.
- Anwendungen, bei denen die Modellgröße und die Rechenkosten entscheidende Einschränkungen darstellen, aber keine Kompromisse bei der hohen Genauigkeit eingegangen werden dürfen.
Direkter Performance- und Effizienzvergleich
Beim direkten Vergleich von YOLOv7 und YOLOv9 zeigt sich ein klarer Trend: YOLOv9 bietet einen besseren Kompromiss zwischen Genauigkeit und Rechenkosten. So erzielt beispielsweise das YOLOv9m-Modell die gleiche mAP von 51,4 % wie YOLOv7l, jedoch mit fast der Hälfte der Parameter (20,0M vs. 36,9M) und weniger FLOPs. In ähnlicher Weise liefert YOLOv9c eine mit YOLOv7x vergleichbare Leistung (53,0 % vs. 53,1 % mAP), ist aber deutlich effizienter und verwendet nur 25,3M Parameter im Vergleich zu den 71,3M von YOLOv7x. Dieser Effizienzgewinn ist ein direktes Ergebnis der architektonischen Verbesserungen in YOLOv9, insbesondere PGI und GELAN, die ein effektiveres Lernen ermöglichen.
Modell | Größe (Pixel) |
mAPval 50-95 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4 TensorRT10 (ms) |
Parameter (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv9t | 640 | 38.3 | - | 2.30 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Fazit und Empfehlungen
Sowohl YOLOv7 als auch YOLOv9 sind beeindruckende Modelle zur Objekterkennung, die jedoch leicht unterschiedliche Prioritäten setzen.
-
YOLOv7 bleibt ein starker Konkurrent, insbesondere für Anwendungen, bei denen die reine Inferenzgeschwindigkeit von größter Bedeutung ist und eine etablierte, breit unterstützte Architektur bevorzugt wird. Es ist ein bewährtes Arbeitstier für viele Echtzeitsysteme.
-
YOLOv9 ist der klare Nachfolger und die empfohlene Wahl für neue Projekte, die modernste Genauigkeit und Effizienz erfordern. Seine innovative Architektur löst Schlüsselprobleme im Deep Learning und führt zu einem Modell, das sowohl genauer als auch recheneffizienter ist als sein Vorgänger.
Obwohl beide Modelle exzellent sind, sollten Entwickler, die eine stärker integrierte und vielseitige Lösung suchen, auch Modelle aus dem Ultralytics-Ökosystem in Betracht ziehen, wie z. B. Ultralytics YOLOv8 und das neueste YOLO11. Diese Modelle bieten eine optimierte Benutzererfahrung, eine umfangreiche Dokumentation und Unterstützung für eine Vielzahl von Aufgaben, die über die Erkennung hinausgehen, einschliesslich Instanzsegmentierung, Pose-Schätzung und Klassifizierung, alles innerhalb eines einzigen, gut gepflegten Frameworks.
Andere Modelle entdecken
Für weitere Vergleiche und zur Erkundung anderer hochmoderner Modelle, sehen Sie sich diese anderen Seiten in der Ultralytics-Dokumentation an:
- YOLOv5: Bekannt für sein ausgewogenes Verhältnis von Leistung und breiter Akzeptanz.
- YOLOv8: Ein vielseitiges und leistungsstarkes Modell, das mehrere Bildverarbeitungsaufgaben unterstützt.
- YOLOv10: Konzentriert sich auf die End-to-End-Objekterkennung in Echtzeit, indem die Notwendigkeit von NMS eliminiert wird.
- YOLO11: Das neueste hochmoderne Modell von Ultralytics, das erstklassige Leistung und Effizienz bietet.
- RT-DETR: Ein auf Transformer basierender Detektor, der einen anderen architektonischen Ansatz bietet.