Zum Inhalt springen

YOLOv9 vs. YOLOv7: Ein tiefer Einblick in die Entwicklung der Objektdetektion

Die Landschaft der Computer Vision ist durch rasante Innovationen gekennzeichnet, bei denen architektonische Durchbrüche die Grenzen von Geschwindigkeit und Genauigkeit ständig neu definieren. Zwei wichtige Meilensteine auf diesem Weg sind YOLOv9 und YOLOv7. Beide Modelle gehen auf die Forschung von Chien-Yao Wang und Kollegen zurück und repräsentieren verschiedene Generationen der "You Only Look Once"-Familie.

Während YOLOv7 bei seiner Veröffentlichung im Jahr 2022 den Standard für Echtzeit-Objekterkennung setzte, YOLOv9 im Jahr 2024 mit neuen Mechanismen zur Bewältigung von Informationsverlusten in tiefen Netzen auf den Markt kam. In diesem Vergleich werden ihre technischen Spezifikationen, architektonischen Unterschiede und praktischen Anwendungen untersucht, um Entwicklern die Auswahl des optimalen Modells für ihre Bedürfnisse zu erleichtern.

Leistungsmetriken und Effizienz

Die Entwicklung von YOLOv7 zu YOLOv9 zeigt sich am deutlichsten in der Abwägung zwischen Rechenkosten und Erkennungsleistung. YOLOv9 führt erhebliche Effizienzgewinne ein, so dass im Vergleich zu seinem Vorgänger mit weniger Parametern eine höhere durchschnittliche Genauigkeit (mAP ) erreicht wird.

Das Modell YOLOv9m erreicht beispielsweise den gleichen mAPval von 51,4 % wie YOLOv7l, benötigt aber fast die Hälfte der Parameter (20,0M vs. 36,9M) und deutlich weniger FLOPs. Diese Effizienz macht YOLOv9 besonders attraktiv für Edge-KI-Anwendungen, bei denen die Hardware-Ressourcen begrenzt sind.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOv9: Programmierbare Steigungsinformationen

YOLOv9 stellt einen Paradigmenwechsel in der Art und Weise dar, wie tiefe neuronale Netze die Datenübertragung durch Schichten handhaben. Es wird Anfang 2024 veröffentlicht und zielt speziell auf das Problem des "Informationsengpasses" ab, bei dem Daten auf dem Weg durch die aufeinanderfolgenden Schichten eines tiefen Netzwerks verloren gehen.

Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica
Datum: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:Ultralytics YOLOv9

Architektonische Innovation

Die wichtigste Neuerung in YOLOv9 ist die Einführung von Programmable Gradient Information (PGI). PGI bietet einen zusätzlichen Überwachungsrahmen, der sicherstellt, dass die Gradienten zuverlässig zu den ersten Schichten zurückgeführt werden, wodurch wichtige Eingabeinformationen erhalten bleiben, die andernfalls bei der Merkmalsextraktion verloren gehen könnten.

Ergänzt wird PGI durch das Generalized Efficient Layer Aggregation Network (GELAN). Diese Architektur ermöglicht es Entwicklern, verschiedene Berechnungsblöcke (wie CSP oder ResBlocks) flexibel zu stapeln und die Modellgewichte für bestimmte Hardwarebeschränkungen zu optimieren, ohne die Genauigkeit zu beeinträchtigen.

Stärken und Schwächen

  • Stärken:
    • Überlegene Genauigkeit: Das Modell YOLOv9 erreicht im COCO mit 55,6 % mAP die besten Ergebnisse.
    • Parameter-Effizienz: Erzielt eine vergleichbare Leistung wie ältere Modelle mit deutlich weniger Parametern, was den Speicherbedarf während der Inferenz reduziert.
    • Bewahrung der Information: Theoretische Verbesserungen im Gradientenfluss führen zu einer besseren Konvergenz und Merkmalsdarstellung.
  • Schwächen:
    • Komplexität des Trainings: Die Hilfszweige, die während des Trainings verwendet (und für die Inferenz entfernt) werden, können den SpeicherverbrauchGPU während der Trainingsphase im Vergleich zu einfacheren Architekturen erhöhen.

Erfahren Sie mehr über YOLOv9

YOLOv7: Der "Bag-of-Freebies"-Standard

Vor YOLOv9, YOLOv7 war der amtierende Champion der YOLO . Es führte architektonische Verfeinerungen ein, die sich auf die Optimierung des Trainingsprozesses ohne Erhöhung der Inferenzkosten konzentrierten, ein Konzept, das als "Bag-of-Freebies" bekannt ist.

Die Autoren: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica
Datum: 2022-07-06
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7
Docs:Ultralytics YOLOv7

Architektonischer Überblick

YOLOv7 führte E-ELAN (Extended Efficient Layer Aggregation Network) ein, das die kürzesten und längsten Gradientenpfade kontrolliert, um die Lernfähigkeit des Netzes zu verbessern. Außerdem wurden Modellskalierungstechniken eingesetzt, die die Tiefe und Breite des Netzes gleichzeitig ändern und so eine optimale Architektur für verschiedene Zielgeräte gewährleisten.

Stärken und Schwächen

  • Stärken:
    • Bewährte Zuverlässigkeit: Die umfassende Nutzung durch die Community und die Validierung über mehrere Jahre hinweg machen es zu einer stabilen Wahl für Altsysteme.
    • Hohe Geschwindigkeit: Optimiert speziell für Echtzeit-Inferenz auf GPU .
  • Schwächen:
    • Geringerer Wirkungsgrad: Erfordert mehr Parameter und FLOPs, um das Genauigkeitsniveau neuerer Modelle wie YOLOv9 oder YOLO11 mit leichteren Architekturen erreichen können.
    • Älteres Tooling: Es fehlen einige der nativen Integrationen und benutzerfreundlichen Funktionen, die im modernen Ultralytics zu finden sind.

Erfahren Sie mehr über YOLOv7

Ideale Einsatzfälle und Anwendungen

Die Wahl zwischen diesen beiden Modellen hängt häufig von den spezifischen Zwängen der Einsatzumgebung und der erforderlichen Präzision der Aufgabe ab.

Wann sollte man YOLOv9 wählen YOLOv9

YOLOv9 eignet sich hervorragend für Szenarien, die ein Höchstmaß an Genauigkeit und Effizienz erfordern.

  • Autonome Navigation: Bei selbstfahrenden Autos ist die Erkennung kleiner Objekte auf große Entfernungen entscheidend. Die Fähigkeit von YOLOv9, Informationen zu speichern, hilft bei der Erkennung entfernter Gefahren.
  • Medizinische Bildgebung: Bei Aufgaben wie der Tumorerkennung, bei denen das Ausbleiben einer positiven Erkennung kritisch ist, sind die hohe Wiedererkennung und Genauigkeit von YOLOv9 von Vorteil.
  • Randgeräte: Die yolov9t Variante bietet eine robuste Lösung für IoT-Geräte wie Raspberry Pis, die eine gute Genauigkeit bei minimalem Rechenaufwand bieten.

Wann sollte man YOLOv7 wählen YOLOv7

YOLOv7 bleibt für bestehende Pipelines relevant, die bereits für seine Architektur optimiert sind.

  • Bestehende Systeme: Industrielle Fertigungslinien, die YOLOv7 für die Qualitätskontrolle validiert haben, ziehen es möglicherweise vor, die Konsistenz beizubehalten, anstatt sofort aufzurüsten.
  • Forschungsgrundlagen: Er dient als hervorragender Maßstab für den Vergleich neuer Erkennungsstrategien mit etablierten Standards in der akademischen Forschung.

Leistungsbilanz mit Ultralytics

YOLOv9 und YOLOv7 sind zwar sehr leistungsfähig, aber Entwickler, die das ultimative Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und Entwicklererfahrung suchen, sollten Folgendes in Betracht ziehen Ultralytics YOLO11. YOLO11 integriert die besten Funktionen der vorherigen Generationen mit einer optimierten API und unterstützt Erkennung, Segmentierung, Posenschätzung und Klassifizierung in einem einzigen Framework.

Der Ultralytics

Die Verwendung dieser Modelle innerhalb des Ultralytics bietet eindeutige Vorteile gegenüber der Verwendung von Forschungs-Rohdatenbeständen. DiePython Ultralytics abstrahiert komplexen Standardcode, sodass sich Forscher und Ingenieure auf Daten und Ergebnisse konzentrieren können.

  1. Einfacher Gebrauch: Eine einheitliche Schnittstelle ermöglicht den Wechsel zwischen YOLOv8, YOLOv9 und YOLO11 mit einer einzigen Zeile Code.
  2. Trainingseffizienz: Ultralytics sind für eine schnellere Konvergenz optimiert und benötigen oft weniger Trainingsdaten, um eine hohe Genauigkeit zu erreichen.
  3. Speicheranforderungen: Das Framework ist so konzipiert, dass es den CUDA minimiert und das Training größerer Stapelgrößen auf Consumer-Hardware im Vergleich zu speicherintensiven Transformer-Modellen ermöglicht.
  4. Vielseitigkeit: Das Ökosystem unterstützt nicht nur einfache Bounding Boxes, sondern auch Instanzsegmentierung, Posenschätzung und Oriented Bounding Box (OBB)-A ufgaben, was es zu einem umfassenden Werkzeug für verschiedene KI-Herausforderungen macht.

Beispiel für die Umsetzung

Die Ausführung dieser Modelle ist mit der Ultralytics ganz einfach. Das folgende Codeschnipsel zeigt, wie ein vorab trainiertes Modell geladen und die Inferenz auf ein Bild ausgeführt wird.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Run inference on a local image
results = model.predict("path/to/image.jpg", save=True, conf=0.5)

# Process results
for result in results:
    result.show()  # Display predictions

Für diejenigen, die an einem Training mit benutzerdefinierten Datensätzen interessiert sind, ist der Prozess ebenso einfach und nutzt die robuste Hyperparameter-Abstimmung und die in das Framework integrierten Strategien zur Datenerweiterung.

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Fazit

Sowohl YOLOv9 als auch YOLOv7 stellen bedeutende Errungenschaften auf dem Gebiet der Computer Vision dar. YOLOv9 ist der klare technische Nachfolger, der durch seine innovativen PGI- und GELAN-Architekturen eine überlegene Parametereffizienz und Genauigkeit bietet. Es ist die empfohlene Wahl für Benutzer, die eine hohe Leistung aus der spezifischen Forschungslinie von Wang et al. suchen.

Für Entwickler, die die ganzheitlichste KI-Entwicklungserfahrung suchen, Ultralytics YOLO11 weiterhin die beste Empfehlung. Mit aktiver Wartung, umfassender Dokumentation und breiter Unterstützung für multimodale Aufgaben sorgt YOLO11 dafür, dass Ihre Projekte zukunftssicher und produktionsreif sind.

Andere Modelle entdecken

Um Ihr Verständnis für die Landschaft der Objekterkennung weiter zu vertiefen, sollten Sie diese verwandten Modelle und Vergleiche in Betracht ziehen:

  • YOLO11 vs. YOLOv9 - Vergleichen Sie das neueste Ultralytics mit YOLOv9.
  • YOLOv8 vs. YOLOv7 - Sehen Sie, wie die vorherige Generation abschneidet.
  • RT-DETR vs. YOLOv9 - Ein Blick auf Transformator-basierte Erkennung gegenüber CNNs.
  • YOLOv10 - Entdecken Sie das Modell der durchgängigen Objekterkennung in Echtzeit.
  • Ultralytics HUB - Der einfachste Weg zum Trainieren und Bereitstellen Ihrer Modelle.

Kommentare