Zum Inhalt springen

YOLOv7 YOLOv9: Die Entwicklung der Echtzeit-Objekterkennung

Die Landschaft der Computervision hat eine rasante Entwicklung erlebt, wobei die YOLO You Only Look Once) bei der Echtzeit-Objekterkennung stets eine Vorreiterrolle eingenommen hat. Zwei bedeutende Meilensteine in dieser Entwicklung sind YOLOv7, veröffentlicht im Juli 2022, und YOLOv9, das im Februar 2024 veröffentlicht wurde. Beide Architekturen wurden von Forschern des Instituts für Informationswissenschaft der Academia Sinica entwickelt, repräsentieren jedoch unterschiedliche Generationen der Deep-Learning-Optimierung.

Dieser Leitfaden enthält einen technischen Vergleich dieser beiden leistungsstarken Modelle und analysiert ihre architektonischen Innovationen, Leistungskennzahlen und idealen Anwendungsfälle innerhalb des Ultralytics .

Architektonische Innovationen

Der wesentliche Unterschied zwischen diesen Modellen liegt darin, wie sie die Merkmalsausbreitung und den Gradientenfluss durch tiefe Netzwerke verwalten.

YOLOv7: Die Tasche voller Gratisgeschenke

Verfasst von Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao, YOLOv7 das E-ELAN (Extended Efficient Layer Aggregation Network) eingeführt. Diese Architektur ermöglicht es dem Netzwerk, vielfältigere Merkmale zu lernen, indem es die kürzesten und längsten Gradientenpfade steuert.

YOLOv7 bekannt für sein „Bag-of-Freebies” – eine Sammlung von Trainingsmethoden, die die Genauigkeit verbessern, ohne die Inferenzkosten zu erhöhen. Dazu gehören Reparametrisierungstechniken und Hilfs-Head-Supervision, die dem Modell helfen, während des Trainings bessere Darstellungen zu lernen, aber während des Modellexports für eine schnellere Bereitstellung zusammengeführt oder entfernt werden.

Erfahren Sie mehr über YOLOv7

YOLOv9: Programmierbare Gradienteninformation

YOLOv9, entwickelt von Chien-Yao Wang und Hong-Yuan Mark Liao, befasst sich mit dem Problem des „Informationsengpasses”, das tiefen Netzwerken innewohnt. Während Daten aufeinanderfolgende Schichten durchlaufen, gehen häufig Eingabeinformationen verloren. YOLOv9 zwei bahnbrechende Konzepte YOLOv9 , die in ihrer Arxiv-Veröffentlichung detailliert beschrieben werden:

  1. GELAN (Generalized Efficient Layer Aggregation Network): Eine Architektur, die die Stärken von CSPNet und ELAN kombiniert, um die Parametereffizienz zu maximieren.
  2. PGI (Programmable Gradient Information): Ein zusätzliches Überwachungsframework, das zuverlässige Gradienten für die Aktualisierung der Netzwerkgewichte generiert und sicherstellt, dass das Modell wichtige Informationen über die gesamte Tiefe des Netzwerks hinweg beibehält.

Erfahren Sie mehr über YOLOv9

Leistungsanalyse

Bei der Auswahl zwischen verschiedenen Architekturen müssen Entwickler einen Kompromiss zwischen der mittleren durchschnittlichen Genauigkeit (mAP), der Inferenzgeschwindigkeit und den Rechenkosten (FLOPs) finden. Die folgende Tabelle zeigt die Leistungsunterschiede beim COCO .

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Wichtige Erkenntnisse

  • Effizienz: YOLOv9m erreicht die gleiche Genauigkeit (51,4 % mAP) wie YOLOv7l, jedoch mit fast 45 % weniger Parametern (20,0 Mio. gegenüber 36,9 Mio.) und deutlich geringeren FLOPs.
  • Geschwindigkeit: Für Echtzeitanwendungen, bei denen jede Millisekunde zählt, bietet YOLOv9t unglaubliche Geschwindigkeiten (2,3 ms auf T4 TensorRT), die für Edge-Geräte geeignet sind.
  • Genauigkeit:YOLOv9e erweitert die Grenzen der Erkennungsgenauigkeit und erreicht mAP von 55,6 %, wodurch es sich besonders für Aufgaben eignet, die eine hohe Präzision erfordern.

Der Vorteil des Ultralytics-Ökosystems

Unabhängig davon, ob Sie sich für YOLOv7 YOLOv9 entscheiden, bietet die Verwendung über das Ultralytics Python eine einheitliche und optimierte Erfahrung.

Benutzerfreundlichkeit und Schulung

Ultralytics die komplexen Trainingsschleifen, die in rohen PyTorch zu finden sind. Entwickler können durch Ändern eines einzigen String-Arguments zwischen Architekturen wechseln, was die Hyperparameter-Optimierung und das Experimentieren vereinfacht.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model (or substitute with "yolov7.pt")
model = YOLO("yolov9c.pt")

# Train on the COCO8 dataset with efficient memory management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

Speicher- und Ressourcenverwaltung

Ein wesentlicher Vorteil der Ultralytics ist die optimierte Speichernutzung. Im Gegensatz zu vielen Transformer-basierten Modellen (wie DETR-Varianten) oder älteren zweistufigen Detektoren sindYOLO Ultralytics so konzipiert, dass sie CUDA minimieren. Dadurch können Forscher größere Batch-Größen auf handelsüblichen GPUs verwenden, was den Zugang zu High-End-Modelltrainings demokratisiert.

Integrierte Datenverwaltung

Ultralytics automatisch das Herunterladen und Formatieren von Datensätzen. Sie können sofort mit dem Training beginnen, indem Sie Standarddatensätze wie COCO8 oder Objects365 beginnen, ohne komplexe Datenlader schreiben zu müssen.

Anwendungen in der realen Welt

Wann man YOLOv7 wählen sollte

YOLOv7 eine robuste Wahl für Systeme, bei denen die Kompatibilität mit älteren Versionen entscheidend ist.

  • Etablierte Pipelines: Projekte, die bereits in die C++-Export-Pipelines der Generation 2022 integriert sind, können möglicherweise leichter bei YOLOv7 bleiben.
  • Allgemeine Erkennung: Bei Standard-Videoanalysen, bei denen die absolut niedrigste Parameteranzahl nicht die primäre Einschränkung darstellt, liefert YOLOv7 hervorragende Ergebnisse.

Wann man YOLOv9 wählen sollte

YOLOv9 aufgrund seiner überlegenen Parametereffizienz generell für neue Implementierungen empfohlen.

  • Edge Computing: Dank der geringen Anforderungen von GELAN eignet sich YOLOv9 für eingebettete Systeme und mobile Anwendungen, bei denen Speicherplatz und Rechenleistung begrenzt sind.
  • Medizinische Bildgebung: Die PGI-Architektur trägt dazu bei, detaillierte Informationen zu bewahren, was für die Erkennung kleiner Anomalien in medizinischen Scans von entscheidender Bedeutung ist.
  • Luftüberwachung: Die verbesserte Merkmalserhaltung hilft bei der Erkennung kleiner Objekte wie Fahrzeuge oder Vieh auf Drohnenbildern aus großer Höhe.

Die nächste Generation: YOLO26

YOLOv7 YOLOv9 zwar hervorragende Modelle, doch der Bereich der KI entwickelt sich in Richtung noch größerer Einfachheit und Geschwindigkeit. Hier kommt YOLO26 ins Spiel, die neueste Version von Ultralytics , die im Januar 2026 Ultralytics .

YOLO26 stellt mit seinem End-to-End-Design NMS einen Paradigmenwechsel dar. Durch den Verzicht auf Non-Maximum Suppression (NMS) beseitigt YOLO26 einen wesentlichen Engpass in Inferenz-Pipelines und vereinfacht die Bereitstellung auf TensorRT und ONNX.

  • MuSGD-Optimierer: Inspiriert von Innovationen im Bereich des LLM-Trainings (wie Moonshot AI's Kimi K2) nutzt YOLO26 den MuSGD-Optimierer für eine schnellere Konvergenz und größere Stabilität.
  • Edge-Optimierung: Durch die Entfernung von Distribution Focal Loss (DFL) und optimierte Verlustfunktionen wie ProgLoss + STAL läuft YOLO26 auf CPUs bis zu 43 % schneller und ist damit die erste Wahl für Edge-KI.
  • Vielseitigkeit: Im Gegensatz zu früheren Modellen, die möglicherweise nur für bestimmte Erkennungsaufgaben geeignet waren, unterstützt YOLO26 von Haus aus Posenschätzung, Segmentierung und Oriented Bounding Boxes (OBB).

Erfahren Sie mehr über YOLO26

Fazit

Sowohl YOLOv7 YOLOv9 wesentlich zur Weiterentwicklung der Bildverarbeitung beigetragen. YOLOv7 2022 hohe Maßstäbe in Bezug auf Geschwindigkeit und Genauigkeit, während YOLOv9 2024 neuartige architektonische Änderungen YOLOv9 , um den Gradientenfluss und die Parametereffizienz zu verbessern.

Für Entwickler tendiert die Wahl heute in der Regel zu YOLOv9 aufgrund seiner Effizienz oder das hochmoderne YOLO26 aufgrund seiner NMS Architektur und CPU . Dank der robusten Ultralytics war es noch nie so einfach, zwischen diesen Modellen zu wechseln, um die perfekte Lösung für Ihre spezifischen Anforderungen zu finden – sei es für die Überwachung von Smart Cities oder für die Agrarrobotik.


Kommentare