YOLOv7 YOLOv9: Ein technischer Einblick in die moderne Objekterkennung

Die Landschaft der Echtzeit-Objekterkennung hat sich rasant weiterentwickelt, wobei jede neue Iteration die Grenzen des Möglichen sowohl auf Edge-Geräten als auch auf Cloud-Servern erweitert. Bei der Bewertung von Architekturen für Computer-Vision-Projekte vergleichen Entwickler häufig etablierte Benchmarks mit neueren Innovationen. Dieser umfassende Leitfaden vergleicht zwei wichtige Meilensteine in der YOLO : YOLOv7 und YOLOv9.

Wir analysieren ihre architektonischen Durchbrüche, Leistungskennzahlen und idealen Einsatzszenarien, um Ihnen bei der Auswahl des richtigen Modells für Ihre Anwendung zu helfen. Außerdem untersuchen wir, wie die Ultralytics diese Modelle vereinheitlicht und so deren Training, Validierung und Einsatz vereinfacht.

Modellreihe und technische Daten

Das Verständnis der Ursprünge und Designphilosophien dieser Modelle liefert wichtige Hintergrundinformationen zu ihren Fähigkeiten. Beide Modelle haben denselben Forschungshintergrund, zielen jedoch auf unterschiedliche architektonische Engpässe ab.

YOLOv7: Der Pionier der Bag-of-Freebies-Methode

YOLOv7 wurde Mitte 2022 veröffentlicht und YOLOv7 sich als äußerst zuverlässige und stark optimierte Architektur YOLOv7 . Es führte eine strukturelle Neuparametrisierung und einen „trainierbaren Bag-of-Freebies”-Ansatz ein, um hohe Inferenzgeschwindigkeiten aufrechtzuerhalten, ohne die mittlere durchschnittliche Genauigkeit (mAP) zu beeinträchtigen.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 6. Juli 2022
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7

Architektonische Innovationen: YOLOv7 verfügt über das Extended Efficient Layer Aggregation Network (E-ELAN), das es dem Modell ermöglicht, vielfältigere Merkmale durch Expansion, Mischen und Zusammenführen von Kardinalitäten zu lernen. Dieses Design führt zu einer exzellenten GPU-Auslastung und Inferenzlatenz. Es kann jedoch bei komplexen Trainingsläufen im Vergleich zu modernen Iterationen erheblichen Speicherplatz erfordern.

Erfahren Sie mehr über YOLOv7

YOLOv9: Lösung des Informationsengpasses

YOLOv9 wurde Anfang 2024 vom selben Forschungsteam vorgestellt und YOLOv9 dem „Informationsengpass”, der tiefen neuronalen Netzen innewohnt. Wenn Daten durch tiefe Schichten fließen, gehen oft wichtige Details verloren. YOLOv9 dies durch grundlegend neue Schichtdesigns.

Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 21. Februar 2024
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9

Architektonische Innovationen: YOLOv9 führt Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) ein. PGI stellt sicher, dass zuverlässige Gradienten erhalten bleiben und zur präzisen Aktualisierung der Gewichte zurückgeführt werden. GELAN maximiert die Parametereffizienz und ermöglicht es YOLOv9, eine hohe Genauigkeit mit deutlich weniger FLOPs als seine Vorgänger zu erzielen.

Erfahren Sie mehr über YOLOv9

Leistungsanalyse

Bei der Auswahl zwischen verschiedenen Architekturen müssen KI-Ingenieure ein Gleichgewicht zwischen Genauigkeit, Inferenzgeschwindigkeit und Rechenaufwand finden. Die folgende Tabelle zeigt die Leistungsunterschiede dieser Modelle anhand des COCO .

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Wichtige Erkenntnisse

Parameter-Effizienz: YOLOv9m erreicht die Genauigkeit von YOLOv7l (51,4 % mAP), wobei es fast 45 % weniger Parameter verwendet (20,0 Mio. vs. 36,9 Mio.). Diese drastische Reduzierung erleichtert die Bereitstellung von YOLOv9m auf speicherbeschränkten Edge-AI-Geräten erheblich.
Mikro-Implementierungen: Die Einführung der YOLOv9t (tiny)-Variante bietet unglaubliche Geschwindigkeiten (2,3 ms auf T4 TensorRT) für Umgebungen, in denen Echtzeitbeschränkungen absolut sind.
Maximale Genauigkeit: Für Anwendungen, bei denen Präzision von größter Bedeutung ist, steigert YOLOv9e die detect-Genauigkeit auf 55,6 % mAP und übertrifft YOLOv7x damit deutlich.

Zukunftssicherheit für Ihre Computer-Vision-Projekte

YOLOv7 YOLOv9 zwar leistungsstark, doch das neu veröffentlichte YOLO26 stellt einen entscheidenden Fortschritt dar. YOLO26 verfügt über ein natives End-to-End-Design NMS, wodurch komplexe Nachbearbeitungen entfallen und CPU um bis zu 43 % gesteigert wird. Durch die Verwendung des neuartigen MuSGD-Optimierers und der verbesserten ProgLoss + STAL-Verlustfunktionen bietet YOLO26 eine beispiellose Trainingsstabilität und Genauigkeit bei der Erkennung kleiner Objekte.

Der Ultralytics Vorteil

Die Wahl einer Modellarchitektur ist nur der erste Schritt. Das Software-Ökosystem, das das Modell umgibt, bestimmt, wie schnell Sie vom Prototyp zur Produktion gelangen können. Die Integration dieser Modelle über die Ultralytics Python API bietet erhebliche Vorteile für Entwickler und Forscher.

Benutzerfreundlichkeit und Trainingseffizienz

In der Vergangenheit YOLOv7 das Training YOLOv7 eine komplexe Datenaufbereitung und stark angepasste Skripte. Das Ultralytics abstrahiert diese Komplexitäten des Deep Learning. Entwickler können problemlos zwischen Architekturen wechseln, mit der Hyperparameter-Optimierung experimentieren und intelligente Datenvergrößerungspipelines mit minimalem Codeaufwand nutzen.

Darüber hinaus Ultralytics die Speichernutzung während des Trainings und der Inferenz. Im Gegensatz zu schwerfälligen Transformer-Modellen (wie RT-DETR) trainieren Ultralytics YOLO deutlich schneller und benötigen viel weniger CUDA , wodurch sie sich ideal für GPUs der Verbraucherklasse eignen.

Codebeispiel: Optimiertes Training

Das Training modernster Modelle ist innerhalb des Ultralytics nahtlos möglich. Hier ist ein vollständig ausführbares Beispiel, das zeigt, wie ein YOLOv9 trainiert und validiert wird:

from ultralytics import YOLO

# Initialize the model (you can swap 'yolov9c.pt' with 'yolov7.pt' or 'yolo26n.pt')
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 sample dataset
train_results = model.train(
    data="coco8.yaml",
    epochs=50,
    imgsz=640,
    device="0",  # Use GPU 0 if available
    batch=16,  # Optimized batch size for memory efficiency
)

# Validate the model's performance on the validation set
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Unübertroffene Vielseitigkeit bei allen Aufgaben

Ein gut gepflegtes Ökosystem bedeutet Zugang zu vielfältigen Computer-Vision-Aufgaben. Während YOLOv7 hauptsächlich für die Objekterkennung entwickelt wurde (mit späteren experimentellen Abzweigungen für andere Aufgaben), sind moderne Ultralytics-Modelle nativ für Vielseitigkeit konzipiert. Direkt nach der Installation können Sie nahtlos Instanzsegmentierung, Posenschätzung, Bildklassifizierung und Oriented Bounding Box (OBB)-Erkennung durchführen.

Ideale Anwendungsfälle und Anwendungen

Die Entscheidung zwischen YOLOv7 YOLOv9 hängt YOLOv9 von den spezifischen Einschränkungen Ihrer Branche und der Verfügbarkeit von Hardware ab.

Wann sollte YOLOv7 verwendet werden?

Legacy-Edge-Deployments: Für Hardware-Umgebungen, die bereits stark auf die E-ELAN-Architektur von YOLOv7 abgestimmt und optimiert sind, bleibt es eine robuste Wahl für industrielles IoT.
Verkehrsüberwachung: Die hohen Bildraten und die bewährte Stabilität von YOLOv7 machen es hervorragend für Smart-City-Infrastrukturen und Echtzeit-Verkehrsmanagement.
Robotik-Integration: Die Navigation in dynamischen Umgebungen erfordert eine Verarbeitung mit geringer Latenz, ein Szenario, in dem YOLOv7-Varianten ausgiebig getestet wurden.

Wann sollte YOLOv9 eingesetzt werden?

Medizinische Bildgebung: Die PGI-Architektur in YOLOv9 ist außergewöhnlich gut darin, feinkörnige Details durch tiefe Schichten zu erhalten, was bei der Analyse komplexer medizinischer Bildanalyse-Aufgaben wie der Tumorerkennung entscheidend ist.
Dichte Einzelhandelsanalysen: Für das track und zählen dicht gepackter Artikel in Verkaufsregalen bietet die Feature-Integration von YOLOv9 überragende Genauigkeit und reduziert Fehlalarme.
Luft- und Drohnenbilder: Die Parametereffizienz von YOLOv9m ermöglicht die hochauflösende Bildverarbeitung auf Drohnen, was den Artenschutz und die landwirtschaftliche Überwachung unterstützt, ohne die Akkulaufzeit zu beeinträchtigen.

Fazit

Sowohl YOLOv7 als auch YOLOv9 haben ihren Platz in der Geschichte der Computer Vision gefestigt. YOLOv7 führte wesentliche Optimierungen für die Echtzeitverarbeitung ein, während YOLOv9 strukturelle Deep-Learning-Engpässe anging, um die Parametereffizienz zu maximieren.

Für Entwickler, die heute neue Projekte starten, bietet sich jedoch die Nutzung des Ultralytics an – insbesondere Modelle der nächsten Generation wie YOLO11 und YOLO26– den günstigsten Kompromiss zwischen Geschwindigkeit, Genauigkeit und Entwicklererfahrung. Mit Innovationen wie dem MuSGD-Optimierer und der Entfernung von Distribution Focal Loss (DFL) für eine breitere Hardwarekompatibilität bietet Ultralytics die zugänglichsten und leistungsfähigsten Tools für Vision-AI-Experten.