YOLOv7 vs. YOLOv9: Ein umfassender technischer Vergleich

Die Entwicklung der YOLO (You Only Look Once)-Familie ist durch kontinuierliche Innovationen in der neuronalen Netzwerkarchitektur gekennzeichnet, die kritische Kompromisse zwischen Inferenzgeschwindigkeit, Genauigkeit und Recheneffizienz ausbalanciert. Dieser Vergleich befasst sich mit YOLOv7, einer Meilenstein-Veröffentlichung aus dem Jahr 2022, bekannt für seine trainierbaren „Bag-of-Freebies“, und YOLOv9, einer Architektur von 2024, die Programmable Gradient Information (PGI) einführt, um Informationsengpässe in tiefen Netzwerken zu überwinden.

Leistungs- und Effizienzanalyse

Der Übergang von YOLOv7 zu YOLOv9 stellt einen bedeutenden Sprung in der Parametereffizienz dar. Während YOLOv7 optimiert wurde, um die Grenzen der Echtzeit-Objekterkennung mittels Extended Efficient Layer Aggregation Networks (E-ELAN) zu erweitern, führt YOLOv9 architektonische Änderungen ein, die es ermöglichen, eine höhere Mean Average Precision (mAP) mit weniger Parametern und Floating Point Operations (FLOPs) zu erreichen.

Für Entwickler, die sich auf Edge-AI-Bereitstellung konzentrieren, ist diese Effizienz entscheidend. Wie in der folgenden Tabelle dargestellt, erreicht YOLOv9e einen dominanten mAP von 55,6%, übertrifft damit das größere YOLOv7x und behält gleichzeitig einen wettbewerbsfähigen Rechenaufwand bei. Umgekehrt bietet das kleinere YOLOv9t eine leichte Lösung für stark eingeschränkte Geräte, eine Kategorie, die YOLOv7 nicht explizit mit der gleichen Granularität anspricht.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv7: Optimierung der trainierbaren Bag-of-Freebies

Im Juli 2022 veröffentlicht, führte YOLOv7 mehrere strukturelle Reformen an der YOLO-Architektur ein, die sich auf die Optimierung des Trainingsprozesses konzentrieren, ohne die Inferenzkosten zu erhöhen.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv:YOLOv7: Trainable bag-of-freebies sets new state-of-the-art
GitHub:WongKinYiu/yolov7

Architektur-Highlights

YOLOv7 verwendet E-ELAN (Extended Efficient Layer Aggregation Network), das die kürzesten und längsten Gradientenpfade steuert, um dem Netzwerk das effektivere Lernen weiterer Merkmale zu ermöglichen. Es popularisierte auch die Modellskalierung für konkatenationsbasierte Modelle, wodurch Tiefe und Breite gleichzeitig skaliert werden können. Eine Schlüsselinnovation war die geplante reparametrisierte Faltung, die die Modellarchitektur während der Inferenz optimiert, um die Geschwindigkeit zu erhöhen.

Legacy-Status

Während YOLOv7 ein leistungsfähiges Modell bleibt, fehlt es an der nativen Unterstützung für neuere Optimierungen, die im Ultralytics-Ökosystem zu finden sind. Entwickler könnten die Integration mit modernen MLOps-Tools im Vergleich zu neueren Iterationen als anspruchsvoller empfinden.

Erfahren Sie mehr über YOLOv7

YOLOv9: Lösung des Informationsengpasses

YOLOv9, Anfang 2024 eingeführt, behebt ein grundlegendes Problem im Deep Learning: den Informationsverlust, wenn Daten aufeinanderfolgende Schichten durchlaufen.

Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv:YOLOv9: Learning What You Want to Learn Using PGI
GitHub:WongKinYiu/yolov9

Architektur-Highlights

Die Kerninnovation in YOLOv9 ist Programmable Gradient Information (PGI). In tiefen Netzwerken können nützliche Informationen während des Feedforward-Prozesses verloren gehen, was zu unzuverlässigen Gradienten führt. PGI bietet ein Hilfsüberwachungs-Framework, das sicherstellt, dass wichtige Informationen für die Verlustfunktion erhalten bleiben. Zusätzlich erweitert das Generalized Efficient Layer Aggregation Network (GELAN) die Fähigkeiten von ELAN, indem es eine beliebige Blockierung ermöglicht und so die Nutzung von Parametern und Rechenressourcen maximiert.

Diese Architektur macht YOLOv9 außergewöhnlich leistungsstark für komplexe Detektionsaufgaben, wie die Detektion kleiner Objekte in überladenen Umgebungen oder die Analyse von hochauflösenden Luftbildern.

Erfahren Sie mehr über YOLOv9

Warum Ultralytics Modelle (YOLO11 & YOLOv8) die bevorzugte Wahl sind

Während YOLOv7 und YOLOv9 beeindruckende akademische Errungenschaften sind, ist die Ultralytics YOLO-Serie—einschließlich YOLOv8 und des hochmodernen YOLO11—speziell für die praktische Entwicklung realer Anwendungen konzipiert. Diese Modelle priorisieren Benutzerfreundlichkeit, Ökosystemintegration und betriebliche Effizienz, was sie zur überlegenen Wahl für die meisten Entwicklungsteams macht.

Optimierte Benutzererfahrung

Ultralytics Modelle sind in eine vereinheitlichte Python API gehüllt, die die Komplexität von Trainings-Pipelines abstrahiert. Der Wechsel zwischen Objekterkennung, Instanzsegmentierung, Pose-Schätzung und Oriented Bounding Box (OBB) Aufgaben erfordert nur eine einzige Argumentänderung, eine Vielseitigkeit, die in Standard-YOLOv7- oder YOLOv9-Implementierungen fehlt.

from ultralytics import YOLO

# Load a model (YOLO11 automatically handles architecture)
model = YOLO("yolo11n.pt")  # Load a pretrained model

# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Perform inference on an image
results = model("path/to/image.jpg")

Gut gepflegtes Ökosystem

Die Wahl eines Ultralytics-Modells gewährt Zugang zu einem robusten Ökosystem. Dies umfasst die nahtlose Integration mit Ultralytics HUB (und der kommenden Ultralytics Platform) für Cloud-Training und Dataset-Management. Darüber hinaus gewährleisten die aktive Community und häufige Updates die Kompatibilität mit der neuesten Hardware, wie dem Export nach TensorRT oder OpenVINO für optimale Inferenzgeschwindigkeiten.

Speicher- und Trainingseffizienz

Ultralytics Modelle sind bekannt für ihre Trainingseffizienz. Im Gegensatz zu Transformer-basierten Modellen (wie RT-DETR), die speicherintensiv und langsam in der Konvergenz sein können, nutzen Ultralytics YOLO Modelle optimierte Datenlader und Mosaic Augmentation, um schnelle Trainingszeiten mit geringeren CUDA-Speicheranforderungen zu ermöglichen. Dies ermöglicht es Entwicklern, modernste Modelle auf Consumer-GPUs zu trainieren.

Erfahren Sie mehr über YOLO11

Ideale Anwendungsfälle

Die Wahl des richtigen Modells hängt von den spezifischen Anforderungen Ihres Projekts ab.

Praxisnahe Anwendungen für YOLOv9

Forschung & Benchmarking: Ideal für akademische Studien, die die absolut höchste berichtete Genauigkeit auf dem COCO-Datensatz erfordern.
Hochpräzise Überwachung: In Szenarien wie Sicherheitsalarmsystemen, wo ein Genauigkeitsgewinn von 1-2% eine höhere Implementierungskomplexität rechtfertigt.

Praxisnahe Anwendungen für YOLOv7

Bestehende Systeme: Projekte, die bereits auf den Darknet- oder frühen PyTorch-Ökosystemen basieren und eine stabile, bekannte Größe erfordern, ohne die gesamte Codebasis umzugestalten.

Praxisnahe Anwendungen für Ultralytics YOLO11

Intelligente Städte: Einsatz von Objekt-Tracking für die Analyse des Verkehrsflusses, wo Geschwindigkeit und einfache Bereitstellung entscheidend sind.
Gesundheitswesen:Medizinische Bildanalyse, bei der Segmentierung und detect oft gleichzeitig benötigt werden.
Fertigung: Bereitstellung von Qualitätskontroll-Systemen auf Edge-Geräten wie NVIDIA Jetson oder Raspberry Pi, profitierend von den unkomplizierten Exportoptionen nach TFLite und ONNX.

Fazit

Sowohl YOLOv7 als auch YOLOv9 stellen bedeutende Meilensteine in der Geschichte der Computer Vision dar. YOLOv9 bietet ein überzeugendes Upgrade gegenüber v7 mit seiner PGI-Architektur, die eine bessere Effizienz und Genauigkeit liefert. Für Entwickler, die eine vielseitige, benutzerfreundliche und gut unterstützte Lösung suchen, bleibt Ultralytics YOLO11 jedoch die empfohlene Wahl. Sein Gleichgewicht aus Leistung, umfassender Dokumentation und Multi-Task-Fähigkeiten (detect, segment, classify, pose) bietet den schnellsten Weg vom Konzept zur Produktion.

Andere Modelle entdecken

Um die perfekte Lösung für Ihre spezifischen Computer-Vision-Aufgaben zu finden, ziehen Sie in Betracht, diese weiteren Vergleiche zu erkunden:

YOLOv8 vs. YOLOv9 – Vergleichen Sie die weit verbreitete Version 8 mit der forschungsorientierten Version 9.
YOLOv10 vs. YOLOv9 – Sehen Sie, wie sich das End-to-End YOLOv10 schlägt.
YOLO11 vs. YOLOv8 - Verstehen Sie die Verbesserungen im neuesten Ultralytics Release.
RT-DETR vs. YOLOv9 - Ein Blick auf Transformer-basierte Erkennung vs. CNNs.

YOLOv7 vs. YOLOv9: Ein umfassender technischer Vergleich

Leistungs- und Effizienzanalyse

YOLOv7: Optimierung der trainierbaren Bag-of-Freebies

Architektur-Highlights

YOLOv9: Lösung des Informationsengpasses

Architektur-Highlights

Warum Ultralytics Modelle (YOLO11 & YOLOv8) die bevorzugte Wahl sind

Optimierte Benutzererfahrung

Gut gepflegtes Ökosystem

Speicher- und Trainingseffizienz

Ideale Anwendungsfälle

Praxisnahe Anwendungen für YOLOv9

Praxisnahe Anwendungen für YOLOv7

Praxisnahe Anwendungen für Ultralytics YOLO11

Fazit

Andere Modelle entdecken

Kommentare