YOLOv7 YOLOv9: Ein technischer Einblick in die moderne Objekterkennung
Die Landschaft der Echtzeit-Objekterkennung hat sich rasant weiterentwickelt, wobei jede neue Iteration die Grenzen des Möglichen sowohl auf Edge-Geräten als auch auf Cloud-Servern erweitert. Bei der Bewertung von Architekturen für Computer-Vision-Projekte vergleichen Entwickler häufig etablierte Benchmarks mit neueren Innovationen. Dieser umfassende Leitfaden vergleicht zwei wichtige Meilensteine in der YOLO : YOLOv7 und YOLOv9.
Wir analysieren ihre architektonischen Durchbrüche, Leistungskennzahlen und idealen Einsatzszenarien, um Ihnen bei der Auswahl des richtigen Modells für Ihre Anwendung zu helfen. Außerdem untersuchen wir, wie die Ultralytics diese Modelle vereinheitlicht und so deren Training, Validierung und Einsatz vereinfacht.
Modellreihe und technische Daten
Das Verständnis der Ursprünge und Designphilosophien dieser Modelle liefert wichtige Hintergrundinformationen zu ihren Fähigkeiten. Beide Modelle haben denselben Forschungshintergrund, zielen jedoch auf unterschiedliche architektonische Engpässe ab.
YOLOv7: Der Pionier der Bag-of-Freebies-Methode
YOLOv7 wurde Mitte 2022 veröffentlicht und YOLOv7 sich als äußerst zuverlässige und stark optimierte Architektur YOLOv7 . Es führte eine strukturelle Neuparametrisierung und einen „trainierbaren Bag-of-Freebies”-Ansatz ein, um hohe Inferenzgeschwindigkeiten aufrechtzuerhalten, ohne die mittlere durchschnittliche Genauigkeit (mAP) zu beeinträchtigen.
- Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
- Organisation:Institute of Information Science, Academia Sinica, Taiwan
- Datum: 6. Juli 2022
- Arxiv:2207.02696
- GitHub:WongKinYiu/yolov7
Architektonische Innovationen: YOLOv7 das Extended Efficient Layer Aggregation Network (E-ELAN), das es dem Modell ermöglicht, durch Erweiterung, Neuanordnung und Zusammenführung von Kardinalitäten vielfältigere Merkmale zu erlernen. Dieses Design führt zu GPU hervorragenden GPU und Inferenzlatenz. Allerdings kann es im Vergleich zu modernen Iterationen während komplexer Trainingsläufe erheblichen Speicherbedarf erfordern.
YOLOv9: Lösung des Informationsengpasses
YOLOv9 wurde Anfang 2024 vom selben Forschungsteam vorgestellt und YOLOv9 dem „Informationsengpass”, der tiefen neuronalen Netzen innewohnt. Wenn Daten durch tiefe Schichten fließen, gehen oft wichtige Details verloren. YOLOv9 dies durch grundlegend neue Schichtdesigns.
- Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
- Organisation:Institute of Information Science, Academia Sinica, Taiwan
- Datum: 21. Februar 2024
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
Architektonische Innovationen: YOLOv9 programmierbare Gradienteninformationen (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) YOLOv9 . PGI stellt sicher, dass zuverlässige Gradienten erhalten bleiben und zurückgemeldet werden, um Gewichte genau zu aktualisieren. GELAN maximiert die Parametereffizienz und ermöglicht es YOLOv9 , eine hohe Genauigkeit mit deutlich weniger FLOPs als seine Vorgänger YOLOv9 erreichen.
Leistungsanalyse
Bei der Auswahl zwischen verschiedenen Architekturen müssen KI-Ingenieure ein Gleichgewicht zwischen Genauigkeit, Inferenzgeschwindigkeit und Rechenaufwand finden. Die folgende Tabelle zeigt die Leistungsunterschiede dieser Modelle anhand des COCO .
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Wichtige Erkenntnisse
- Parametereffizienz: YOLOv9m erreicht die gleiche Genauigkeit wie YOLOv7l (51,4 % mAP), benötigt jedoch fast 45 % weniger Parameter (20,0 Mio. gegenüber 36,9 Mio.). Durch diese drastische Reduzierung lässt sich YOLOv9m viel einfacher auf Edge-KI-Geräten mit begrenztem Speicher einsetzen.
- Mikro-Bereitstellungen: Die Einführung der Variante YOLOv9t (tiny) sorgt für unglaubliche Geschwindigkeiten (2,3 ms auf T4 TensorRT) für Umgebungen, in denen Echtzeitanforderungen absolut sind.
- Maximale Genauigkeit: Bei Anwendungen, bei denen Präzision von entscheidender Bedeutung ist, steigert YOLOv9e die Erkennungsgenauigkeit auf 55,6 % mAP und übertrifft damit YOLOv7x deutlich.
Zukunftssicherheit für Ihre Computer-Vision-Projekte
YOLOv7 YOLOv9 zwar leistungsstark, doch das neu veröffentlichte YOLO26 stellt einen entscheidenden Fortschritt dar. YOLO26 verfügt über ein natives End-to-End-Design NMS, wodurch komplexe Nachbearbeitungen entfallen und CPU um bis zu 43 % gesteigert wird. Durch die Verwendung des neuartigen MuSGD-Optimierers und der verbesserten ProgLoss + STAL-Verlustfunktionen bietet YOLO26 eine beispiellose Trainingsstabilität und Genauigkeit bei der Erkennung kleiner Objekte.
Der Ultralytics Vorteil
Die Auswahl einer Modellarchitektur ist nur der erste Schritt. Das Software-Ökosystem rund um das Modell bestimmt, wie schnell Sie vom Prototyp zur Produktion gelangen können. Die Integration dieser Modelle über die Ultralytics Python bietet Entwicklern und Forschern erhebliche Vorteile.
Benutzerfreundlichkeit und Trainingseffizienz
In der Vergangenheit YOLOv7 das Training YOLOv7 eine komplexe Datenaufbereitung und stark angepasste Skripte. Das Ultralytics abstrahiert diese Komplexitäten des Deep Learning. Entwickler können problemlos zwischen Architekturen wechseln, mit der Hyperparameter-Optimierung experimentieren und intelligente Datenvergrößerungspipelines mit minimalem Codeaufwand nutzen.
Darüber hinaus Ultralytics die Speichernutzung während des Trainings und der Inferenz. Im Gegensatz zu schwerfälligen Transformer-Modellen (wie RT-DETR) trainieren Ultralytics YOLO deutlich schneller und benötigen viel weniger CUDA , wodurch sie sich ideal für GPUs der Verbraucherklasse eignen.
Code-Beispiel: Optimiertes Training
Das Training modernster Modelle ist innerhalb des Ultralytics nahtlos möglich. Hier ist ein vollständig ausführbares Beispiel, das zeigt, wie ein YOLOv9 trainiert und validiert wird:
from ultralytics import YOLO
# Initialize the model (you can swap 'yolov9c.pt' with 'yolov7.pt' or 'yolo26n.pt')
model = YOLO("yolov9c.pt")
# Train the model on the COCO8 sample dataset
train_results = model.train(
data="coco8.yaml",
epochs=50,
imgsz=640,
device="0", # Use GPU 0 if available
batch=16, # Optimized batch size for memory efficiency
)
# Validate the model's performance on the validation set
metrics = model.val()
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
Unübertroffene Vielseitigkeit bei allen Aufgaben
Ein gut gepflegtes Ökosystem ermöglicht den Zugriff auf vielfältige Computer-Vision-Aufgaben. Während YOLOv7 in erster Linie für die Objekterkennung entwickelt YOLOv7 (mit späteren experimentellen Forks für andere Aufgaben), sind moderne Ultralytics von Haus aus auf Vielseitigkeit ausgelegt. Sie können sofort und nahtlos Instanzsegmentierung, Posenschätzung, Bildklassifizierung und Oriented Bounding Box (OBB) -Erkennung durchführen.
Ideale Anwendungsfälle und Anwendungen
Die Entscheidung zwischen YOLOv7 YOLOv9 hängt YOLOv9 von den spezifischen Einschränkungen Ihrer Branche und der Verfügbarkeit von Hardware ab.
Wann sollte YOLOv7 verwendet werden?
- Legacy Edge-Bereitstellungen: Für Hardwareumgebungen, die bereits stark auf die E-ELAN-Architektur YOLOv7 abgestimmt und optimiert sind, bleibt dies eine robuste Wahl für das industrielle IoT.
- Verkehrsüberwachung: Dank YOLOv7 hohen Bildraten und bewährten Stabilität eignet sich YOLOv7 hervorragend für die Infrastruktur intelligenter Städte und das Echtzeit-Verkehrsmanagement.
- Robotik-Integration: Die Navigation in dynamischen Umgebungen erfordert eine Verarbeitung mit geringer Latenz, ein Szenario, in dem YOLOv7 intensiv getestet wurden.
Wann sollte YOLOv9 eingesetzt werden?
- Medizinische Bildgebung: Die PGI-Architektur in YOLOv9 außergewöhnlich gut darin, feine Details durch tiefe Schichten zu bewahren, was bei der Analyse komplexer medizinischer Bildanalyseaufgaben wie der Tumordiagnose von entscheidender Bedeutung ist.
- Dichte Einzelhandelsanalyse: Für die Verfolgung und Zählung dicht gepackter Artikel in Einzelhandelsregalen bietet die Feature-Integration YOLOv9 überragende Genauigkeit und reduziert Fehlalarme.
- Luft- und Drohnenbilder: Die Parametereffizienz von YOLOv9m ermöglicht eine hochauflösende Bildverarbeitung auf Drohnen, was den Schutz wildlebender Tiere und die Überwachung der Landwirtschaft unterstützt, ohne die Akkulaufzeit zu beeinträchtigen.
Fazit
Sowohl YOLOv7 YOLOv9 ihren Platz in der Geschichte der Bildverarbeitung gefestigt. YOLOv7 wesentliche Optimierungen für die Echtzeitverarbeitung YOLOv7 , während YOLOv9 strukturelle Engpässe beim Deep Learning YOLOv9 , um die Parametereffizienz zu maximieren.
Für Entwickler, die heute neue Projekte starten, bietet sich jedoch die Nutzung des Ultralytics an – insbesondere Modelle der nächsten Generation wie YOLO11 und YOLO26– den günstigsten Kompromiss zwischen Geschwindigkeit, Genauigkeit und Entwicklererfahrung. Mit Innovationen wie dem MuSGD-Optimierer und der Entfernung von Distribution Focal Loss (DFL) für eine breitere Hardwarekompatibilität bietet Ultralytics die zugänglichsten und leistungsfähigsten Tools für Vision-AI-Experten.