YOLOv9 YOLOv7: Ein technischer Einblick in die moderne Objekterkennung
Die Entwicklung der Echtzeit-Objekterkennung wurde durch das kontinuierliche Bestreben vorangetrieben, ein Gleichgewicht zwischen Recheneffizienz und hoher Genauigkeit zu finden. Zwei wegweisende Architekturen auf diesem Weg sind YOLOv9 YOLOv7, die beide von Forschern des Instituts für Informationswissenschaft der Academia Sinica in Taiwan entwickelt wurden. Während YOLOv7 revolutionäre trainierbare Bag-of-Freebies YOLOv7 , YOLOv9 das neuere YOLOv9 die Engpässe beim Deep Learning direkt YOLOv9 .
Dieser umfassende technische Vergleich untersucht die architektonischen Unterschiede, Leistungskennzahlen und idealen Einsatzszenarien für beide Modelle und hilft ML-Ingenieuren und Forschern dabei, das richtige Tool für ihre Computer-Vision-Pipelines auszuwählen.
Leistung und Metriken im Vergleich
Beim Vergleich dieser Modelle sind die reine Leistung und Effizienz entscheidende Faktoren. Die folgende Tabelle enthält Angaben zur mittleren durchschnittlichen Genauigkeit (mAP) und zu den Rechenanforderungen für Standard COCO .
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Leistungsbalance
Beachten Sie, dass YOLOv9c bei deutlich weniger Parametern (25,3 Millionen gegenüber 71,3 Millionen) und FLOPs ungefähr die gleiche Genauigkeit (53,0 mAP) wie YOLOv7x (53,1 mAP) erreicht. Dies verdeutlicht die Verbesserungen hinsichtlich der Leistungsbalance in modernen Architekturen.
YOLOv9: Lösung des Informationsengpasses
YOLOv9 wurde Anfang 2024 eingeführt und hat die Art und Weise, wie tiefe neuronale Netze Daten über ihre Schichten hinweg speichern, YOLOv9 verändert.
- Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
- Organisation:Institute of Information Science, Academia Sinica
- Datum: 21. Februar 2024
- Ressourcen:Arxiv-Artikel | GitHub-Repository
Architektonische Innovationen
YOLOv9 das Generalized Efficient Layer Aggregation Network (GELAN) und Programmable Gradient Information (PGI) YOLOv9 . GELAN kombiniert die Stärken von CSPNet und ELAN, um die Parametereffizienz und die Rechenkosten zu optimieren und so eine hohe Präzision bei einer geringeren Parameteranzahl zu gewährleisten. PGI ist ein zusätzliches Überwachungsframework, das Datenverluste in tiefen Netzwerken verhindern soll und zuverlässige Gradienten für die Aktualisierung der Gewichte während des Trainingsprozesses generiert.
Stärken und Einschränkungen
Die größte Stärke von YOLOv9 seine Fähigkeit, subtile Merkmale ohne großen Rechenaufwand zu extrahieren, wodurch es sich hervorragend für Aufgaben eignet, die eine hohe Merkmalsgenauigkeit erfordern, wie beispielsweise die Analyse medizinischer Bilder. Allerdings kann die komplexe PGI-Struktur während des Trainings für Anfänger die Anpassung der Architektur im Vergleich zu einheitlicheren Frameworks erschweren.
YOLOv7: Der Pionier der Bag-of-Freebies-Methode
YOLOv7 wurde 2022 veröffentlicht und YOLOv7 neue Maßstäbe für die Möglichkeiten von Verbraucherhardware, indem es strukturelle Innovationen einführte, die die Echtzeit-Inferenzgeschwindigkeiten erheblich steigerten.
- Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
- Organisation:Institute of Information Science, Academia Sinica
- Datum: 6. Juli 2022
- Ressourcen:Arxiv-Artikel | GitHub-Repository
Architektonische Innovationen
Der wichtigste Beitrag YOLOv7 ist das Extended Efficient Layer Aggregation Network (E-ELAN). Diese Architektur ermöglicht es dem Modell, kontinuierlich vielfältigere Merkmale zu lernen. Darüber hinaus YOLOv7 „trainable bag-of-freebies“ – Techniken wie geplante reparametrisierte Faltungen und dynamische Labelzuweisung. Diese Methoden verbessern die Genauigkeit des Modells während des Trainings, ohne die Inferenzkosten während der Bereitstellung zu erhöhen.
Stärken und Einschränkungen
YOLOv7 für die Echtzeit-Edge-Verarbeitung hochoptimiert und bleibt ein fester Bestandteil in Legacy-Systemen und älteren CUDA . Seine größte Einschränkung ist derzeit die im Vergleich zu neueren Modellen größere Parametergröße. Wie in der Leistungstabelle dargestellt, erfordert das Erreichen einer Spitzenpräzision das schwergewichtige YOLOv7x-Modell, das wesentlich mehr GPU benötigt als vergleichbare moderne Architekturen.
Ultralytics von Ultralytics : Optimierte Bereitstellung
Während die ursprünglichen Forschungsrepositorien für YOLOv9 YOLOv7 eine hervorragende akademische Grundlage YOLOv7 , kann die Bereitstellung dieser Modelle in Produktionsumgebungen komplex sein. Die Integration über die ultralytics Das Paket bietet unvergleichliche Vorteile. Benutzerfreundlichkeit.
Durch die Nutzung der integrierten Ultralytics profitieren Entwickler von einem gut gepflegten Ökosystem mit einer intuitiven Python , aktiver Community-Unterstützung und robuster Experimentverfolgung.
Zukunftssicherheit mit YOLO26
Wenn Sie ein neues Computer-Vision-Projekt starten, empfehlen wir Ihnen dringend, sich mit dem neu veröffentlichten YOLO26 anstelle von YOLOv9 YOLOv7 zu verwenden. YOLO26 wurde als neuer Stand der Technik veröffentlicht und bietet bahnbrechende Fortschritte:
- End-to-End-Design NMS: Eliminiert die Nachbearbeitung durch Nicht-Maximalunterdrückung und reduziert so die Komplexität der Bereitstellung und die Latenz erheblich.
- Bis zu 43 % schnellere CPU : Optimiert für Edge-Computing-Umgebungen, sodass Ihre Anwendung auch ohne dedizierte GPUs reibungslos läuft.
- MuSGD Optimizer: Ein hybrider Optimierer, der vom LLM-Training inspiriert ist, eine hochstabile Konvergenz bietet und die Trainingszeit verkürzt.
- DFL-Entfernung: Vereinfachter Modellexport durch Entfernen des Distribution Focal Loss, wodurch die Kompatibilität mit mobilen Geräten mit geringem Stromverbrauch verbessert wird.
- ProgLoss + STAL: Verbessert die Leistung bei der Erkennung kleiner Objekte erheblich und ist damit die erste Wahl für Luftbildaufnahmen und Überwachungszwecke.
Weitere beliebte Alternativen innerhalb des Ökosystems sind Ultralytics YOLOv8 und YOLO11, die beide eine enorme Vielseitigkeit bei Aufgaben wie Instanzsegmentierung und Posenschätzung bieten.
Implementierungsbeispiel
Das Trainieren und Exportieren dieser Architekturen ist dank der einheitlichen API unglaublich einfach. Der folgende Code veranschaulicht die optimierte Trainingseffizienz der Ultralytics .
from ultralytics import YOLO
# Initialize YOLOv9 or the recommended YOLO26 model
model = YOLO("yolov9c.pt") # Swap with "yolo26n.pt" for faster edge performance
# Train on a custom dataset with built-in data augmentation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
Speicheranforderungen
Beim Training auf handelsüblicher Hardware ist die Speichereffizienz von entscheidender Bedeutung. Ultralytics von YOLOv9 YOLO26 sind stark optimiert, um VRAM-Spitzen zu reduzieren, im Gegensatz zu transformatorbasierten Modellen (wie RT-DETR), die während des Trainings häufig unter starker Speicherüberlastung leiden.
Anwendungen in der Praxis und ideale Anwendungsfälle
Die Wahl zwischen diesen Architekturen hängt oft von den spezifischen Einschränkungen Ihrer Produktionsumgebung ab.
Wann sollte YOLOv9 verwendet werden? YOLOv9 für Umgebungen, in denen es auf die Erfassung kleinster Details ankommt. Dank seiner robusten Merkmalsextraktion ist es ideal für die Einzelhandelsanalyse zum Zählen dicht gepackter Produkte in Regalen oder für landwirtschaftliche Anwendungen, bei denen es entscheidend ist, Krankheiten in frühen Stadien an kleinen Blättern zu erkennen.
Wann sollte YOLOv7 verwendet werden? YOLOv7 eine gute Wahl für ältere Bereitstellungspipelines. Wenn Sie das System in ältere Hardwaresysteme (wie bestimmte Generationen der Google Edge TPU) integrieren, YOLOv7 sich die einfache CNN-Architektur von YOLOv7 leichter kompilieren als die komplexeren Gradientenverzweigungen neuerer Modelle.
Wann sollte YOLO26 verwendet werden (empfohlen): Für jede moderne Anwendung – von autonomen Drohnen bis hin zumintelligenten Verkehrsmanagement inStädten – ist YOLO26 die beste Wahl. Seine NMS Architektur garantiert deterministische Inferenzzeiten, was für sicherheitskritische Robotik unerlässlich ist, während seine hohe Präzision sowohl YOLOv9 YOLOv7 allen Bereichen übertrifft.