YOLOv9 . YOLOv7: Die Entwicklung der modernsten Objekterkennung
Im sich rasant entwickelnden Bereich der Computervision ist es für die Entwicklung effizienter und präziser Anwendungen entscheidend, stets über die neuesten Architekturen auf dem Laufenden zu sein. Dieser Vergleich befasst sich mit zwei bedeutenden Meilensteinen in der YOLO You Only Look Once): YOLOv9, das Anfang 2024 mit neuartigen Gradientenoptimierungstechniken eingeführt wurde, und YOLOv7, das 2022 als Standard für die Echtzeit-Erkennung gilt. Beide Modelle haben die Landschaft der Objekterkennung geprägt und bieten Forschern und Entwicklern einzigartige Vorteile.
Leistungsbenchmark
Die folgende Tabelle zeigt die Leistungskennzahlen von YOLOv9 YOLOv7 den COCO . Während YOLOv7 im Jahr 2022 hohe Maßstäbe in Bezug auf Geschwindigkeit und Genauigkeit YOLOv7 , YOLOv9 architektonische Verbesserungen YOLOv9 , die diese Grenzen noch weiter verschieben, insbesondere hinsichtlich der Parametereffizienz.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv9: Programmierbare Gradienteninformation
YOLOv9 einen Wandel in der Art und Weise, wie Deep-Learning-Architekturen den Informationsfluss verwalten. Es wurde im Februar 2024 von Chien-Yao Wang und Hong-Yuan Mark Liao veröffentlicht und befasst sich mit dem Problem des „Informationsengpasses”, bei dem Daten beim Durchlaufen tiefer Schichten verloren gehen.
Wesentliche architektonische Innovationen
Die zentrale Innovation von YOLOv9 PGI (Programmable Gradient Information). PGI bietet ein zusätzliches Überwachungsframework, das sicherstellt, dass der Hauptzweig während des gesamten Trainingsprozesses wichtige Merkmalsinformationen beibehält. Ergänzt wird dies durch die GELAN-Architektur (Generalized Efficient Layer Aggregation Network), die die Parameternutzung über bisherige Methoden wie CSPNet hinaus optimiert.
- Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organisation:Institute of Information Science, Academia Sinica
- Datum: 21. Februar 2024
- Links:Arxiv, GitHub
YOLOv7: Der trainierbare „Bag-of-Freebies“
YOLOv7 bei seiner Veröffentlichung im Juli 2022 als schnellster und genauester Echtzeit-Objektdetektor konzipiert. Es führte mehrere „Bag-of-Freebies” ein – Optimierungsmethoden, die die Genauigkeit verbessern, ohne die Inferenzkosten zu erhöhen.
Wesentliche architektonische Innovationen
YOLOv7 auf E-ELAN (Extended Efficient Layer Aggregation Network), wodurch das Netzwerk durch die Steuerung der kürzesten und längsten Gradientenpfade vielfältigere Merkmale lernen kann. Es war auch Vorreiter bei Modellskalierungstechniken, die gleichzeitig Tiefe und Breite anpassen, wodurch es sich sehr gut an unterschiedliche Hardwarebeschränkungen anpassen lässt.
- Autoren: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- Organisation:Institute of Information Science, Academia Sinica
- Datum: 6. Juli 2022
- Links:Arxiv, GitHub
Vergleichende Analyse: Architektur und Anwendungsfälle
Präzision und Funktionserhalt
YOLOv9 übertrifft YOLOv7 YOLOv9 YOLOv7 Szenarien, in denen kleine oder verdeckte Objekte erkannt werden müssen. Das PGI-Framework sorgt dafür, dass die Gradienten nicht verwässert werden, was besonders für die medizinische Bildanalyse von Vorteil ist, wo das Übersehen einer kleinen Anomalie kritische Folgen haben kann. YOLOv7 eine robuste Wahl für die allgemeine Erkennung, kann jedoch bei extremen Informationsengpässen in sehr tiefen Netzwerken etwas mehr Schwierigkeiten haben.
Inferenzgeschwindigkeit und Effizienz
Beide Modelle sind für Echtzeitanwendungen konzipiert, wobei YOLOv9 einen besseren Kompromiss zwischen Parametern und Genauigkeit YOLOv9 . So erreicht YOLOv9c beispielsweise eine ähnliche Genauigkeit wie YOLOv7x, jedoch mit deutlich weniger Parametern (25,3 Mio. gegenüber 71,3 Mio.) und FLOPs. Dadurch eignet sich YOLOv9 für den Einsatz auf Geräten, bei denen die Speicherbandbreite begrenzt ist, wie z. B. Edge-KI-Kameras.
Bereitstellungsflexibilität
Ultralytics sind für ihre Portabilität bekannt. Sowohl YOLOv9 YOLOv7 sich problemlos in Formate wie ONNX und TensorRT exportiert werden,Python den Weg von der Forschung zur Produktion vereinfacht.
Trainingseffizienz
Ein wesentlicher Vorteil des Ultralytics ist die Optimierung der Speichernutzung während des Trainings. YOLOv9, das nativ in Ultralytics integriert ist, profitiert von effizienten Datenladern und Speicherverwaltung. Dadurch können Entwickler wettbewerbsfähige Modelle auf handelsüblichen GPUs (z. B. RTX 3060 oder 4070) trainieren, ohne dass es zu Out-Of-Memory-Fehlern (OOM) kommt, die bei transformatorlastigen Architekturen oder nicht optimierten Repositorys häufig auftreten.
Anwendungen in der realen Welt
Die Wahl zwischen diesen Modellen hängt oft von der spezifischen Bereitstellungsumgebung ab.
- Autonome Fahrzeuge:YOLOv7 wurde ausgiebig in autonomen Fahrszenarien getestet und hat seine Zuverlässigkeit bei der Erkennung von Fußgängern und Verkehrszeichen bei hohen Bildraten unter Beweis gestellt.
- Bildgebung im Gesundheitswesen:YOLOv9 zeichnet sich bei der medizinischen Bildgebung aus, beispielsweise bei der Erkennung von Tumoren oder Frakturen, wo die Erhaltung feiner Details durch tiefe Schichten von entscheidender Bedeutung ist.
- Einzelhandelsanalyse: Für die BestandsverwaltungYOLOv9 dank seiner überlegenen Funktionen zur Merkmalsintegration eine hohe Genauigkeit bei der Zählung dicht gepackter Artikel in Regalen.
- Intelligente Städte: Verkehrsüberwachungssysteme profitieren von YOLOv7, die für das Echtzeit-Verkehrsmanagement unerlässlich sind.
Der Ultralytics Vorteil
Die Verwendung eines der beiden Modelle innerhalb des Ultralytics bietet gegenüber eigenständigen Implementierungen deutliche Vorteile:
- Benutzerfreundlichkeit: Dank einer einheitlichen API können Sie mit einer einzigen Codezeile zwischen YOLOv7, YOLOv9 und neueren Modellen wechseln.
- Gut gepflegtes Ökosystem: Aktive Community-Unterstützung und häufige Updates gewährleisten Kompatibilität mit den neuesten PyTorch -Versionen und CUDA .
- Vielseitigkeit: Über die Erkennung hinaus unterstützt das Ultralytics Instanzsegmentierung, Posenschätzung und OBB-Aufgaben (Oriented Bounding Box), sodass Sie den Umfang Ihres Projekts erweitern können, ohne neue Tools erlernen zu müssen.
Code-Beispiel: Training mit Ultralytics
Das Training beider Modelle ist nahtlos. So können Sie ein YOLOv9 anhand eines benutzerdefinierten Datensatzes trainieren:
from ultralytics import YOLO
# Load a model (YOLOv9c or YOLOv7)
model = YOLO("yolov9c.pt") # or "yolov7.pt"
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model
model.val()
Zukunftssicherheit mit YOLO26
YOLOv9 YOLOv7 zwar YOLOv7 leistungsstarke Tools, doch die Branche entwickelt sich rasant weiter. Das neueste YOLO26, das im Januar 2026 veröffentlicht wurde, repräsentiert den neuesten Stand der Technik im Bereich Computer Vision.
YOLO26 verfügt über ein natives End-to-End-Design NMS, wodurch die Latenz bei der Nachbearbeitung entfällt und die Bereitstellung vereinfacht wird. Es beseitigt den Distribution Focal Loss (DFL) für eine bessere Edge-Kompatibilität und führt den MuSGD-Optimiererein – eine Mischung aus SGD Muon, inspiriert vom LLM-Training – für beispiellose Stabilität. Mit speziellen Verlustfunktionen wie ProgLoss + STAL verbessert YOLO26 die Erkennung kleiner Objekte erheblich und ist damit die empfohlene Wahl für neue Hochleistungsanwendungen.
Für diejenigen, die andere Optionen in Betracht ziehen, sind Modelle wie YOLO11 und RT-DETR bieten ebenfalls einzigartige Vorteile für bestimmte Anwendungsfälle innerhalb der Ultralytics .