YOLOv9 vs. YOLO: Ein umfassender technischer Vergleich
In der sich schnell entwickelnden Landschaft der Computer Vision ist die Auswahl der optimalen Architektur für die Objekterkennung entscheidend für den Projekterfolg. Diese Analyse bietet einen detaillierten technischen Vergleich zwischen zwei herausragenden Modellen: YOLOv9das für seine architektonischen Innovationen im Bereich der Gradienteninformationen bekannt ist, und YOLO, ein Modell der Alibaba Group, das für Hochgeschwindigkeitsinferenzen entwickelt wurde. Wir untersuchen ihre einzigartigen Architekturen, Leistungskennzahlen und idealen Einsatzszenarien, um Entwicklern und Forschern bei der Entscheidungsfindung zu helfen.
YOLOv9: Programmierbare Gradienteninformationen für höchste Genauigkeit
YOLOv9 stellt eine bedeutende Weiterentwicklung der You Only Look OnceYOLO)-Serie dar und konzentriert sich auf die Behebung des Informationsengpasses, der bei tiefen neuronalen Netzen auftritt. Indem sichergestellt wird, dass wichtige Eingabedaten in allen Netzwerkschichten erhalten bleiben, erreicht YOLOv9 eine hochmoderne Genauigkeit.
Authors: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:Ultralytics YOLOv9 Dokumentation
Architektur und Kerninnovationen
Die Architektur von YOLOv9 basiert auf zwei bahnbrechenden Konzepten zur Optimierung der Effizienz von Deep Learning:
- Programmierbare Gradienteninformation (PGI): PGI ist ein Hilfsrahmen für die Überwachung, der das Problem des Informationsverlustes angeht, wenn sich die Daten durch tiefe Schichten ausbreiten. Es stellt sicher, dass die Verlustfunktion verlässliche Gradienten erhält, so dass das Modell effektivere Merkmale erlernen kann, ohne dass zusätzliche Inferenzkosten anfallen.
- Generalized Efficient Layer Aggregation Network (GELAN): Diese neuartige Architektur kombiniert die Stärken von CSPNet und ELAN. GELAN wurde entwickelt, um die Parameternutzung und die Berechnungseffizienz zu maximieren, indem es ein leichtgewichtiges und dennoch leistungsstarkes Backbone bereitstellt, das verschiedene Berechnungsblöcke unterstützt.
Stärken und Ökosystem
- Erstklassige Genauigkeit: YOLOv9 erreicht außergewöhnliche mAP Ergebnisse auf dem COCO und setzt damit Maßstäbe für Echtzeit-Objektdetektoren.
- Parameter-Effizienz: Dank GELAN liefert das Modell im Vergleich zu vielen Vorgängermodellen mit weniger Parametern eine hohe Leistung.
- Ultralytics : Als Teil des Ultralytics profitiert YOLOv9 von einer vereinheitlichten Python , nahtlosen ModellexportoptionenONNX, TensorRT, CoreML) und einer soliden Dokumentation.
- Stabilität der Ausbildung: Der PGI-Rahmen verbessert die Konvergenzgeschwindigkeit und Stabilität während des Modelltrainings erheblich.
Schwächen
- Intensität der Ressourcen: Obwohl sie für ihre Genauigkeitsklasse effizient sind, erfordern die größten Varianten (wie YOLOv9) erhebliche GPU Speicher für das Training.
- Aufgabenschwerpunkt: Die Kernforschung zielt in erster Linie auf die Objekterkennung ab, während andere Ultralytics wie YOLO11 von Haus aus ein breiteres Spektrum von Aufgaben unterstützen, einschließlich Posenschätzung und OBB.
YOLO: Neuronale Architektur auf der Suche nach Geschwindigkeit
YOLO ist ein Beweis für die Leistungsfähigkeit des automatisierten Architekturdesigns. Das von Alibaba entwickelte System nutzt die Neural Architecture Search (NAS), um ein optimales Gleichgewicht zwischen Inferenzlatenz und Erkennungsleistung zu finden, das speziell auf industrielle Anwendungen ausgerichtet ist.
Authors: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organisation:Alibaba Group
Datum: 2022-11-23
Arxiv:2211.15444
GitHub:YOLO
Architektur und Hauptmerkmale
YOLO zeichnet sich durch mehrere technologische Fortschritte aus, die auf eine Maximierung des Durchsatzes abzielen:
- MAE-NAS-Backbone: Es verwendet eine Backbone-Struktur, die von der Method-Aware Efficient Neural Architecture Search abgeleitet ist, und optimiert die Netzwerktopologie für bestimmte Hardware-Einschränkungen.
- Effizientes RepGFPN: Das Modell verwendet ein reparametrisiertes verallgemeinertes Merkmalspyramidennetzwerk für seinen Hals, das die Merkmalsfusion verbessert und gleichzeitig eine niedrige Latenzzeit beibehält.
- ZeroHead: Ein leichtgewichtiges Design des Erkennungskopfes, das den Rechenaufwand reduziert, der typischerweise mit den letzten Vorhersageschichten verbunden ist.
- AlignedOTA: Eine verbesserte Strategie für die Zuweisung von Bezeichnungen, die die Diskrepanz zwischen Klassifizierungs- und Regressionsaufgaben während des Trainings löst.
Stärken
- Geringe Latenz: YOLO ist auf Geschwindigkeit ausgelegt und eignet sich daher hervorragend für Echtzeit-Inferenzen auf Edge Devices und GPUs.
- Automatisierter Entwurf: Durch den Einsatz von NAS wird sichergestellt, dass die Architektur mathematisch auf Effizienz getrimmt wird, anstatt sich ausschließlich auf manuelle Heuristiken zu verlassen.
- Ankerfrei: Es verwendet einen ankerfreien Ansatz, der die Abstimmung der Hyperparameter im Zusammenhang mit den Ankerboxen vereinfacht.
Schwächen
- Begrenztes Ökosystem: Im Vergleich zu den umfangreichen Werkzeugen, die für Ultralytics zur Verfügung stehen, hat YOLO eine kleinere Gemeinschaft und weniger fertige Integrationswerkzeuge für MLOps.
- Vielseitigkeit: Es ist in erster Linie auf die Erkennung spezialisiert und verfügt nicht über die nativen Multitasking-Fähigkeiten (Segmentierung, Klassifizierung), die in umfassenderen Frameworks zu finden sind.
Erfahren Sie mehr über DAMO-YOLO
Performance-Analyse: Geschwindigkeit vs. Genauigkeit
Beim Vergleich der Leistungsmetriken werden die Kompromisse zwischen den beiden Architekturen deutlich. YOLOv9 priorisiert die Informationserhaltung, um eine überragende Genauigkeit zu erreichen, und übertrifft YOLO oft in den mAP bei ähnlichen Modellgrößen. Im Gegensatz dazu konzentriert sich YOLO auf den reinen Durchsatz.
Die Effizienz der GELAN-Architektur von YOLOv9 ermöglicht es jedoch, in Bezug auf die Geschwindigkeit wettbewerbsfähig zu bleiben und gleichzeitig eine bessere Erkennungsqualität zu bieten. So erreicht YOLOv9 im Vergleich zu YOLO (50,8 %) eine deutlich höhere mAP (53,0 %) bei gleichzeitiger Verwendung von weniger Parametern (25,3M gegenüber 42,1M). Dies unterstreicht die Fähigkeit von YOLOv9, in Bezug auf die Modellkomplexität "mehr für weniger" zu liefern.
Interpretation der Leistung
Bei der Bewertung von Modellen sollten Sie neben der Anzahl der Parameter auch die FLOPs (Floating Point Operations) berücksichtigen. Eine geringere Anzahl von FLOPs deutet im Allgemeinen auf ein Modell hin, das rechnerisch leichter und potenziell schneller auf mobiler oder Edge-KI-Hardware ist.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Ideale Anwendungsfälle
Die Unterschiede in der Architektur bestimmen die idealen Einsatzszenarien für jedes Modell.
YOLOv9 Anwendungen
YOLOv9 ist die bevorzugte Wahl für Anwendungen, bei denen Präzision nicht verhandelbar ist.
- Medizinische Bildgebung: Erkennung von subtilen Anomalien in der medizinischen Bildanalyse, bei denen eine fehlende Erkennung kritisch sein könnte.
- Autonome Navigation: Fortgeschrittene Wahrnehmungssysteme für selbstfahrende Autos, die eine hohe Zuverlässigkeit bei der Objekterkennung erfordern.
- Detaillierte Überwachung: Sicherheitssysteme, die kleine Objekte identifizieren müssen oder in komplexen Umgebungen mit starker Unübersichtlichkeit arbeiten.
YOLO
YOLO eignet sich hervorragend für Umgebungen, in denen ein strenges Latenzbudget vorgegeben ist.
- Hochgeschwindigkeitsfertigung: Industrieanlagen, bei denen Bildverarbeitungssysteme mit schnellen Förderbändern Schritt halten müssen.
- Videoanalyse: Verarbeitung großer Mengen von Videoströmen, bei denen die Durchsatzkosten eine wichtige Rolle spielen.
Der Ultralytics
Obwohl beide Modelle technisch beeindruckend sind, ist die Wahl eines Modells innerhalb des Ultralytics - wie YOLOv9 oder das hochmoderne YOLO11- bietet Entwicklern und Unternehmen deutliche Vorteile.
Nahtloser Workflow und Benutzerfreundlichkeit
Ultralytics legt großen Wert auf Benutzerfreundlichkeit. Auf die Modelle kann über eine einheitliche Schnittstelle zugegriffen werden, die komplexen Standardcode abstrahiert. Egal, ob Sie an benutzerdefinierten Daten trainieren oder Inferenzen durchführen, der Prozess ist konsistent und intuitiv.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Gepflegtes Ökosystem
Ultralytics werden von einer aktiven Gemeinschaft unterstützt und häufig aktualisiert. Funktionen wie Ultralytics HUB ermöglichen eine webbasierte Datensatzverwaltung und Schulung, während umfangreiche Integrationen mit Tools wie TensorBoard und MLflow den MLOps-Lebenszyklus rationalisieren. Im Gegensatz dazu mangelt es Forschungsmodellen wie YOLO oft an diesem Maß an kontinuierlicher Unterstützung und Tooling-Integration.
Vielseitigkeit und Effizienz
Ultralytics sind so konzipiert, dass sie vielseitig einsetzbar sind. Während YOLO speziell auf die Erkennung ausgerichtet ist, erweitern Ultralytics wie YOLO11 ihre Fähigkeiten auf die Segmentierung von Instanzen, die Posenschätzung und die Erkennung von orientierten Bounding Boxen (OBB). Darüber hinaus sind sie für Speichereffizienz optimiert und benötigen im Vergleich zu anderen Architekturen oft weniger CUDA während des Trainings, was zu Einsparungen bei den Hardwarekosten führt.
Fazit
Im Vergleich zwischen YOLOv9 und YOLO zeigen beide Modelle die rasanten Fortschritte in der KI. YOLO bietet eine überzeugende Architektur für die reine Geschwindigkeitsoptimierung. Dennoch, YOLOv9 als die robustere Lösung für die meisten praktischen Anwendungen. Sie bietet eine überragende Genauigkeit pro Parameter, nutzt eine fortschrittliche Architektur zur Vermeidung von Informationsverlusten und ist Teil des florierenden Ultralytics . Für Entwickler, die ein optimales Gleichgewicht zwischen Leistung, Benutzerfreundlichkeit und langfristigem Support suchen, sind Ultralytics nach wie vor die empfohlene Wahl.
Andere Modelle entdecken
Entdecken Sie in unserer Dokumentation, wie andere moderne Modelle im Vergleich abschneiden: