YOLO . YOLOv9: Fortschritte bei der Echtzeit-Objekterkennung
Die Landschaft der Objekterkennung entwickelt sich ständig weiter, wobei Forscher die Grenzen hinsichtlich Genauigkeit, Latenz und Effizienz kontinuierlich erweitern. Zwei bemerkenswerte Architekturen, die in der Computer-Vision-Community für großes Aufsehen gesorgt haben, sind YOLO, entwickelt von der Alibaba Group, und YOLOv9, die von Forschern der Academia Sinica entwickelt wurde.
Beide Modelle zielen darauf ab, die Herausforderung der Echtzeit-Erkennung zu lösen, gehen das Problem jedoch mit unterschiedlichen Architekturphilosophien an.YOLO Neural Architecture Search (NAS) und umfangreiche Neuparametrisierung, um eine geringe Latenz zu optimieren, während YOLOv9 Konzepte wie Programmable Gradient Information (PGI) YOLOv9 , um die Informationsspeicherung während des Deep-Learning-Prozesses zu maximieren.
YOLO: Effizienz durch neuronale Architektursuche
YOLO (Distillation-Enhanced Neural Architecture Search for You Only Look Once) wurde Ende 2022 eingeführt und konzentriert sich auf die strikte Ausgewogenheit von Leistung und Geschwindigkeit für industrielle Anwendungen.
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation:Alibaba Group
Datum: 23.11.2022
Arxiv:YOLO: Ein Bericht über das Design der Echtzeit-Objekterkennung
GitHub:YOLO
Wesentliche Architekturmerkmale
YOLO auf drei Kerntechnologien, die darauf ausgelegt sind, die maximale Leistung aus begrenzten Hardware-Ressourcen herauszuholen:
- MAE-NAS-Backbone: Im Gegensatz zu manuell entworfenen BackbonesYOLO eine auf einem Masked Autoencoder (MAE) basierende neuronale Architektursuche, um die optimale Netzwerkstruktur zu finden. Das Ergebnis ist eine Struktur, die mathematisch auf bestimmte Rechenbeschränkungen zugeschnitten ist.
- Effizientes RepGFPN: Es verwendet ein Generalized Feature Pyramid Network (GFPN), das mit Reparametrisierungsmechanismen erweitert wurde. Dadurch kann das Modell während des Trainings die Vorteile einer komplexen mehrskaligen Merkmalsfusion nutzen und während der Inferenz zu einer einfacheren, schnelleren Struktur zusammenfallen.
- ZeroHead & AlignedOTA: Der als „ZeroHead” bezeichnete Erkennungskopf ist extrem leicht, um die Rechenlast der letzten Ausgabeschichten zu reduzieren. Darüber hinaus löst die Label-Zuweisungsstrategie AlignedOTA Probleme der Fehlausrichtung zwischen Klassifizierungs- und Regressionsaufgaben während des Trainings.
Stärken und Schwächen
Die größte Stärke vonYOLO das Verhältnis zwischen Latenz und Genauigkeit. Für bestimmte industrielle Hardware kann das NAS-basierte Backbone einen überragenden Durchsatz bieten. Allerdings kann die Abhängigkeit des Modells von einer komplexen Distillations-Trainingspipeline – bei der zunächst ein größeres „Lehrer”-Modell trainiert werden muss, um das kleinere Modell anzuleiten – den Trainingsprozess für Entwickler, die schnelle Iterationen benötigen, erschweren. Darüber hinausYOLO das Ökosystem rund umYOLO im Vergleich zur breiteren YOLO weniger aktiv, was die Unterstützung für neuere Einsatzziele möglicherweise einschränkt.
YOLOv9: Lernen mit programmierbaren Gradienten
YOLOv9, veröffentlicht Anfang 2024, befasst sich mit dem Problem des Informationsverlusts in tiefen Netzwerken. Wenn konvolutionelle neuronale Netze tiefer werden, gehen oft wichtige Daten verloren, die für die Zuordnung von Eingaben zu Ausgaben erforderlich sind – ein Phänomen, das als Informationsengpass bekannt ist.
- Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation:Institut für Informationswissenschaft, Academia Sinica
Datum: 21.02.2024
Arxiv:YOLOv9: Lernen, was Sie lernen möchten, mithilfe programmierbarer Gradienteninformationen
GitHub:WongKinYiu/yolov9
Wesentliche Architekturmerkmale
YOLOv9 zwei bahnbrechende Konzepte YOLOv9 , um Informationsverluste zu minimieren:
- Programmierbare Gradienteninformationen (PGI): PGI ist ein zusätzliches Überwachungsframework, das zuverlässige Gradienten für die Aktualisierung von Netzwerkgewichten generiert und sicherstellt, dass tiefe Schichten wichtige semantische Informationen beibehalten. Es umfasst einen reversiblen Zusatzzweig, der nur während des Trainings verwendet und für die Inferenz entfernt wird, sodass bei der Bereitstellung keine zusätzlichen Kosten entstehen.
- GELAN (Generalized Efficient Layer Aggregation Network): Diese Architektur vereint die besten Eigenschaften von CSPNet und ELAN. GELAN ist auf Leichtigkeit und Schnelligkeit ausgelegt und unterstützt gleichzeitig unterschiedliche Rechenblöcke, wodurch eine strenge Kontrolle der Parameteranzahl ohne Einbußen beim rezeptiven Feld möglich ist.
Stärken und Schwächen
YOLOv9 durch seine GenauigkeitYOLOv9 und setzt neue Maßstäbe beim COCO . Dank seiner Fähigkeit, Informationen zu speichern, eignet es sich hervorragend für die Erkennung schwieriger Objekte, die andere Modelle möglicherweise übersehen. Die durch die Hilfsverzweigungen eingeführte architektonische Komplexität kann jedoch die Modifizierung des Codes für benutzerdefinierte Aufgaben im Vergleich zu einfacheren, modularen Designs erschweren. Obwohl es auf GPUs sehr effektiv ist, sind die spezifischen Schichtaggregationen möglicherweise nicht für alle CPU Edge-Geräte vollständig optimiert, im Vergleich zu Modellen, die speziell für diese Ziele entwickelt wurden.
Leistungsvergleich
Die folgende Tabelle zeigt die Leistungskennzahlen vonYOLO YOLOv9. Beachten Sie die Kompromisse zwischen Parameteranzahl, Rechenlast (FLOPs) und Genauigkeit (mAP).
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Während YOLOv9 im Allgemeinen eine höhere Spitzen-Genauigkeit (bis zu 55,6 % mAP) erreicht, bietet YOLO eine wettbewerbsfähige Leistung im Bereich kleiner Modelle, allerdings auf Kosten einer höheren Parameteranzahl für die „Tiny”-Variante. YOLOv9t ist in Bezug auf FLOPs deutlich leichter (7,7 G gegenüber 18,1 G), wodurch es trotz des niedrigeren mAP potenziell besser für Geräte mit extrem begrenzten Ressourcen geeignet ist.
Ultralytics von Ultralytics : Geben Sie YOLO26 ein
WährendYOLO YOLOv9 bedeutende akademische Errungenschaften YOLOv9 , benötigen Entwickler, die sich auf die reale Produktion konzentrieren, oft eine Kombination aus modernster Leistung, Benutzerfreundlichkeit und Flexibilität bei der Bereitstellung. Hier zeichnet sich Ultralytics als die überlegene Wahl für moderne KI-Anwendungen aus.
Warum YOLO26?
YOLO26 wurde im Januar 2026 veröffentlicht und baut auf dem Erbe früherer Generationen auf, führt jedoch grundlegende Veränderungen in der Architektur und der Trainingsstabilität ein.
- End-to-End-Design NMS: Im Gegensatz zu YOLOv9 YOLO, die in der Regel eine Non-Maximum Suppression (NMS) zum Filtern doppelter Begrenzungsrahmen erfordern, ist YOLO26 von Haus aus End-to-End. Dadurch entfällt der NMS vollständig, was die Inferenzlatenz und -varianz reduziert und die Bereitstellungspipelines erheblich vereinfacht.
- MuSGD-Optimierer: Inspiriert von Innovationen im Bereich des Trainings großer Sprachmodelle (LLM) nutzt YOLO26 den MuSGD-Optimierer. Diese Mischung aus SGD Muon (aus Moonshot AI's Kimi K2) sorgt für eine beispiellose Stabilität beim Training, gewährleistet eine schnellere Konvergenz und reduziert den Bedarf an umfangreichen Hyperparameter-Anpassungen.
- Edge-First-Effizienz: Durch die Beseitigung des Distribution Focal Loss (DFL) und die Optimierung der Architektur für CPU erreicht YOLO26 CPU um bis zu 43 % schnellere CPU . Damit ist es der ideale Kandidat für Edge-Computing auf Geräten wie Raspberry Pi oder Mobiltelefonen, die keine GPUs haben.
- Verbesserte Erkennung kleiner Objekte: Mit der Einführung von ProgLoss + STAL (Self-Taught Anchor Learning) erzielt YOLO26 deutliche Verbesserungen bei der Erkennung kleiner Objekte, was für Drohnenbilder und IoT-Sensoren eine wichtige Voraussetzung ist.
Optimierter Arbeitsablauf mit Ultralytics
Vergessen Sie komplexe Destillationspipelines oder manuelle Umgebungseinstellungen. Mit der Ultralytics können Sie Ihre Datensätze verwalten, YOLO26-Modelle in der Cloud trainieren und mit einem einzigen Klick in jedem beliebigen Format (ONNX, TensorRT, CoreML) bereitstellen.
Unübertroffene Vielseitigkeit
WährendYOLO in erster Linie ein ErkennungsmodellYOLO , sorgt das Ultralytics dafür, dass YOLO26 sofort ein umfassendes Spektrum an Aufgaben unterstützt. Ganz gleich, ob Sie Instanzsegmentierung, Posenschätzung mit Residual Log-Likelihood Estimation (RLE) oder Oriented Bounding Box (OBB) -Erkennung für Luftbildvermessungen benötigen – die API bleibt konsistent und einfach.
Code-Beispiel: Training mit Ultralytics
Das Ultralytics Python abstrahiert die Komplexität des Trainings fortgeschrittener Modelle. Sie können nahtlos zwischen YOLOv9 YOLO26 wechseln.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Use GPU 0
)
# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")
Fazit
Die Wahl des richtigen Modells hängt von Ihren spezifischen Anforderungen ab. YOLO ist eine gute Wahl, wenn Sie sich mit NAS-Architekturen beschäftigen oder über Hardware verfügen, die besonders von seiner RepGFPN-Struktur profitiert. YOLOv9 ist eine ausgezeichnete Wahl für Szenarien, die höchste Genauigkeit bei akademischen Benchmarks wie COCO.
Für Entwickler und Unternehmen, die nach einer produktionsreifen Lösung suchen, bietet Ultralytics jedoch das überzeugendste Paket. Sein NMS Design, CPU und die Integration mit der Ultralytics verkürzen die Markteinführungszeit erheblich. Durch die Kombination der theoretischen Stärken früherer Modelle mit praktischen Innovationen wie dem MuSGD-Optimierer erhalten Sie mit YOLO26 nicht nur ein Modell, sondern eine vollständige, zukunftssichere Vision-Lösung.