Zum Inhalt springen

YOLOv9 . YOLOv6.0: Architektonische Innovation und Leistungsanalyse

Die Landschaft der Echtzeit-Objekterkennung verändert sich rasant, wobei Forscher ständig die Grenzen der Genauigkeit und Effizienz erweitern. Zwei bedeutende Meilensteine in dieser Entwicklung sind YOLOv9, das Anfang 2024 von der Academia Sinica vorgestellt wurde, und YOLOv6.YOLOv6, eine robuste Version von Meituan aus dem Jahr 2023. Beide Modelle zielen darauf ab, industrielle Herausforderungen zu lösen, verfolgen jedoch grundlegend unterschiedliche architektonische Ansätze, um eine hohe Leistung zu erzielen.

Architekturphilosophien

Der wesentliche Unterschied zwischen diesen beiden Modellen liegt darin, wie sie den Informationsfluss und die Merkmalsextraktion im gesamten neuronalen Netzwerk verwalten.

YOLOv9: Wiederherstellung verlorener Informationen

YOLOv9 befasst sich mit einem grundlegenden Problem beim Deep Learning: dem Informationsverlust bei der Weitergabe von Daten durch tiefe Schichten. Die Autoren Chien-Yao Wang und Hong-Yuan Mark Liao stellten Programmable Gradient Information (PGI) vor. PGI bietet einen zusätzlichen Überwachungszweig, der sicherstellt, dass wichtige semantische Informationen erhalten bleiben, sodass das Modell robustere Merkmale lernen kann, ohne dass zusätzliche Inferenzkosten entstehen.

Darüber hinaus YOLOv9 die GELAN-Architektur (Generalized Efficient Layer Aggregation Network). GELAN optimiert die Parameternutzung und kombiniert die Stärken von CSPNet und ELAN, um im Vergleich zu früheren Generationen eine überlegene Genauigkeit bei weniger FLOPs zu erzielen.

Erfahren Sie mehr über YOLOv9

YOLOv6-3.0: Industrielle Optimierung

YOLOv6.YOLOv6, entwickelt vom Meituan Vision Team, konzentriert sich stark auf den praktischen industriellen Einsatz. Diese Version mit dem Namen „A Full-Scale Reloading” führte das Anchor-Aided Training (AAT) ein, das die Vorteile von ankerbasierten und ankerfreien Detektoren kombiniert, um das Training zu stabilisieren. Außerdem verfügt es über ein überarbeitetes Neck-Design mit bidirektionaler Verkettung (BiC), um die Merkmalsfusion zu verbessern.

YOLOv6 bekannt für seine intensive Nutzung der RepVGG-artigen Reparametrisierung, die komplexe Trainingsstrukturen ermöglicht, die sich in einfachere, schnellere Inferenzblöcke aufteilen lassen.

Erfahren Sie mehr über YOLOv6

Leistungsvergleich

Beim Leistungsvergleich weist YOLOv9 eine höhere mittlere durchschnittliche Genauigkeit (mAP) bei ähnlichen oder geringeren Rechenkosten auf. Die GELAN-Architektur ermöglicht es YOLOv9 , Bilder mit hoher Effizienz YOLOv9 verarbeiten, was es zu einer hervorragenden Wahl für Aufgaben macht, die eine hohe Genauigkeit erfordern.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Während YOLOv6. YOLOv6 wettbewerbsfähige TensorRT aufweist – was vor allem auf sein hardwarefreundliches Backbone-Design zurückzuführen ist –, erzieltYOLOv9 eine höhere Genauigkeit pro Parameter. So übertrifft beispielsweise YOLOv9m YOLOv6.YOLOv6 in puncto Genauigkeit (51,4 % gegenüber 50,0 %), während es deutlich weniger Parameter verwendet (20,0 Mio. gegenüber 34,9 Mio.).

Ökosystem und Benutzerfreundlichkeit

Einer der wichtigsten Faktoren für Entwickler ist das Ökosystem rund um ein Modell. Hier bieten die Ultralytics und die Bibliothek einen entscheidenden Vorteil.

Der Ultralytics Vorteil

YOLOv9 vollständig in das Ultralytics integriert und bietet eine einheitliche API, die den gesamten Lebenszyklus von Machine Learning Operations (MLOps) vereinfacht.

  • Einfaches Training: Mit nur wenigen Zeilen Python-Code können Sie ein YOLOv9 anhand benutzerdefinierter Daten trainieren.
  • Speichereffizienz: Ultralytics sind so optimiert, dass sie GPU während des Trainings senken und so die bei anderen Repositorys häufig auftretenden Speicherfehler (OOM) verhindern.
  • Vielseitigkeit: Das Ökosystem unterstützt den einfachen Export in Formate wie ONNX, OpenVINOund TensorRT.

Optimierter Arbeitsablauf

Die Verwendung von Ultralytics im Vergleich zur Konfiguration eigenständiger Forschungsrepositorien erheblich Zeit bei der technischen Entwicklung.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with default augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Im Gegensatz dazu erfordert die Verwendung YOLOv6 das Klonen des spezifischen Meituan-Repositorys, die Einrichtung einer dedizierten Umgebung und die manuelle Verwaltung von Konfigurationsdateien und Datenvergrößerungspipelines.

Anwendungen in der realen Welt

Die Wahl zwischen diesen Modellen hängt oft von den spezifischen Einschränkungen Ihrer Bereitstellungsumgebung ab.

Hochpräzise Szenarien (YOLOv9)

Die Fähigkeit YOLOv9, semantische Informationen zu speichern, macht es ideal für anspruchsvolle Erkennungsaufgaben, bei denen kleine Details eine Rolle spielen.

  • Medizinische Bildgebung: Bei Aufgaben wie der Tumordiagnose hilft die PGI-Architektur dabei, schwache Merkmale zu erhalten, die sonst in tiefen Netzwerkschichten verloren gehen könnten.
  • Luftüberwachung: Bei der Erkennung kleiner Objekte wie Fahrzeuge oder Personen anhand von Drohnenbildern verbessert die erweiterte Merkmalserhaltung YOLOv9 die Wiederauffindungsraten.

Industrielle Automatisierung (YOLOv6.0)

YOLOv6 speziell für industrielle Anwendungen entwickelt, bei denen die Hardware feststeht und der Durchsatz entscheidend ist.

  • Fertigungslinien: In kontrollierten Umgebungen wie der Batterieherstellung, wo Kameras Teile auf einem Förderband inspizieren, YOLOv6 die TensorRT von YOLOv6 sehr effektiv sein.

Ausblick: Die Leistungsfähigkeit von YOLO26

Obwohl YOLOv9 YOLOv6. YOLOv6 hervorragende Modelle sind, hat sich das Gebiet weiterentwickelt. Das neueste YOLO26 stellt den aktuellen Stand der Technik für Entwickler dar, die das optimale Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit suchen.

YOLO26 bietet mehrere bahnbrechende Funktionen:

  • End-to-End NMS: Durch den Verzicht auf Non-Maximum Suppression (NMS) vereinfacht YOLO26 die Bereitstellungspipelines und reduziert die Latenzschwankungen.
  • MuSGD-Optimierer: Eine Mischung aus SGD und Muon, bringt dieser Optimierer Stabilitätsverbesserungen, die vom Training mit großen Sprachmodellen (LLM) inspiriert sind.
  • Verbesserte Effizienz: Durch die Beseitigung des Distribution Focal Loss (DFL) und andere Optimierungen erreicht YOLO26 CPU um bis zu 43 % schnellere CPU und eignet sich damit perfekt für Edge-Geräte wie den Raspberry Pi.
  • Vielseitigkeit der Aufgaben: Über die Erkennung hinaus bietet YOLO26 spezielle Verbesserungen für die Posenschätzung (unter Verwendung der Residual Log-Likelihood Estimation) und die Segmentierung.

Erfahren Sie mehr über YOLO26

Fazit

Beide YOLOv9 und YOLOv6.YOLOv6 bieten beeindruckende Fähigkeiten. YOLOv6.0 bleibt ein starker Anwärter für bestimmte TensorRT industrielle Workflows. Für die meisten Forscher und Entwickler ist jedoch YOLOv9 eine überlegene Parametereffizienz und Genauigkeit. Darüber hinaus gewährleistet die Zugehörigkeit zum Ultralytics langfristigen Support, einfachen Zugriff auf vortrainierte Gewichte und einen nahtlosen Upgrade-Pfad zu neueren Architekturen wie YOLO26.

Referenzen

  1. YOLOv9: Wang, C.-Y., & Liao, H.-Y. M. (2024). „YOLOv9: Lernen, was Sie lernen möchten, mithilfe programmierbarer Gradienteninformationen.“ arXiv:2402.13616.
  2. YOLOv6 .0: Li, C., et al. (2023). „YOLOv6 .0: A Full-Scale Reloading.“ arXiv:2301.05586.
  3. Ultralytics :ultralytics

Kommentare