Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9: Ein Technologiesprung bei der Objekterkennung#

YOLOv9 markiert einen bedeutenden Fortschritt in der Objekterkennung in Echtzeit und führt bahnbrechende Techniken wie Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) ein. Dieses Modell zeigt bemerkenswerte Verbesserungen bei Effizienz, Genauigkeit und Anpassungsfähigkeit und setzt neue Maßstäbe auf dem MS COCO-Datensatz. Das YOLOv9-Projekt wurde zwar von einem separaten Open-Source-Team entwickelt, baut jedoch auf der robusten Codebasis von Ultralytics YOLOv5 auf und unterstreicht den kollaborativen Geist der KI-Forschungsgemeinschaft.



Watch: YOLOv9 Training on Custom Data using Ultralytics | Industrial Package Dataset

YOLOv9 Leistungsvergleich

Link to this sectionEinführung in YOLOv9#

Auf der Suche nach optimaler Echtzeit-Objekterkennung sticht YOLOv9 durch seinen innovativen Ansatz zur Überwindung von Informationsverlusten hervor, die tiefen neuronalen Netzen inhärent sind. Durch die Integration von PGI und der vielseitigen GELAN-Architektur verbessert YOLOv9 nicht nur die Lernkapazität des Modells, sondern stellt auch sicher, dass entscheidende Informationen während des gesamten Erkennungsprozesses erhalten bleiben, wodurch eine außergewöhnliche Genauigkeit und Leistung erzielt wird.

Link to this sectionKerninnovationen von YOLOv9#

Die Fortschritte von YOLOv9 wurzeln tief in der Bewältigung der Herausforderungen durch Informationsverluste in tiefen neuronalen Netzen. Das Information Bottleneck Principle und der innovative Einsatz umkehrbarer Funktionen sind zentral für sein Design und sorgen dafür, dass YOLOv9 eine hohe Effizienz und Genauigkeit beibehält.

Link to this sectionInformation Bottleneck Principle#

Das Information Bottleneck Principle offenbart eine grundlegende Herausforderung im Deep Learning: Wenn Daten aufeinanderfolgende Schichten eines Netzwerks passieren, steigt das Potenzial für Informationsverluste. Dieses Phänomen wird mathematisch dargestellt als:

I(X, X) >= I(X, f_theta(X)) >= I(X, g_phi(f_theta(X)))

wobei I für die gegenseitige Information steht und f sowie g Transformationsfunktionen mit den Parametern theta bzw. phi repräsentieren. YOLOv9 begegnet dieser Herausforderung durch die Implementierung von Programmable Gradient Information (PGI), das dabei hilft, wesentliche Daten über die Tiefe des Netzwerks hinweg zu bewahren, was eine zuverlässigere Gradientenerzeugung und folglich eine bessere Modellkonvergenz und -leistung sicherstellt.

Link to this sectionUmkehrbare Funktionen#

Das Konzept der umkehrbaren Funktionen ist ein weiterer Eckpfeiler des Designs von YOLOv9. Eine Funktion gilt als umkehrbar, wenn sie ohne Informationsverlust invertiert werden kann, ausgedrückt durch:

X = v_zeta(r_psi(X))

mit psi und zeta als Parametern für die umkehrbare bzw. ihre inverse Funktion. Diese Eigenschaft ist entscheidend für Deep-Learning-Architekturen, da sie es dem Netzwerk ermöglicht, einen vollständigen Informationsfluss beizubehalten, wodurch genauere Aktualisierungen der Modellparameter ermöglicht werden. YOLOv9 integriert umkehrbare Funktionen in seine Architektur, um das Risiko einer Informationsverschlechterung, insbesondere in tieferen Schichten, zu verringern und die Bewahrung kritischer Daten für Objekterkennungsaufgaben sicherzustellen.

Link to this sectionAuswirkungen auf leichtgewichtige Modelle#

Die Bekämpfung von Informationsverlusten ist besonders wichtig für leichtgewichtige Modelle, die oft unterparametrisiert sind und dazu neigen, während des Feedforward-Prozesses erhebliche Informationen zu verlieren. Die Architektur von YOLOv9 stellt durch den Einsatz von PGI und umkehrbaren Funktionen sicher, dass selbst bei einem schlanken Modell die wesentlichen Informationen, die für eine genaue Objekterkennung erforderlich sind, beibehalten und effektiv genutzt werden.

Link to this sectionProgrammable Gradient Information (PGI)#

PGI ist ein neuartiges Konzept, das in YOLOv9 eingeführt wurde, um das Informationsengpassproblem zu bekämpfen und die Bewahrung wesentlicher Daten über tiefe Netzwerkschichten hinweg sicherzustellen. Dies ermöglicht die Erzeugung zuverlässiger Gradienten, was präzise Modellaktualisierungen erleichtert und die gesamte Erkennungsleistung verbessert.

Link to this sectionGeneralized Efficient Layer Aggregation Network (GELAN)#

GELAN stellt einen strategischen architektonischen Fortschritt dar, der es YOLOv9 ermöglicht, eine überlegene Parameternutzung und Recheneffizienz zu erreichen. Sein Design ermöglicht die flexible Integration verschiedener Rechenblöcke, wodurch YOLOv9 an eine Vielzahl von Anwendungen angepasst werden kann, ohne Geschwindigkeit oder Genauigkeit zu opfern.

YOLOv9 Architekturvergleich

Link to this sectionYOLOv9 Benchmarks#

Das Benchmarking in YOLOv9 mit Ultralytics umfasst die Bewertung der Leistung deines trainierten und validierten Modells in realen Szenarien. Dieser Prozess beinhaltet:

  • Leistungsbewertung: Einschätzung der Geschwindigkeit und Genauigkeit des Modells.
  • Exportformate: Testen des Modells über verschiedene Exportformate, um sicherzustellen, dass es die notwendigen Standards erfüllt und in verschiedenen Umgebungen gut funktioniert.
  • Framework-Unterstützung: Bereitstellung eines umfassenden Frameworks innerhalb von Ultralytics YOLOv8, um diese Bewertungen zu erleichtern und konsistente sowie zuverlässige Ergebnisse sicherzustellen.

Durch Benchmarking kannst du sicherstellen, dass dein Modell nicht nur in kontrollierten Testumgebungen gut funktioniert, sondern auch in praktischen Anwendungen in der realen Welt eine hohe Leistung beibehält.



Watch: How to Benchmark the YOLOv9 Model Using the Ultralytics Python Package

Link to this sectionLeistung auf dem MS COCO-Datensatz#

Die Leistung von YOLOv9 auf dem COCO-Datensatz verdeutlicht seine bedeutenden Fortschritte bei der Echtzeit-Objekterkennung und setzt neue Maßstäbe bei verschiedenen Modellgrößen. Tabelle 1 bietet einen umfassenden Vergleich modernster Echtzeit-Objekterkennungsmodelle und illustriert die überlegene Effizienz und Genauigkeit von YOLOv9.

Leistung
ModellGröße
(Pixel)
mAPval
50-95
mAPval
50
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.353,12.07.7
YOLOv9s64046.863.47.226,7
YOLOv9m64051.468.120,176,8
YOLOv9c64053.070.225.5102.8
YOLOv9e64055.672.858.1192.5

Die Iterationen von YOLOv9, von der winzigen t-Variante bis zum umfangreichen e-Modell, zeigen Verbesserungen nicht nur bei der Genauigkeit (mAP-Metriken), sondern auch bei der Effizienz mit einer reduzierten Anzahl von Parametern und Rechenanforderungen (FLOPs). Diese Tabelle unterstreicht die Fähigkeit von YOLOv9, hohe Präzision zu liefern und gleichzeitig den Rechenaufwand im Vergleich zu früheren Versionen und konkurrierenden Modellen beizubehalten oder zu reduzieren.

Im Vergleich dazu zeigt YOLOv9 bemerkenswerte Zuwächse:

  • Leichtgewichtige Modelle: YOLOv9s übertrifft das YOLO MS-S bei der Parametereffizienz und Rechenlast und erreicht dabei eine Verbesserung von 0.4∼0.6% bei AP.
  • Mittlere bis große Modelle: YOLOv9m und YOLOv9e zeigen bemerkenswerte Fortschritte beim Ausgleich des Kompromisses zwischen Modellkomplexität und Erkennungsleistung und bieten signifikante Reduzierungen bei Parametern und Berechnungen vor dem Hintergrund verbesserter Genauigkeit.

Besonders das Modell YOLOv9c unterstreicht die Effektivität der Architektur-Optimierungen. Es arbeitet mit 42 % weniger Parametern und 21 % weniger Rechenbedarf als YOLOv7 AF, erreicht jedoch eine vergleichbare Genauigkeit, was die signifikanten Effizienzverbesserungen von YOLOv9 demonstriert. Darüber hinaus setzt das Modell YOLOv9e einen neuen Standard für große Modelle mit 15 % weniger Parametern und 25 % weniger Rechenbedarf als YOLOv8x, neben einer inkrementellen Verbesserung von 1,7 % beim AP.

Diese Ergebnisse zeigen die strategischen Fortschritte von YOLOv9 im Modelldesign und unterstreichen seine gesteigerte Effizienz, ohne die für Echtzeit-Objekterkennungsaufgaben wesentliche Präzision zu beeinträchtigen. Das Modell verschiebt nicht nur die Grenzen der Leistungsmetriken, sondern betont auch die Bedeutung der Recheneffizienz, was es zu einer zentralen Entwicklung im Bereich der Computer Vision macht.

Link to this sectionFazit#

YOLOv9, veröffentlicht im Februar 2024, stellte eine entscheidende Entwicklung in der Echtzeit-Objekterkennung dar und bot signifikante Verbesserungen in Bezug auf Effizienz, Genauigkeit und Anpassungsfähigkeit. Durch die Bewältigung kritischer Herausforderungen mittels innovativer Lösungen wie PGI und GELAN setzte YOLOv9 zum Zeitpunkt seiner Veröffentlichung neue Maßstäbe. Obwohl neuere Modelle wie YOLO11 und YOLO26 seitdem mit zusätzlichen Verbesserungen veröffentlicht wurden, beeinflussen die architektonischen Innovationen von YOLOv9 weiterhin das Fachgebiet.

Link to this sectionAnwendungsbeispiele#

Dieses Beispiel bietet einfache YOLOv9 Trainings- und Inferenzbeispiele. Für die vollständige Dokumentation zu diesen und anderen Modi, siehe die Predict, Train, Val und Export Dokumentationsseiten.

Beispiel

Vortrainierte PyTorch *.pt-Modelle sowie Konfigurations-*.yaml-Dateien können an die YOLO()-Klasse übergeben werden, um eine Modellinstanz in Python zu erstellen:

from ultralytics import YOLO

# Build a YOLOv9c model from scratch
model = YOLO("yolov9c.yaml")

# Build a YOLOv9c model from pretrained weight
model = YOLO("yolov9c.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLOv9c model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

Link to this sectionUnterstützte Aufgaben und Modi#

Die YOLOv9-Serie bietet eine Reihe von Modellen, die jeweils für leistungsstarke Objekterkennung optimiert sind. Diese Modelle decken unterschiedliche Rechenanforderungen und Genauigkeitsanforderungen ab, wodurch sie vielseitig für eine breite Palette von Anwendungen einsetzbar sind.

ModellDateinamenAufgabenInferenceValidationTrainingExportieren
YOLOv9yolov9t.pt yolov9s.pt yolov9m.pt yolov9c.pt yolov9e.ptObjekterkennung
YOLOv9-segyolov9c-seg.pt yolov9e-seg.ptInstance Segmentation

Diese Tabelle bietet einen detaillierten Überblick über die YOLOv9-Modellvarianten und hebt ihre Fähigkeiten bei Objekterkennungsaufgaben sowie ihre Kompatibilität mit verschiedenen Betriebsmodi wie Inferenz, Validierung, Training und Export hervor. Diese umfassende Unterstützung stellt sicher, dass Nutzer die Fähigkeiten von YOLOv9-Modellen in einem breiten Spektrum von Objekterkennungsszenarien vollständig nutzen können.

Hinweis

Das Training von YOLOv9-Modellen erfordert mehr Ressourcen und dauert länger als bei vergleichbar großen YOLOv8-Modellen.

Link to this sectionZitate und Danksagungen#

Wir möchten den YOLOv9-Autoren für ihre bedeutenden Beiträge im Bereich der Echtzeit-Objekterkennung danken:

Zitat
@article{wang2024yolov9,
  title={YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information},
  author={Wang, Chien-Yao  and Liao, Hong-Yuan Mark},
  booktitle={arXiv preprint arXiv:2402.13616},
  year={2024}
}

Das ursprüngliche YOLOv9-Paper ist auf arXiv zu finden. Die Autoren haben ihre Arbeit öffentlich zugänglich gemacht, und die Codebasis kann auf GitHub abgerufen werden. Wir schätzen ihre Bemühungen, das Feld voranzubringen und ihre Arbeit der breiteren Community zugänglich zu machen.

Link to this sectionFAQ#

Link to this sectionWelche Innovationen führt YOLOv9 für die Echtzeit-Objekterkennung ein?#

YOLOv9 führt bahnbrechende Techniken wie Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) ein. Diese Innovationen gehen Informationsverlustprobleme in tiefen neuronalen Netzen an und sorgen für hohe Effizienz, Genauigkeit und Anpassungsfähigkeit. PGI bewahrt wesentliche Daten über Netzwerkschichten hinweg, während GELAN die Parameternutzung und Recheneffizienz optimiert. Erfahre mehr über die Kerninnovationen von YOLOv9, die neue Maßstäbe auf dem MS COCO-Datensatz setzen.

Link to this sectionWie schneidet YOLOv9 auf dem MS COCO-Datensatz im Vergleich zu anderen Modellen ab?#

YOLOv9 übertrifft modernste Echtzeit-Objekterkennungsmodelle durch höhere Genauigkeit und Effizienz. Auf dem COCO-Datensatz zeigen YOLOv9-Modelle überlegene mAP-Werte bei verschiedenen Größen, während der Rechenaufwand beibehalten oder reduziert wird. Zum Beispiel erreicht YOLOv9c eine vergleichbare Genauigkeit mit 42 % weniger Parametern und 21 % weniger Rechenbedarf als YOLOv7 AF. Erkunde Leistungsvergleiche für detaillierte Metriken.

Link to this sectionWie kann ich ein YOLOv9-Modell mit Python und CLI trainieren?#

Du kannst ein YOLOv9-Modell sowohl mit Python als auch mit CLI-Befehlen trainieren. Instanziiere für Python ein Modell mit der YOLO-Klasse und rufe die train-Methode auf:

from ultralytics import YOLO

# Build a YOLOv9c model from pretrained weights and train
model = YOLO("yolov9c.pt")
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Führe für das CLI-Training aus:

yolo train model=yolov9c.yaml data=coco8.yaml epochs=100 imgsz=640

Erfahre mehr über Anwendungsbeispiele für Training und Inferenz.

Link to this sectionWas sind die Vorteile der Verwendung von Ultralytics YOLOv9 für leichtgewichtige Modelle?#

YOLOv9 ist darauf ausgelegt, Informationsverluste zu mindern, was besonders für leichtgewichtige Modelle wichtig ist, die oft dazu neigen, erhebliche Informationen zu verlieren. Durch die Integration von Programmable Gradient Information (PGI) und umkehrbaren Funktionen stellt YOLOv9 die Beibehaltung wesentlicher Daten sicher, was die Genauigkeit und Effizienz des Modells verbessert. Dies macht es sehr gut geeignet für Anwendungen, die kompakte Modelle mit hoher Leistung erfordern. Für weitere Details erkunde den Abschnitt über YOLOv9s Auswirkungen auf leichtgewichtige Modelle.

Link to this sectionWelche Aufgaben und Modi unterstützt YOLOv9?#

YOLOv9 unterstützt verschiedene Aufgaben, einschließlich Objekterkennung und Instanzsegmentierung. Es ist mit mehreren Betriebsmodi kompatibel, wie Inferenz, Validierung, Training und Export. Diese Vielseitigkeit macht YOLOv9 anpassungsfähig an diverse Echtzeit-Computer-Vision-Anwendungen. Beziehe dich auf den Abschnitt unterstützte Aufgaben und Modi für weitere Informationen.

Kommentare