YOLOv9: A Leap Forward in Object Detection Technology

Q: How can I train a YOLOv9 model using Python and CLI?

Du kannst ein YOLOv9-Modell sowohl mit den Befehlen Python als auch CLI trainieren. Für Python erstellst du ein Modell mit der Klasse YOLO und rufst die Methode train auf: Für das CLI Training, führe aus: Erfahre mehr über Anwendungsbeispiele für Training und Inferenz.

Q: What tasks and modes does YOLOv9 support?

YOLOv9 unterstützt verschiedene Aufgaben wie die Erkennung von Objekten und die Segmentierung von Instanzen. Es ist mit verschiedenen Betriebsmodi wie Inferenz, Validierung, Training und Export kompatibel. Diese Vielseitigkeit macht YOLOv9 anpassungsfähig für verschiedene Echtzeit-Computer-Vision-Anwendungen. Weitere Informationen findest du im Abschnitt über die unterstützten Aufgaben und Modi.

YOLOv9 stellt einen bedeutenden Fortschritt in der Echtzeit-Objekterkennung dar und führt bahnbrechende Techniken wie Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) ein. Dieses Modell zeigt bemerkenswerte Verbesserungen in Bezug auf Effizienz, Genauigkeit und Anpassungsfähigkeit und setzt mit dem MS COCO-Datensatz neue Maßstäbe. Das YOLOv9-Projekt wird zwar von einem eigenen Open-Source-Team entwickelt, baut aber auf der robusten Codebasis auf, die von Ultralytics YOLOv5und zeigt den kollaborativen Geist der KI-Forschungsgemeinschaft.

Pass auf: YOLOv9 Training auf benutzerdefinierten Daten mit Ultralytics | Industrial Package Dataset

YOLOv9 Leistungsvergleich

Einführung in YOLOv9

In the quest for optimal real-time object detection, YOLOv9 stands out with its innovative approach to overcoming information loss challenges inherent in deep neural networks. By integrating PGI and the versatile GELAN architecture, YOLOv9 not only enhances the model's learning capacity but also ensures the retention of crucial information throughout the detection process, thereby achieving exceptional accuracy and performance.

Die wichtigsten Innovationen von YOLOv9

Die Fortschritte von YOLOv9 sind tief verwurzelt in der Bewältigung der Herausforderungen, die der Informationsverlust in tiefen neuronalen Netzen mit sich bringt. Das Prinzip des Informationsengpasses und die innovative Verwendung von umkehrbaren Funktionen stehen im Mittelpunkt des Designs und sorgen dafür, dass YOLOv9 eine hohe Effizienz und Genauigkeit beibehält.

Prinzip des Informationsengpasses

Das Prinzip des Informationsengpasses offenbart eine grundlegende Herausforderung beim Deep Learning: Je mehr Daten die aufeinanderfolgenden Schichten eines Netzwerks durchlaufen, desto größer ist das Potenzial für Informationsverluste. Dieses Phänomen lässt sich mathematisch wie folgt darstellen:

I(X, X) >= I(X, f_theta(X)) >= I(X, g_phi(f_theta(X)))

wo I bezeichnet die gegenseitige Information, und f und g Transformationsfunktionen mit Parametern darstellen theta und phi. YOLOv9 begegnet dieser Herausforderung, indem es programmierbare Gradienteninformationen (PGI) implementiert, die dazu beitragen, wichtige Daten über die Tiefe des Netzes hinweg zu erhalten, was eine zuverlässigere Gradientengenerierung und folglich eine bessere Modellkonvergenz und Leistung gewährleistet.

Umkehrbare Funktionen

Das Konzept der umkehrbaren Funktionen ist ein weiterer Eckpfeiler des Designs von YOLOv9. Eine Funktion gilt als umkehrbar, wenn sie ohne Informationsverlust invertiert werden kann, wie es durch ausgedrückt wird:

X = v_zeta(r_psi(X))

mit psi und zeta as parameters for the reversible and its inverse function, respectively. This property is crucial for deep learning architectures, as it allows the network to retain a complete information flow, thereby enabling more accurate updates to the model's parameters. YOLOv9 incorporates reversible functions within its architecture to mitigate the risk of information degradation, especially in deeper layers, ensuring the preservation of critical data for object detection tasks.

Auswirkungen auf Lightweight-Modelle

Die Vermeidung von Informationsverlusten ist besonders wichtig für leichtgewichtige Modelle, die oft unterparametrisiert sind und dazu neigen, während des Feedforward-Prozesses wichtige Informationen zu verlieren. Die Architektur von YOLOv9 stellt durch den Einsatz von PGI und reversiblen Funktionen sicher, dass auch bei einem abgespeckten Modell die wesentlichen Informationen, die für eine genaue Objekterkennung erforderlich sind, erhalten bleiben und effektiv genutzt werden.

Programmierbare Gradienteninformation (PGI)

PGI ist ein neuartiges Konzept, das in YOLOv9 eingeführt wurde, um das Problem des Informationsengpasses zu bekämpfen und sicherzustellen, dass wichtige Daten über tiefe Netzwerkschichten hinweg erhalten bleiben. Dies ermöglicht die Generierung zuverlässiger Gradienten, was genaue Modellaktualisierungen erleichtert und die Erkennungsleistung insgesamt verbessert.

Generalized Efficient Layer Aggregation Network (GELAN)

GELAN ist ein strategischer architektonischer Fortschritt, der es YOLOv9 ermöglicht, die Parameter besser zu nutzen und effizienter zu rechnen. Sein Design ermöglicht die flexible Integration verschiedener Rechenblöcke, wodurch YOLOv9 an eine Vielzahl von Anwendungen angepasst werden kann, ohne an Geschwindigkeit oder Genauigkeit einzubüßen.

Vergleich der YOLOv9-Architektur

YOLOv9 Benchmarks

Das Benchmarking in YOLOv9 mit Ultralytics bedeutet, die Leistung deines trainierten und validierten Modells in realen Szenarien zu bewerten. Dieser Prozess umfasst:

Leistungsbewertung: Bewertung der Geschwindigkeit und Genauigkeit des Modells.
Exportformate: Testen des Modells in verschiedenen Exportformaten, um sicherzustellen, dass es die erforderlichen Standards erfüllt und in verschiedenen Umgebungen gut funktioniert.
Rahmenunterstützung: Bereitstellung eines umfassenden Rahmens auf Ultralytics YOLOv8 , um diese Bewertungen zu erleichtern und einheitliche und zuverlässige Ergebnisse zu gewährleisten.

Durch Benchmarking kannst du sicherstellen, dass dein Modell nicht nur in kontrollierten Testumgebungen gut abschneidet, sondern auch in praktischen, realen Anwendungen eine hohe Leistung erbringt.

Pass auf: Benchmarking des YOLOv9-Modells mit dem Ultralytics Python Paket

Leistung im MS COCO-Datensatz

The performance of YOLOv9 on the COCO dataset exemplifies its significant advancements in real-time object detection, setting new benchmarks across various model sizes. Table 1 presents a comprehensive comparison of state-of-the-art real-time object detectors, illustrating YOLOv9's superior efficiency and accuracy.

Tabelle 1. Vergleich von Echtzeit-Objektdetektoren auf dem neuesten Stand der Technik

Leistung

Aufdeckung (COCO)Segmentierung (COCO)

Modell	Größe ^(Pixel)	mAPval^50-95	mAPval⁵⁰	params ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	53.1	2.0	7.7
YOLOv9s	640	46.8	63.4	7.2	26.7
YOLOv9m	640	51.4	68.1	20.1	76.8
YOLOv9c	640	53.0	70.2	25.5	102.8
YOLOv9e	640	55.6	72.8	58.1	192.5

Modell	Größe ^(Pixel)	mAPbox^50-95	mAPmask^50-95	params ^(M)	FLOPs ^(B)
YOLOv9c-seg	640	52.4	42.2	27.9	159.4
YOLOv9e-seg	640	55.1	44.3	60.5	248.4

YOLOv9s Iterationen, die von der kleinen t Variante zur umfangreichen e model, demonstrate improvements not only in accuracy (mAP metrics) but also in efficiency with a reduced number of parameters and computational needs (FLOPs). This table underscores YOLOv9's ability to deliver high precision while maintaining or reducing the computational overhead compared to prior versions and competing models.

Im Vergleich dazu weist YOLOv9 bemerkenswerte Gewinne auf:

Leichte Modelle: YOLOv9s übertrifft die YOLO MS-S in Bezug auf Parametereffizienz und Rechenlast und erreicht eine Verbesserung von 0,4∼0,6% in AP.
Mittlere bis große Modelle: YOLOv9m und YOLOv9e zeigen bemerkenswerte Fortschritte bei der Abwägung zwischen Modellkomplexität und Erkennungsleistung und bieten eine erhebliche Reduzierung der Parameter und Berechnungen vor dem Hintergrund einer verbesserten Genauigkeit.

Vor allem das YOLOv9c-Modell zeigt, wie effektiv die Optimierungen der Architektur sind. Es arbeitet mit 42 % weniger Parametern und 21 % weniger Rechenaufwand als YOLOv7 AF und erreicht dennoch eine vergleichbare Genauigkeit, was die erheblichen Effizienzsteigerungen von YOLOv9 zeigt. Darüber hinaus setzt das Modell YOLOv9e einen neuen Standard für große Modelle, mit 15% weniger Parametern und 25% weniger Rechenaufwand als YOLOv8xund einer zusätzlichen Verbesserung der AP um 1,7 %.

These results showcase YOLOv9's strategic advancements in model design, emphasizing its enhanced efficiency without compromising on the precision essential for real-time object detection tasks. The model not only pushes the boundaries of performance metrics but also emphasizes the importance of computational efficiency, making it a pivotal development in the field of computer vision.

Fazit

YOLOv9 stellt eine entscheidende Entwicklung in der Echtzeit-Objekterkennung dar und bietet erhebliche Verbesserungen in Bezug auf Effizienz, Genauigkeit und Anpassungsfähigkeit. Durch die Bewältigung kritischer Herausforderungen mit innovativen Lösungen wie PGI und GELAN setzt YOLOv9 einen neuen Präzedenzfall für zukünftige Forschung und Anwendung in diesem Bereich. Während sich die KI-Gemeinschaft weiterentwickelt, ist YOLOv9 ein Beweis für die Kraft von Zusammenarbeit und Innovation, die den technologischen Fortschritt vorantreiben.

Verwendungsbeispiele

Dieses Beispiel zeigt einfache YOLOv9-Trainings- und Inferenzbeispiele. Die vollständige Dokumentation zu diesen und anderen Modi findest du auf den Seiten Predict, Train, Val und Export docs.

Beispiel

PythonCLI

PyTorch pretrained *.pt Modelle als auch die Konfiguration *.yaml Dateien können an den YOLO() Klasse, um eine Modellinstanz in python zu erstellen:

from ultralytics import YOLO

# Build a YOLOv9c model from scratch
model = YOLO("yolov9c.yaml")

# Build a YOLOv9c model from pretrained weight
model = YOLO("yolov9c.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLOv9c model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

CLI Befehle sind verfügbar, um die Modelle direkt auszuführen:

# Build a YOLOv9c model from scratch and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolov9c.yaml data=coco8.yaml epochs=100 imgsz=640

# Build a YOLOv9c model from scratch and run inference on the 'bus.jpg' image
yolo predict model=yolov9c.yaml source=path/to/bus.jpg

Unterstützte Aufgaben und Modi

Die YOLOv9-Serie bietet eine Reihe von Modellen, die jeweils für eine leistungsstarke Objekterkennung optimiert sind. Diese Modelle erfüllen unterschiedliche Anforderungen an die Rechenleistung und die Genauigkeit, was sie für eine Vielzahl von Anwendungen geeignet macht.

Modell	Dateinamen	Aufgaben	Inferenz	Validierung	Ausbildung	exportieren
YOLOv9	`yolov9t` `yolov9s` `yolov9m` `yolov9c.pt` `yolov9e.pt`	Objekt-Erkennung	✅	✅	✅	✅
YOLOv9-seg	`yolov9c-seg.pt` `yolov9e-seg.pt`	Instanz-Segmentierung	✅	✅	✅	✅

Diese Tabelle gibt einen detaillierten Überblick über die YOLOv9-Modellvarianten und hebt ihre Fähigkeiten bei der Objekterkennung sowie ihre Kompatibilität mit verschiedenen Betriebsmodi wie Inferenz, Validierung, Training und Export hervor. Diese umfassende Unterstützung stellt sicher, dass die Nutzer/innen die Fähigkeiten der YOLOv9-Modelle in einem breiten Spektrum von Objekterkennungsszenarien voll ausschöpfen können.

Hinweis

Die Ausbildung von YOLOv9-Modellen erfordert mehr Ressourcen und dauert länger als die Ausbildung eines gleich großen YOLOv8 Modells.

Zitate und Danksagungen

Wir möchten den YOLOv9-Autoren für ihre bedeutenden Beiträge im Bereich der Echtzeit-Objekterkennung danken:

BibTeX

@article{wang2024yolov9,
  title={YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information},
  author={Wang, Chien-Yao  and Liao, Hong-Yuan Mark},
  booktitle={arXiv preprint arXiv:2402.13616},
  year={2024}
}

Die ursprüngliche YOLOv9-Veröffentlichung ist auf arXiv zu finden. Die Autoren haben ihre Arbeit öffentlich zugänglich gemacht, und die Codebasis kann auf GitHub eingesehen werden. Wir schätzen ihre Bemühungen, das Feld voranzubringen und ihre Arbeit einer breiteren Gemeinschaft zugänglich zu machen.

FAQ

Welche Neuerungen bringt YOLOv9 für die Objekterkennung in Echtzeit?

YOLOv9 führt bahnbrechende Techniken wie die Programmable Gradient Information (PGI) und das Generalized Efficient Layer Aggregation Network (GELAN) ein. Diese Innovationen lösen das Problem des Informationsverlusts in tiefen neuronalen Netzen und gewährleisten hohe Effizienz, Genauigkeit und Anpassungsfähigkeit. PGI bewahrt wichtige Daten über die verschiedenen Netzwerkschichten hinweg, während GELAN die Nutzung der Parameter und die Effizienz der Berechnungen optimiert. Erfahre mehr über die Kerninnovationen von YOLOv9, die mit dem MS COCO-Datensatz neue Maßstäbe gesetzt haben.

Wie schneidet YOLOv9 beim MS COCO-Datensatz im Vergleich zu anderen Modellen ab?

YOLOv9 übertrifft die modernsten Echtzeit-Objektdetektoren, indem es eine höhere Genauigkeit und Effizienz erreicht. Auf dem COCO-Datensatz zeigen die YOLOv9-Modelle über verschiedene Größen hinweg überlegene mAP-Ergebnisse bei gleichbleibendem oder reduziertem Rechenaufwand. So erreicht YOLOv9c beispielsweise eine vergleichbare Genauigkeit mit 42 % weniger Parametern und 21 % weniger Rechenaufwand als YOLOv7 AF. Detaillierte Metriken findest du in den Leistungsvergleichen.

Wie kann ich ein YOLOv9-Modell mit Python und CLI trainieren?

Du kannst ein YOLOv9-Modell mit den beiden Befehlen Python und CLI trainieren. Für Python instanziierst du ein Modell mit dem Befehl YOLO Klasse und rufen die train Methode:

from ultralytics import YOLO

# Build a YOLOv9c model from pretrained weights and train
model = YOLO("yolov9c.pt")
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Für CLI Training, ausführen:

yolo train model=yolov9c.yaml data=coco8.yaml epochs=100 imgsz=640

Erfahre mehr über Anwendungsbeispiele für Training und Inferenz.

Welche Vorteile hat die Verwendung von Ultralytics YOLOv9 für leichte Modelle?

YOLOv9 wurde entwickelt, um Informationsverluste zu minimieren. Das ist besonders wichtig für leichtgewichtige Modelle, die oft dazu neigen, wichtige Informationen zu verlieren. Durch die Integration von Programmable Gradient Information (PGI) und reversiblen Funktionen sorgt YOLOv9 dafür, dass wichtige Daten erhalten bleiben, was die Genauigkeit und Effizienz des Modells erhöht. Damit eignet es sich hervorragend für Anwendungen, die kompakte Modelle mit hoher Leistung erfordern. Weitere Einzelheiten findest du im Abschnitt über die Auswirkungen von YOLOv9 auf leichtgewichtige Modelle.

Welche Aufgaben und Modi werden von YOLOv9 unterstützt?

YOLOv9 supports various tasks including object detection and instance segmentation. It is compatible with multiple operational modes such as inference, validation, training, and export. This versatility makes YOLOv9 adaptable to diverse real-time computer vision applications. Refer to the supported tasks and modes section for more information.

📅 Created 7 months ago ✏️ Updated 28 days ago