Zum Inhalt springen

YOLOv9 . YOLO26: Ein technischer Einblick in die moderne Objekterkennung

Die Landschaft der Echtzeit-Objekterkennung hat sich in den letzten Jahren erheblich weiterentwickelt. Da Machine-Learning-Anwender Modelle auf einer Vielzahl von Hardwareplattformen einsetzen möchten, ist die Wahl der richtigen Architektur von entscheidender Bedeutung. In diesem umfassenden technischen Leitfaden vergleichen wir zwei wichtige Meilensteine im Bereich Computer Vision: YOLOv9, das Anfang 2024 mit Schwerpunkt auf Gradientenpfadoptimierungen eingeführt wurde, und Ultralytics , das neueste hochmoderne Framework, das Anfang 2026 veröffentlicht wurde und die Edge-Inferenz und Trainingsstabilität völlig neu definiert.

Zusammenfassung: Modellherkunft und Urheberschaft

Das Verständnis der Ursprünge dieser Deep-Learning-Modelle liefert wertvolle Informationen hinsichtlich ihrer architektonischen Gestaltung und ihrer Zielgruppen.

YOLOv9

Verfasst von Chien-Yao Wang und Hong-Yuan Mark Liao vom Institut für Informationswissenschaft an der Academia Sinica in Taiwan, wurde YOLOv9 am 21. Februar 2024 veröffentlicht. Das Modell konzentriert sich stark auf theoretische Deep-Learning-Konzepte, insbesondere auf die Behebung des Informationsengpassproblems in tiefen Convolutional Neural Networks (CNNs).

Erfahren Sie mehr über YOLOv9

Ultralytics YOLO26

Verfasst von Glenn Jocher und Jing Qiu bei Ultralytics, wurde YOLO26 am 14. Januar 2026 veröffentlicht. Aufbauend auf dem enormen Erfolg von Vorgängern wie YOLO11 und YOLOv8, wurde YOLO26 von Grund auf entwickelt, um Produktionsreife, Edge-Bereitstellung und native End-to-End-Effizienz zu priorisieren.

Erfahren Sie mehr über YOLO26

Probieren Sie YOLO26 noch heute aus

Sind Sie bereit, Ihre Computer-Vision-Pipeline zu aktualisieren? Mit der Ultralytics können Sie YOLO26-Modelle ganz einfach in der Cloud trainieren und bereitstellen, ohne Code schreiben zu müssen.

Architektonische Innovationen

Beide Modelle führen bahnbrechende Änderungen in der Art und Weise ein, wie neuronale Netze visuelle Daten verarbeiten, gehen das Problem jedoch aus unterschiedlichen Blickwinkeln an.

Programmierbare Gradienteninformationen in YOLOv9

Der wichtigste Beitrag YOLOv9 zu diesem Forschungsgebiet ist die Einführung von Programmable Gradient Information (PGI) und dem Generalized Efficient Layer Aggregation Network (GELAN). Mit zunehmender Tiefe neuronaler Netze kommt es häufig zu Informationsverlusten während des Feedforward-Prozesses. PGI sorgt dafür, dass die Gradienten, die zur Aktualisierung der Gewichte während der Backpropagation verwendet werden, genau und zuverlässig bleiben, sodass die GELAN-Architektur mit weniger Parametern eine hohe Genauigkeit erzielen kann.

YOLOv9 jedoch stark auf die traditionelle Nicht-Maximalunterdrückung (NMS) für die Nachbearbeitung, was bei der Inferenz in der Praxis zu einem Latenzengpass führen kann.

Die Edge-First-Architektur von YOLO26

YOLO26 verfolgt einen radikal anderen Ansatz, indem es die gesamte Pipeline vom Training bis zum Echtzeit-Einsatz optimiert. Es baut auf dem NMS auf, das erstmals in YOLOv10eingeführt wurde, und macht NMS vollständig überflüssig. Dies führt zu einer unglaublich geringen Latenz, wodurch es stark für Edge-Geräte wie den Raspberry Pi oder NVIDIA optimiert ist.

Darüber hinaus entfernt YOLO26 den Distributionsfokusverlust (DFL) vollständig. Diese strukturelle Änderung vereinfacht den Modelexport nach ONNX und sorgt für eine deutlich bessere Kompatibilität mit Mikrocontrollern mit geringem Stromverbrauch.

Für die Trainingsphase integriert YOLO26 den neuartigen MuSGD-Optimierer, eine Mischung aus stochastischer Gradientenabstiegsmethode und Muon (inspiriert von den LLM-Trainingsmethoden von Moonshot AI's Kimi K2). Dies schließt die Lücke zwischen den Trainingsinnovationen für große Sprachmodelle (LLM) und der Computervision und bietet ein deutlich stabileres Training und schnellere Konvergenzzeiten.

Leistung und Metriken im Vergleich

Beim Benchmarking mit dem weit verbreiteten COCO zeigen beide Modelle außergewöhnliche Fähigkeiten, aber das Ultralytics glänzt durch praktische Inferenzgeschwindigkeiten und Parametereffizienz.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Analyse der Ergebnisse

  • Geschwindigkeit und Effizienz: Da YOLO26 eine NMS-freie Architektur und vereinfachte Verlustfunktionen verwendet, bietet es eine bis zu 43 % schnellere CPU-Inferenz im Vergleich zu älteren Architekturen. Das YOLO26n-Modell läuft mit atemberaubenden 1,7 ms auf einer NVIDIA T4 GPU unter Verwendung von TensorRT, was es zur ultimativen Wahl für Echtzeit-Videostreams macht.
  • Genauigkeit: Das YOLO26x-Modell erreicht einen unübertroffenen 57,5 mAP und übertrifft dabei das größte YOLOv9e-Modell bei gleichzeitig geringerer Latenz.
  • Speicherbedarf: Ultralytics-Modelle sind für ihre Effizienz bekannt. YOLO26 benötigt deutlich weniger CUDA-Speicher während des Modelltrainings und der Inferenz im Vergleich zu komplexen Transformer-basierten Vision-Modellen, wodurch Entwickler größere Batch-Größen auf Consumer-Hardware nutzen können.

Ökosystem, Benutzerfreundlichkeit und Vielseitigkeit

Die wahre Stärke des Ultralytics liegt in seiner Benutzerfreundlichkeit. Während Forscher, die dieYOLOv9-GitHub-Codebasis nutzen, sich mit komplexen Umgebungseinstellungen und manuellen Skripten auseinandersetzen müssen, ist YOLO26 vollständig in die intuitivePython integriert.

Beispiel für eine optimierte API

Das Training eines hochmodernen YOLO26-Modells erfordert nur wenige Zeilen Python :

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

Unübertroffene Vielseitigkeit bei der Aufgabenbearbeitung

Im Gegensatz zu YOLOv9, das in erster Linie auf die Standard-Objekterkennung zugeschnitten ist, unterstützt YOLO26 von Haus aus eine Vielzahl von Computer-Vision-Aufgaben. Die Architektur umfasst spezifische Verbesserungen für verschiedene Anwendungen:

  • Instanzsegmentierung: Verfügt über einen spezialisierten semantischen Segmentierungsverlust und einen Multi-Skalen-Prototyp für makellose Masken auf Pixelebene.
  • Posenschätzung: Integriert Residual Log-Likelihood Estimation (RLE), um skelettale Keypoints mit extremer Präzision zu track.
  • Orientierte Bounding Boxes (OBB): Beinhaltet eine spezialisierte Winkel-Verlustfunktion, die speziell zur Lösung von Grenzproblemen bei der Erkennung rotierter Objekte in Luftbildern entwickelt wurde.
  • Bildklassifizierung: Robuste Kategorisierung für ganze Bilder basierend auf ImageNet-Standards.

Integriertes Ökosystem

Alle YOLO26 Modelle profitieren von der nahtlosen Integration mit der Ultralytics Platform, die integrierte Dataset-Labeling-, Active-Learning- und sofortige Bereitstellungspipelines bietet.

Anwendungen in der realen Welt

Die Wahl zwischen diesen Modellen hängt oft von der Umgebung ab, in der sie eingesetzt werden.

IoT und Edge-Robotik

Für Robotik, autonome Drohnen und Smart-Home-IoT-Geräte ist YOLO26 der unangefochtene Champion. Die Integration von ProgLoss + STAL bringt bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, was für die landwirtschaftliche Überwachung aus hochfliegenden Drohnen von entscheidender Bedeutung ist. In Kombination mit seiner um 43 % schnelleren CPU und dem NMS Design kann YOLO26 flüssig auf Hardware ohne dedizierte GPUs ausgeführt werden.

Akademische Forschung und Gradientenanalyse

YOLOv9 bleibt ein hoch angesehenes Modell in akademischen Kreisen. Forscher, die die theoretischen Grenzen des Gradientenflusses untersuchen, oder diejenigen, die benutzerdefinierte PyTorch-Schichten basierend auf dem PGI-Konzept erstellen möchten, werden die Codebasis von YOLOv9 als hervorragende Grundlage für die Erforschung der Deep-Learning-Theorie empfinden.

Hochgeschwindigkeits-Fertigungslinien

In industriellen Umgebungen wie der automatisierten Fehlererkennung auf Hochgeschwindigkeitsförderbändern sorgen die rasanten TensorRT der YOLO26-Modelle dafür, dass keine Frames verloren gehen, wodurch der Durchsatz von Qualitätssicherungssystemen maximiert wird.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv9 und YOLO26 hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann man YOLOv9 wählen sollte

YOLOv9 eine gute Wahl für:

  • Forschung zu Informationsengpässen: Akademische Projekte, die Architekturen wie Programmable Gradient Information (PGI) und Generalized Efficient Layer Aggregation Network (GELAN) untersuchen.
  • Studien zur Optimierung des Gradientenflusses: Forschung, die sich auf das Verständnis und die Minderung von Informationsverlust in tiefen Netzwerkschichten während des Trainings konzentriert.
  • Benchmarking für hochgenaue Detektion: Szenarien, in denen die starke COCO-Benchmark-Leistung von YOLOv9 als Referenzpunkt für Architekturvergleiche benötigt wird.

Wann man YOLO26 wählen sollte

YOLO26 wird empfohlen für:

  • NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
  • Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Fazit

Beide Modelle stellen unglaubliche Fortschritte für die Open-Source-Community dar. YOLOv9 führte entscheidende theoretische Verbesserungen des Gradientenflusses ein, die Architekturen auf Jahre hinaus inspirieren werden. Für moderne Entwickler, Startups und Unternehmensteams, die eine makellose Balance aus Geschwindigkeit, Genauigkeit und einfacher Bereitstellung suchen, ist Ultralytics YOLO26 jedoch die klare Empfehlung.

Durch die Eliminierung von NMS, die Einführung des leistungsstarken MuSGD-Optimierers und die Bereitstellung einer unvergleichlichen Suite von Tools für detect-, segment- und Pose-Aufgaben stellt YOLO26 sicher, dass Ihre Computer-Vision-Projekte auf dem zuverlässigsten und zukunftssichersten Framework aufbauen, das heute verfügbar ist.


Kommentare