YOLOv9 . YOLO26: Ein technischer Einblick in die moderne Objekterkennung
Die Landschaft der Echtzeit-Objekterkennung hat sich in den letzten Jahren erheblich weiterentwickelt. Da Machine-Learning-Anwender Modelle auf einer Vielzahl von Hardwareplattformen einsetzen möchten, ist die Wahl der richtigen Architektur von entscheidender Bedeutung. In diesem umfassenden technischen Leitfaden vergleichen wir zwei wichtige Meilensteine im Bereich Computer Vision: YOLOv9, das Anfang 2024 mit Schwerpunkt auf Gradientenpfadoptimierungen eingeführt wurde, und Ultralytics , das neueste hochmoderne Framework, das Anfang 2026 veröffentlicht wurde und die Edge-Inferenz und Trainingsstabilität völlig neu definiert.
Zusammenfassung: Modellherkunft und Urheberschaft
Das Verständnis der Ursprünge dieser Deep-Learning-Modelle liefert wertvolle Informationen hinsichtlich ihrer architektonischen Gestaltung und ihrer Zielgruppen.
YOLOv9
YOLOv9 von Chien-Yao Wang und Hong-Yuan Mark Liao vom Institut für Informationswissenschaft der Academia Sinica in Taiwan entwickelt und am 21. Februar 2024 veröffentlicht. Das Modell konzentriert sich stark auf theoretische Deep-Learning-Konzepte und befasst sich insbesondere mit dem Problem des Informationsengpasses in tiefen Faltungsneuronalen Netzen (CNNs).
Ultralytics YOLO26
Verfasst von Glenn Jocher und Jing Qiu bei Ultralyticswurde YOLO26 am 14. Januar 2026 veröffentlicht. Aufbauend auf dem großen Erfolg seiner Vorgänger wie YOLO11 und YOLOv8wurde YOLO26 von Grund auf neu entwickelt, um Produktionsreife, Edge-Bereitstellung und native End-to-End-Effizienz in den Vordergrund zu stellen.
Probieren Sie YOLO26 noch heute aus
Sind Sie bereit, Ihre Computer-Vision-Pipeline zu aktualisieren? Mit der Ultralytics können Sie YOLO26-Modelle ganz einfach in der Cloud trainieren und bereitstellen, ohne Code schreiben zu müssen.
Architektonische Innovationen
Beide Modelle führen bahnbrechende Veränderungen in der Art und Weise ein, wie neuronale Netze visuelle Daten verarbeiten, aber sie nähern sich dem Problem aus unterschiedlichen Blickwinkeln.
Programmierbare Gradienteninformationen in YOLOv9
Der wichtigste Beitrag YOLOv9 zu diesem Forschungsgebiet ist die Einführung von Programmable Gradient Information (PGI) und dem Generalized Efficient Layer Aggregation Network (GELAN). Mit zunehmender Tiefe neuronaler Netze kommt es häufig zu Informationsverlusten während des Feedforward-Prozesses. PGI sorgt dafür, dass die Gradienten, die zur Aktualisierung der Gewichte während der Backpropagation verwendet werden, genau und zuverlässig bleiben, sodass die GELAN-Architektur mit weniger Parametern eine hohe Genauigkeit erzielen kann.
YOLOv9 jedoch stark auf die traditionelle Nicht-Maximalunterdrückung (NMS) für die Nachbearbeitung, was bei der Inferenz in der Praxis zu einem Latenzengpass führen kann.
Die Edge-First-Architektur von YOLO26
YOLO26 verfolgt einen radikal anderen Ansatz, indem es die gesamte Pipeline vom Training bis zum Echtzeit-Einsatz optimiert. Es baut auf dem NMS auf, das erstmals in YOLOv10eingeführt wurde, und macht NMS vollständig überflüssig. Dies führt zu einer unglaublich geringen Latenz, wodurch es stark für Edge-Geräte wie den Raspberry Pi oder NVIDIA optimiert ist.
Darüber hinaus entfernt YOLO26 den Distributionsfokusverlust (DFL) vollständig. Diese strukturelle Änderung vereinfacht den Modelexport nach ONNX und sorgt für eine deutlich bessere Kompatibilität mit Mikrocontrollern mit geringem Stromverbrauch.
Für die Trainingsphase integriert YOLO26 den neuartigen MuSGD-Optimierer, eine Mischung aus stochastischer Gradientenabstiegsmethode und Muon (inspiriert von den LLM-Trainingsmethoden von Moonshot AI's Kimi K2). Dies schließt die Lücke zwischen den Trainingsinnovationen für große Sprachmodelle (LLM) und der Computervision und bietet ein deutlich stabileres Training und schnellere Konvergenzzeiten.
Leistung und Metriken im Vergleich
Beim Benchmarking mit dem weit verbreiteten COCO zeigen beide Modelle außergewöhnliche Fähigkeiten, aber das Ultralytics glänzt durch praktische Inferenzgeschwindigkeiten und Parametereffizienz.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Analyse der Ergebnisse
- Geschwindigkeit und Effizienz: Da YOLO26 eine NMS Architektur und vereinfachte Verlustfunktionen nutzt, bietet es im Vergleich zu älteren Architekturen CPU um bis zu 43 % schnellere CPU . Das YOLO26n-Modell läuft mit einer atemberaubenden Geschwindigkeit von 1,7 ms auf einer NVIDIA GPU TensorRTmit einer Geschwindigkeit von 1,7 ms auf einer NVIDIA T4-GPU, was es zur ersten Wahl für Echtzeit-Videostreams macht.
- Genauigkeit: Das YOLO26x-Modell erreicht einen beispiellosen Wert von 57,5 mAP und übertrifft damit das größte YOLOv9e-Modell bei gleichzeitig geringerer Latenz.
- Speicheranforderungen: Ultralytics sind für ihre Effizienz bekannt. YOLO26 benötigt im Vergleich zu komplexen transformatorbasierten Bildverarbeitungsmodellen deutlich weniger CUDA während des Modelltrainings und der Inferenz, sodass Entwickler größere Batch-Größen auf handelsüblicher Hardware verwenden können.
Ökosystem, Benutzerfreundlichkeit und Vielseitigkeit
Die wahre Stärke des Ultralytics liegt in seiner Benutzerfreundlichkeit. Während Forscher, die dieYOLOv9-GitHub-Codebasis nutzen, sich mit komplexen Umgebungseinstellungen und manuellen Skripten auseinandersetzen müssen, ist YOLO26 vollständig in die intuitivePython integriert.
Beispiel für eine optimierte API
Das Training eines hochmodernen YOLO26-Modells erfordert nur wenige Zeilen Python :
from ultralytics import YOLO
# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export natively to ONNX format in a single command
model.export(format="onnx")
Unübertroffene Vielseitigkeit bei der Aufgabenbearbeitung
Im Gegensatz zu YOLOv9, das in erster Linie auf die Standard-Objekterkennung zugeschnitten ist, unterstützt YOLO26 von Haus aus eine Vielzahl von Computer-Vision-Aufgaben. Die Architektur umfasst spezifische Verbesserungen für verschiedene Anwendungen:
- Instanzsegmentierung: Verfügt über einen speziellen semantischen Segmentierungsverlust und einen Multi-Scale-Proto für makellose Masken auf Pixelebene.
- Posen-Schätzung: Integriert die Residual Log-Likelihood-Schätzung (RLE), um track -Schlüsselpunkte mit äußerster Präzision track .
- Orientierte Begrenzungsrahmen (OBB): Enthält eine spezielle Winkelverlustfunktion, die speziell zur Lösung von Begrenzungsproblemen bei der Erkennung gedrehter Objekte in Luftbildern entwickelt wurde.
- Bildklassifizierung: Robuste Kategorisierung für ganze Bilder basierend auf ImageNet Standards.
Integriertes Ökosystem
Alle YOLO26-Modelle profitieren von der nahtlosen Integration in die Ultralytics , die integrierte Datensatzkennzeichnung, aktives Lernen und sofort einsatzbereite Pipelines bietet.
Anwendungen in der realen Welt
Die Wahl zwischen diesen Modellen hängt oft von der Umgebung ab, in der sie eingesetzt werden sollen.
IoT und Edge-Robotik
Für Robotik, autonome Drohnen und Smart-Home-IoT-Geräte ist YOLO26 der unangefochtene Champion. Die Integration von ProgLoss + STAL bringt bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, was für die landwirtschaftliche Überwachung aus hochfliegenden Drohnen von entscheidender Bedeutung ist. In Kombination mit seiner um 43 % schnelleren CPU und dem NMS Design kann YOLO26 flüssig auf Hardware ohne dedizierte GPUs ausgeführt werden.
Akademische Forschung und Gradientenanalyse
YOLOv9 bleibt ein in akademischen Kreisen hoch angesehenes Modell. Forscher, die sich mit den theoretischen Grenzen des Gradientenflusses befassen, oder diejenigen, die benutzerdefinierte PyTorch -Schichten auf Basis des PGI-Konzepts entwickeln möchten, werden die Codebasis YOLOv9 als hervorragende Grundlage für die Erforschung der Deep-Learning-Theorie empfinden.
Hochgeschwindigkeits-Fertigungslinien
In industriellen Umgebungen wie der automatisierten Fehlererkennung auf Hochgeschwindigkeitsförderbändern sorgen die rasanten TensorRT der YOLO26-Modelle dafür, dass keine Frames verloren gehen, wodurch der Durchsatz von Qualitätssicherungssystemen maximiert wird.
Anwendungsfälle und Empfehlungen
Die Wahl zwischen YOLOv9 YOLO26 hängt von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen ab.
Wann man YOLOv9 wählen sollte
YOLOv9 eine gute Wahl für:
- Forschung zu Informationsengpässen: Wissenschaftliche Projekte, die sich mit den Architekturen „Programmable Gradient Information“ (PGI) und „Generalized Efficient Layer Aggregation Network“ (GELAN) befassen.
- Studien zur Optimierung des Gradientenflusses: Die Forschung konzentrierte sich auf das Verständnis und die Minderung von Informationsverlusten in tiefen Netzwerkschichten während des Trainings.
- Benchmarking für hochpräzise Erkennung: Szenarien, in denen die starke COCO Leistung YOLOv9 als Referenzpunkt für Architekturvergleiche benötigt wird.
Wann man YOLO26 wählen sollte
YOLO26 wird empfohlen für:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Fazit
Beide Modelle stellen einen unglaublichen Fortschritt für die Open-Source-Community dar. YOLOv9 wichtige theoretische Verbesserungen für den Gradientenfluss YOLOv9 , die die Architektur der kommenden Jahre prägen werden. Für moderne Entwickler, Startups und Unternehmensteams, die eine perfekte Balance zwischen Geschwindigkeit, Genauigkeit und einfacher Implementierung suchen, ist Ultralytics jedoch die klare Empfehlung.
Durch die Eliminierung NMS, die Einführung des leistungsstarken MuSGD-Optimierers und die Bereitstellung einer beispiellosen Suite von Tools für Erkennungs-, Segmentierungs- und Positionsaufgaben stellt YOLO26 sicher, dass Ihre Computer-Vision-Projekte auf dem zuverlässigsten und zukunftssichersten Framework basieren, das derzeit verfügbar ist.