Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 vs YOLOv9#

Die Landschaft der Computer Vision entwickelt sich rasant, wobei neue Architekturen kontinuierlich die Grenzen von Geschwindigkeit und Genauigkeit verschieben. In diesem technischen Vergleich untersuchen wir die Unterschiede zwischen YOLO26 und YOLOv9, zwei äußerst einflussreichen Modellen im Bereich der Echtzeit-Objekterkennung. Obwohl beide Modelle ausgeprägte architektonische Innovationen bieten, ist das Verständnis ihrer Leistungs-Abwägungen, Bereitstellungsfähigkeiten und Hardwareanforderungen entscheidend, um das richtige Werkzeug für dein nächstes Vision-Projekt auszuwählen.

Link to this sectionYOLO26: Das Edge-optimierte Kraftpaket#

Das Anfang 2026 veröffentlichte Ultralytics YOLO26 stellt einen generationenübergreifenden Sprung in der Bereitstellungseffizienz und der Stabilität des Modelltrainings dar. Als natives End-to-End-Framework konzipiert, behebt es direkt die Bereitstellungsengpässe, die Edge-KI-Anwendungen historisch belastet haben.

Modelldetails:

Link to this sectionArchitektur und Innovationen#

YOLO26 gestaltet die Nachbearbeitungspipeline grundlegend neu, indem es ein End-to-End NMS-Free Design einführt. Durch den Wegfall der Non-Maximum Suppression (NMS) erzielt das Modell eine drastisch geringere Latenzvariabilität. Dies macht die Bereitstellung auf Mobil- und Edge-Plattformen wesentlich einfacher, insbesondere beim Export in Frameworks wie ONNX und Apple CoreML.

Zusätzlich vereinfacht der Wegfall von Distribution Focal Loss (DFL) den Exportprozess und erhöht die Kompatibilität mit Mikrocontrollern mit geringem Stromverbrauch. Um die Trainingsstabilität zu verbessern, integriert YOLO26 den neuartigen MuSGD Optimizer, eine Mischung aus Stochastic Gradient Descent (SGD) und Muon (inspiriert durch Innovationen im Training großer Sprachmodelle). Dies führt zu einer schnelleren Konvergenz und einer robusteren Merkmalsextraktion über schwierige Datensätze hinweg.

Inferenz auf Edge-Geräten

Dank architektonischer Vereinfachungen und des Wegfalls von DFL erreicht YOLO26 eine bis zu 43 % schnellere CPU-Inferenz, was es zur idealen Wahl für ressourcenbeschränkte Edge-Geräte wie den Raspberry Pi oder NVIDIA Jetson Nano macht.

Zur Erkennung hochkomplexer Objekte in Szenen wie Drohnen-Luftbildern nutzt YOLO26 die aktualisierten ProgLoss + STAL Verlustfunktionen. Diese bieten bemerkenswerte Verbesserungen beim Recall der Erkennung kleiner Objekte. Darüber hinaus bietet es aufgabenspezifische Erweiterungen, einschließlich Multi-Scale-Proto für Instanzsegmentierung, Residual Log-Likelihood Estimation (RLE) für Pose-Schätzung und spezialisierte Winkelverluste für die Erkennung von Oriented Bounding Boxes (OBB).

Erfahre mehr über YOLO26

Link to this sectionYOLOv9: Programmierbare Gradienteninformation#

Das Anfang 2024 eingeführte YOLOv9 brachte theoretische Fortschritte in der Art und Weise, wie neuronale Netze während der Trainingsphase mit dem Gradientenfluss umgehen, wobei der Schwerpunkt auf Parametereffizienz und der Bewahrung tiefer Merkmale lag.

Modelldetails:

Link to this sectionArchitektur und Stärken#

YOLOv9 basiert auf dem Konzept der Programmable Gradient Information (PGI) und dem Generalized Efficient Layer Aggregation Network (GELAN). Diese Konzepte adressieren das Problem des Informationsengpasses, das häufig in tiefen neuronalen Netzen beobachtet wird. Durch die Bewahrung wesentlicher Informationen während des Feed-Forward-Prozesses stellt GELAN sicher, dass die für Gewichtungsaktualisierungen verwendeten Gradienten zuverlässig bleiben. Diese Architektur liefert eine hohe Genauigkeit und macht YOLOv9 zu einem starken Kandidaten für die akademische Forschung zur Theorie neuronaler Netze und zur Optimierung von Gradientenpfaden unter Verwendung des PyTorch Frameworks.

Link to this sectionEinschränkungen#

Trotz seiner exzellenten Parametereffizienz ist YOLOv9 stark auf herkömmliche NMS zur Nachbearbeitung von Bounding Boxes angewiesen, was während der Inferenz auf Edge-Geräten zu rechnerischen Engpässen führen kann. Darüber hinaus konzentriert sich das offizielle Repository weitgehend auf die Objekterkennung, was erhebliches benutzerdefiniertes Engineering erfordert, um es für spezialisierte Aufgaben wie Tracking oder Pose-Schätzung anzupassen.

Erfahre mehr über YOLOv9

Link to this sectionLeistungsvergleich#

Bei der Bewertung dieser Modelle für den realen Einsatz ist das Abwägen von Genauigkeit (mAP), Inferenzgeschwindigkeit und Speicherauslastung entscheidend. Ultralytics-Modelle sind für ihren geringen Speicherbedarf sowohl während des Trainings als auch der Inferenz bekannt und benötigen weitaus weniger CUDA-Speicher als Transformer-basierte Alternativen wie RT-DETR.

Unten findest du einen direkten Vergleich der Leistung von YOLO26 und YOLOv9 auf dem COCO-Datensatz. Die besten Werte in jeder Spalte sind fett hervorgehoben.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO26n64040,938,91.72,45,4
YOLO26s64048,687.22,59,520,7
YOLO26m64053,1220.04.720,468,2
YOLO26l64055,0286.26.224,886,4
YOLO26x64057.5525.811.855,7193,9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Hinweis: CPU-Geschwindigkeiten für YOLOv9 wurden weggelassen, da sie stark von der NMS-Konfiguration abhängen und im Allgemeinen langsamer sind als die native NMS-freie Implementierung von YOLO26.

Link to this sectionAnwendungsfälle und Empfehlungen#

Die Entscheidung zwischen YOLO26 und YOLOv9 hängt von deinen spezifischen Projektanforderungen, Bereitstellungseinschränkungen und Ökosystempräferenzen ab.

Link to this sectionWann man YOLO26 wählen sollte#

YOLO26 ist eine starke Wahl für:

  • NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
  • Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.

Link to this sectionWann du dich für YOLOv9 entscheiden solltest#

YOLOv9 wird empfohlen für:

  • Informationsengpass-Forschung: Akademische Projekte, die Programmable Gradient Information (PGI) und Generalized Efficient Layer Aggregation Network (GELAN)-Architekturen untersuchen.
  • Studien zur Optimierung des Gradientenflusses: Forschung, die sich auf das Verständnis und die Minderung von Informationsverlusten in tiefen Netzwerkschichten während des Trainings konzentriert.
  • Benchmarking hochgenauer Erkennung: Szenarien, in denen die starke COCO-Benchmark-Leistung von YOLOv9 als Referenzpunkt für architektonische Vergleiche benötigt wird.

Link to this sectionDer Ultralytics-Vorteil#

Die Auswahl eines Modells beinhaltet mehr als nur das Lesen eines Genauigkeits-Benchmarks; das umgebende Software-Ökosystem bestimmt, wie schnell du von der Datenerfassung zur Produktion gelangen kannst.

Link to this sectionBenutzerfreundlichkeit und Ökosystem#

Die Ultralytics Python API bietet eine nahtlose "Zero-to-Hero"-Erfahrung. Anstatt komplexe Repositories zu klonen oder verteilte Trainingsskripte manuell zu konfigurieren, können Entwickler das Paket per pip installieren und sofort mit dem Training beginnen. Das aktiv gepflegte Ultralytics-Ökosystem garantiert häufige Updates, automatisierte Integrationen mit ML-Plattformen wie Weights & Biases und eine umfassende Dokumentation.

Weitere Ultralytics-Modelle

Wenn du daran interessiert bist, andere Modelle innerhalb des Ultralytics-Ökosystems zu erkunden, könntest du auch YOLO11 oder das klassische YOLOv8 in Betracht ziehen, die beide eine außergewöhnliche Flexibilität für benutzerdefinierte Anwendungen bieten.

Link to this sectionVielseitigkeit bei Vision-Aufgaben#

Während YOLOv9 in erster Linie eine Erkennungs-Engine ist, ist YOLO26 ein Allzweck-Vision-Werkzeug. Mit einer einzigen einheitlichen Syntax kannst du problemlos von der Objekterkennung zur pixelgenauen Bildsegmentierung oder der ganzheitlichen Klassifizierung wechseln. Diese Vielseitigkeit reduziert die technischen Schulden, die durch die Pflege mehrerer unzusammenhängender Codebasen für verschiedene Computer-Vision-Funktionen entstehen.

Link to this sectionEffizientes Training und Bereitstellung#

Trainingseffizienz ist ein Eckpfeiler der Ultralytics-Philosophie. YOLO26 nutzt leicht verfügbare vortrainierte Gewichte und weist eine deutlich geringere Speicherauslastung im Vergleich zu sperrigen Vision-Transformern auf. Einmal trainiert, ermöglichen integrierte Export-Pipelines Konvertierungen mit einem Klick in optimierte Formate wie TensorRT oder TensorFlow Lite, was den Weg in die Produktion ebnet.

Link to this sectionCode-Beispiel: Erste Schritte mit YOLO26#

Die Implementierung von YOLO26 ist bemerkenswert unkompliziert. Das folgende Python-Snippet zeigt, wie man ein vortrainiertes Modell lädt, es mit benutzerdefinierten Daten trainiert und die Inferenz über die Ultralytics API ausführt.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

Durch die Nutzung der Geschwindigkeit, der vereinfachten Architektur und des robusten Ökosystems von YOLO26 können Teams fortschrittliche Vision-KI-Anwendungen schneller und mit weniger technischen Hürden als je zuvor auf den Markt bringen.

Mitwirkende

Kommentare