Zum Inhalt springen

YOLO26 vs. YOLOv9: Die nächste Evolutionsstufe in der Echtzeit-Objekterkennung

Die Landschaft der Computervision entwickelt sich rasant weiter, wobei neue Architekturen die Grenzen von Geschwindigkeit und Genauigkeit kontinuierlich erweitern. In diesem technischen Vergleich untersuchen wir die Unterschiede zwischen YOLO26 und YOLOv9, zwei äußerst einflussreichen Modellen im Bereich der Echtzeit-Objekterkennung. Beide Modelle bieten zwar deutliche architektonische Innovationen, doch für die Auswahl des richtigen Tools für Ihr nächstes Vision-Projekt ist es entscheidend, ihre Kompromisse hinsichtlich Leistung, Einsatzmöglichkeiten und Hardwareanforderungen zu verstehen.

YOLO26: Das für den Einsatz am Rand optimierte Kraftpaket

Ultralytics wurde Anfang 2026 veröffentlicht und stellt einen Generationssprung in Bezug auf die Effizienz der Bereitstellung und die Stabilität des Modelltrainings dar. Es wurde als natives End-to-End-Framework konzipiert und beseitigt direkt die Bereitstellungsengpässe, die Edge-KI-Anwendungen in der Vergangenheit geplagt haben.

Modell-Details:

Architektur und Innovationen

YOLO26 gestaltet die Nachbearbeitungspipeline durch die Einführung eines End-to-End-Designs NMS grundlegend neu. Durch den Wegfall der Non-Maximum Suppression (NMS) erreicht das Modell eine deutlich geringere Latenzvariabilität. Dies erleichtert die Bereitstellung auf mobilen und Edge-Plattformen erheblich, insbesondere beim Export in Frameworks wie ONNX und Apple CoreML erheblich vereinfacht.

Darüber hinaus optimiert die Entfernung von Distribution Focal Loss (DFL) den Exportprozess und verbessert die Kompatibilität mit Mikrocontrollern mit geringem Stromverbrauch. Um die Trainingsstabilität zu verbessern, integriert YOLO26 den neuartigen MuSGD Optimizer, eine Mischung aus Stochastic Gradient Descent (SGD) und Muon (inspiriert von Innovationen im Training großer Sprachmodelle). Dies führt zu einer schnelleren Konvergenz und einer robusteren Merkmalsextraktion bei schwierigen Datensätzen.

Edge-Geräte-Inferenz

Dank architektonischer Vereinfachungen und der Entfernung von DFL erreicht YOLO26 CPU um bis zu 43 % schnellere CPU und ist damit die ideale Wahl für ressourcenbeschränkte Edge-Geräte wie den Raspberry Pi oder NVIDIA Nano.

Zur Erkennung besonders schwieriger Objekte in Szenen wie Drohnenluftbildern nutzt YOLO26 die aktualisierten Verlustfunktionen ProgLoss + STAL. Diese sorgen für deutliche Verbesserungen bei der Erkennung kleiner Objekte. Darüber hinaus bietet es aufgabenspezifische Verbesserungen, darunter Multi-Scale Proto für die Instanzsegmentierung, Residual Log-Likelihood Estimation (RLE) für die Posenschätzung und einen speziellen Winkelverlust für die Erkennung von Oriented Bounding Boxes (OBB).

Erfahren Sie mehr über YOLO26

YOLOv9: Programmierbare Gradienteninformation

YOLOv9 wurde Anfang 2024 eingeführt und YOLOv9 theoretische Fortschritte in der Art und Weise, wie neuronale Netze den Gradientenfluss während der Trainingsphase handhaben, wobei der Schwerpunkt auf Parametereffizienz und der Beibehaltung tiefer Merkmale lag.

Modell-Details:

Architektur und Stärken

YOLOv9 auf dem Konzept der programmierbaren Gradienteninformation (PGI) und dem verallgemeinerten effizienten Schichtaggregationsnetzwerk (GELAN). Diese Konzepte befassen sich mit dem Problem des Informationsengpasses, das häufig in tiefen neuronalen Netzen beobachtet wird. Durch die Erhaltung wichtiger Informationen im Feedforward-Prozess stellt GELAN sicher, dass die für Gewichtsaktualisierungen verwendeten Gradienten zuverlässig bleiben. Diese Architektur bietet eine hohe Genauigkeit und macht YOLOv9 zu YOLOv9 starken Kandidaten für die akademische Forschung im Bereich der neuronalen Netzwerktheorie und der Gradientenpfadoptimierung unter Verwendung von PyTorch .

Einschränkungen

Trotz seiner hervorragenden Parametereffizienz YOLOv9 stark auf traditionelles NMS die Nachbearbeitung von Begrenzungsrahmen YOLOv9 , was bei der Inferenz auf Edge-Geräten zu Rechenengpässen führen kann. Darüber hinaus konzentriert sich das offizielle Repository weitgehend auf die Objekterkennung, sodass erhebliche Anpassungen erforderlich sind, um es für spezielle Aufgaben wie Tracking oder Posenschätzung anzupassen.

Erfahren Sie mehr über YOLOv9

Leistungsvergleich

Bei der Bewertung dieser Modelle für den Einsatz in der Praxis ist es entscheidend, Genauigkeit (mAP), Inferenzgeschwindigkeit und Speicherverbrauch gegeneinander abzuwägen. Ultralytics sind bekannt für ihren geringen Speicherbedarf sowohl beim Training als auch bei der Inferenz und benötigen weit weniger CUDA als transformatorbasierte Alternativen wie RT-DETR.

Nachfolgend finden Sie einen direkten Vergleich YOLOv9 von YOLO26 und YOLOv9 anhand des COCO . Die besten Werte in jeder Spalte sind fett hervorgehoben.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Hinweis: CPU für YOLOv9 nicht angegeben, da sie je nach NMS stark variieren und im Allgemeinen langsamer sind als die native NMS Implementierung von YOLO26.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLO26 und YOLOv9 von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen YOLOv9 .

Wann man YOLO26 wählen sollte

YOLO26 ist eine gute Wahl für:

  • NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
  • CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.

Wann man YOLOv9 wählen sollte

YOLOv9 empfohlen für:

  • Forschung zu Informationsengpässen: Wissenschaftliche Projekte, die sich mit den Architekturen „Programmable Gradient Information“ (PGI) und „Generalized Efficient Layer Aggregation Network“ (GELAN) befassen.
  • Studien zur Optimierung des Gradientenflusses: Die Forschung konzentrierte sich auf das Verständnis und die Minderung von Informationsverlusten in tiefen Netzwerkschichten während des Trainings.
  • Benchmarking für hochpräzise Erkennung: Szenarien, in denen die starke COCO Leistung YOLOv9 als Referenzpunkt für Architekturvergleiche benötigt wird.

Der Ultralytics Vorteil

Die Auswahl eines Modells umfasst mehr als nur das Lesen eines Genauigkeits-Benchmarks. Das umgebende Software-Ökosystem bestimmt, wie schnell Sie von der Datenerfassung zur Produktion gelangen können.

Benutzerfreundlichkeit und Ökosystem

Die Ultralytics Python bietet eine nahtlose „Zero-to-Hero”-Erfahrung. Anstatt komplexe Repositorys zu klonen oder verteilte Trainingsskripte manuell zu konfigurieren, können Entwickler das Paket über pip und sofort mit dem Training beginnen. Das aktiv gepflegte Ultralytics-Ökosystems garantiert häufige Updates, automatisierte Integrationen mit ML-Plattformen wie Weights & Biases, und umfassender Dokumentation.

Andere Ultralytics

Wenn Sie daran interessiert sind, andere Modelle innerhalb des Ultralytics zu erkunden, könnten Sie auch einen Vergleich in Betracht ziehen YOLO11 oder das klassische YOLOv8, die beide außergewöhnliche Flexibilität für benutzerdefinierte Anwendungen bieten.

Vielseitigkeit bei Sehaufgaben

Während YOLOv9 in erster Linie eine Erkennungs-Engine YOLOv9 , handelt es sich bei YOLO26 um ein universelles Bildverarbeitungswerkzeug. Mit einer einzigen einheitlichen Syntax können Sie ganz einfach von der Objekterkennung zur pixelgenauen Bildsegmentierung oder zur Klassifizierung des gesamten Bildes wechseln. Diese Vielseitigkeit reduziert den technischen Aufwand für die Pflege mehrerer unzusammenhängender Codebasen für verschiedene Computer-Vision-Funktionen.

Effizientes Training und Einsatz

Die Trainingseffizienz ist ein Eckpfeiler der Ultralytics . YOLO26 nutzt leicht verfügbare, vortrainierte Gewichte und zeichnet sich durch einen deutlich geringeren Speicherverbrauch im Vergleich zu sperrigen Vision-Transformatoren aus. Nach dem Training ermöglichen integrierte Export-Pipelines die Konvertierung in optimierte Formate wie TensorRT oder TensorFlow , was den Weg zur Produktion ebnet.

Codebeispiel: Erste Schritte mit YOLO26

Die Implementierung von YOLO26 ist bemerkenswert einfach. Der folgende Python zeigt, wie ein vortrainiertes Modell geladen, mit benutzerdefinierten Daten trainiert und die Inferenz mit der Ultralytics ausgeführt wird.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

Durch die Nutzung der Geschwindigkeit, der vereinfachten Architektur und des robusten Ökosystems von YOLO26 können Teams fortschrittliche Vision-KI-Anwendungen schneller und mit weniger technischen Hürden als je zuvor auf den Markt bringen.


Kommentare