Zum Inhalt springen

YOLOv10 YOLO26: Die Entwicklung der End-to-End-Objekterkennung

Die Landschaft der Computervision hat in den letzten Jahren bemerkenswerte Fortschritte erlebt und sich von komplexen, nachbearbeitungsintensiven Architekturen zu optimierten End-to-End-Modellen gewandelt. Dieser technische Vergleich befasst sich mit zwei wichtigen Meilensteinen auf diesem Weg: dem akademischen Durchbruch von YOLOv10 dem hochmodernen, unternehmensgerechten YOLO26. Durch die Untersuchung ihrer Architekturen, Trainingsmethoden und Einsatzmöglichkeiten in der Praxis können Entwickler fundierte Entscheidungen treffen, wenn sie ihre nächste Vision-AI-Anwendung entwickeln.

YOLOv10: Wegweisende End-to-End-Objekterkennung

Autoren: Ao Wang, Hui Chen, Lihao Liu et al.
Organisation: Tsinghua University
Datum: 23.05.2024
Links: arXiv-Artikel | GitHub-Repository

YOLOv10 wurde Mitte 2024 veröffentlicht und YOLOv10 einen bedeutenden Fortschritt in der akademischen Forschung im Bereich der Bildverarbeitung YOLOv10 , indem es eines der hartnäckigsten Probleme bei der Echtzeit-Objekterkennung löste: die Nicht-Maximal-Unterdrückung (NMS). Herkömmliche Objekterkennungssysteme waren stark auf NMS angewiesen, NMS redundante Begrenzungsrahmen herauszufiltern, was zu variablen Latenzzeiten während der Inferenz führte und die Edge-Bereitstellung erschwerte.

Das Team der Tsinghua-Universität führte eine konsistente Doppelzuweisungsstrategie für das NMS Training ein. Dadurch konnte das Modell Begrenzungsrahmen genau vorhersagen, ohne dass ein nachträglicher Filterungsschritt erforderlich war, was direkt zu einer Verbesserung der Inferenzlatenz und einer Verringerung der Hürden für den Einsatz auf Hardware-Beschleunigern führte. Das Modell war zwar für Standard-Erkennungsaufgaben hocheffizient, konzentrierte sich jedoch in erster Linie auf die Vorhersage von Begrenzungsrahmen und bot keine native Unterstützung für komplexere Aufgaben wie Instanzsegmentierung oder Posenschätzung.

Erfahren Sie mehr über YOLOv10

YOLO26: Der neue Standard für Edge- und Cloud-Vision-KI

Autoren: Glenn Jocher und Jing Qiu
Organisation: Ultralytics
Datum: 14.01.2026
Links: GitHub-Repository | Ultralytics

Aufbauend auf den zuvor entwickelten NMS Konzepten stellt das neu veröffentlichte YOLO26 den Gipfel der Leistungsfähigkeit und Vielseitigkeit dar. Es wurde sowohl für die akademische Forschung als auch für den Einsatz in Unternehmen entwickelt und verfügt über ein natives, durchgängig NMS Design, wodurch NMS vollständig entfällt und eine schnellere, einfachere Bereitstellung auf allen unterstützten Hardwarekomponenten ermöglicht wird.

YOLO26 führt mehrere bahnbrechende architektonische Verbesserungen ein. Durch die Entfernung des Distribution Focal Loss (DFL) wird der Exportprozess des Modells erheblich vereinfacht und die Kompatibilität mit Edge-Geräten mit geringem Stromverbrauch verbessert. In Verbindung mit diesen strukturellen Änderungen erreicht YOLO26 CPU um bis zu 43 % schnellere CPU und ist damit eine hervorragende Wahl für IoT- und Robotikanwendungen, bei denen keine GPU verfügbar ist.

Darüber hinaus wurden die Trainingsstabilität und die Konvergenzgeschwindigkeit durch den Einsatz des MuSGD-Optimierers revolutioniert, einer Mischung aus SGD Muon, die von LLM-Trainingstechniken inspiriert ist. In Kombination mit fortschrittlichen Verlustfunktionen wie ProgLoss + STAL bietet YOLO26 bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte. Es führt auch aufgabenspezifische Verbesserungen ein, darunter Multi-Scale-Prototyping für die Segmentierung, Residual Log-Likelihood Estimation (RLE) für die Posenschätzung und einen speziellen Winkelverlust, um Grenzprobleme bei der Erkennung von Oriented Bounding Boxes (OBB) zu lösen.

Erfahren Sie mehr über YOLO26

Unternehmensbereitstellung

Für Teams, die ihre Computer-Vision-Workflows skalieren möchten, bietet die Ultralytics eine nahtlose Integration mit YOLO26 und ermöglicht intuitive Datenannotation, automatisiertes Cloud-Training und Ein-Klick-Bereitstellungsoptionen, ohne dass eine umfangreiche MLOps-Infrastruktur erforderlich ist.

Technischer Leistungsvergleich

Bei der Bewertung dieser Modelle ist das Gleichgewicht zwischen Genauigkeit, Modellgröße und Inferenzgeschwindigkeit von entscheidender Bedeutung. Die folgende Tabelle zeigt die Leistung beider Modellfamilien in verschiedenen Maßstäben, bewertet anhand des COCO .

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Die Daten zeigen deutlich den evolutionären Vorteil der neueren Architektur. YOLO26 erzielt über alle Größenstufen hinweg mAP höheren mAP Mean Average Precision) und behält dabei gleichzeitig eine äußerst wettbewerbsfähige Inferenzgeschwindigkeit bei. Die Entfernung von DFL in YOLO26 trägt insbesondere zu seiner außergewöhnlichenONNX bei, einer Metrik, mit der frühere Generationen oft zu kämpfen hatten.

Trainingsmethoden und Ökosystem

Ein Modell ist nur so nützlich wie das Ökosystem, das es unterstützt. Während YOLOv10 eine hervorragende akademische Implementierung auf Basis von PyTorch, erfordert es jedoch oft eine manuelle Konfiguration für Aufgaben, die über die grundlegende Erkennung hinausgehen.

Im Gegensatz dazu ist YOLO26 vollständig in das gut gepflegte Ultralytics integriert. Dies sorgt für einen deutlich geringeren Speicherbedarf während des Trainings im Vergleich zu transformatorbasierten Modellen wie RT-DETR, sodass Forscher modernste Netzwerke auf handelsüblicher Hardware trainieren können. Die Benutzerfreundlichkeit ist unübertroffen und bietet eine einheitliche API, die Datenanreicherung, Hyperparameter-Optimierung und Protokollierung automatisch übernimmt.

Codebeispiel: Training von YOLO26

Das Training eines vielseitigen, hochpräzisen Modells erfordert nur wenige Zeilen Python :

from ultralytics import YOLO

# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with automatic memory management
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
)

# Export natively to TensorRT without NMS complexities
model.export(format="engine")

Anwendungen und Anwendungsfälle in der Praxis

Die Wahl der richtigen Architektur hängt vollständig von den Einsatzbeschränkungen ab.

Hochgeschwindigkeits-Edge-Computing

Für Anwendungen, die eine schnelle Bereitstellung auf Mikrocontrollern, Robotern oder älteren Mobilgeräten erfordern, ist YOLO26 mit seiner um 43 % schnelleren CPU die erste Wahl. Seine NMS und DFL-freie Architektur lässt sich nahtlos in Formate wie OpenVINO und TensorRT, ideal für die Echtzeit-Videoanalyse in der Smart-City-Infrastruktur.

Erweiterte Multitasking-Vision

Während YOLOv10 bei der reinen Erkennung von Begrenzungsrahmen YOLOv10 , müssen Projekte, die ein umfassendes visuelles Verständnis erfordern, auf YOLO26 zurückgreifen. Von der Instanzsegmentierung in der medizinischen Bildgebung bis hin zur präzisen Posenschätzung für die Sportanalyse bietet YOLO26 aufgabenspezifische Verlustfunktionen, die eine überragende Genauigkeit in verschiedenen Bereichen gewährleisten.

Alternative Optionen

Wenn Ihr Projekt eine robuste Erkennung mit offenem Vokabular erfordert, sollten Sie YOLO in Betracht ziehen. Für Benutzer, die ältere Pipelines beibehalten, YOLO11 innerhalb des Ultralytics weiterhin eine vollständig unterstützte und leistungsstarke Alternative.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv10 YOLO26 hängt von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen ab.

Wann man YOLOv10 wählen sollte

YOLOv10 eine gute Wahl für:

  • NMS Echtzeit-Erkennung: Anwendungen, die von einer durchgängigen Erkennung ohne Non-Maximum Suppression profitieren und die Komplexität der Bereitstellung reduzieren.
  • Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit über verschiedene Modellskalen hinweg erfordern.
  • Anwendungen mit konsistenter Latenz: Einsatzszenarien, in denen vorhersehbare Inferenzzeiten entscheidend sind, wie beispielsweise Robotik oder autonome Systeme.

Wann man YOLO26 wählen sollte

YOLO26 wird empfohlen für:

  • NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
  • CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.

Fazit

Der Übergang von YOLOv10 YOLO26 unterstreicht einen entscheidenden Wandel vom akademischen Proof-of-Concept hin zu produktionsreifen Unternehmenslösungen. Durch die Übernahme des bahnbrechenden NMS Designs und dessen Erweiterung um den MuSGD-Optimierer, ProgLoss und optimierte Edge-Kompatibilität setzt YOLO26 neue Maßstäbe für die Möglichkeiten der Echtzeit-Computervision. Für Entwickler, die ein optimales Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit anstreben, ist YOLO26 die ultimative Empfehlung.


Kommentare