YOLOv10 . YOLO26: Eine neue Ära der End-to-End-Objekterkennung

Die Entwicklung der Echtzeit-Objekterkennung hat in den letzten Jahren rasante Fortschritte gemacht, wobei der Schwerpunkt auf einem ausgewogenen Verhältnis zwischen Geschwindigkeit, Genauigkeit und einfacher Implementierung lag. Dieser Vergleich untersucht zwei wichtige Meilensteine auf diesem Weg: YOLOv10, ein akademischer Durchbruch, der die NMS Erkennung populär gemacht hat, und YOLO26, das neueste produktionsreife Kraftpaket von Ultralytics diese Konzepte für Anwendungen auf Unternehmensebene verfeinert.

Modellübersicht

YOLOv10: Der akademische Vorreiter

YOLOv10 wurde im Mai 2024 von Forschern der Tsinghua-Universität veröffentlicht und YOLOv10 einen Paradigmenwechsel YOLOv10 , indem es die Notwendigkeit der Non-Maximum Suppression (NMS) während der Inferenz beseitigte. Dieser „End-to-End”-Ansatz beseitigte einen langjährigen Engpass in Bereitstellungspipelines, bei denen die Latenz der Nachbearbeitung je nach Szenendichte oft unvorhersehbar variierte.

Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation:Tsinghua University
Datum: 2024-05-23
Arxiv:arXiv:2405.14458
GitHub:THU-MIG/yolov10

Erfahren Sie mehr über YOLOv10

YOLO26: Der Industriestandard

Aufbauend auf den Grundlagen seiner Vorgänger ist YOLO26 (veröffentlicht im Januar 2026) die hochmoderne Lösung Ultralytics, die für reale Auswirkungen entwickelt wurde. Es übernimmt das von YOLOv10 eingeführte NMS, verbessert es YOLOv10 durch einfachere Verlustfunktionen, einen neuartigen Optimierer und massive Geschwindigkeitsverbesserungen auf Edge-Hardware.

Autoren: Glenn Jocher und Jing Qiu
Organisation:Ultralytics
Datum: 2026-01-14
GitHub:ultralytics/ultralytics

Erfahren Sie mehr über YOLO26

Technischer Vergleich

Beide Modelle zielen darauf ab, die durch NMS verursachten Latenzprobleme zu lösen, verfolgen jedoch unterschiedliche Ansätze zur Optimierung. YOLOv10 stark auf die Architektursuche und doppelte Zuweisungen für das Training, während YOLO26 den Schwerpunkt auf einfache Bereitstellung, CPU und Trainingsstabilität legt.

Architektur und Design

YOLOv10 führte konsistente doppelte Zuweisungen für NMS Training ein. Diese Methode kombiniert einen One-to-Many-Kopf (für eine umfassende Überwachung während des Trainings) mit einem One-to-One-Kopf (für die Inferenz) und stellt so sicher, dass das Modell lernt, pro Objekt ein einziges bestes Feld auszugeben. Außerdem wurde ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Modelldesign verwendet, einschließlich leichter Klassifizierungsköpfe und räumlich-kanalgetrennter Downsampling.

YOLO26 verfeinert dies, indem es den Distribution Focal Loss (DFL) vollständig entfernt. Während DFL in früheren Iterationen zur Genauigkeit der Boxen beitrug, vereinfacht seine Entfernung den Exportgraphen erheblich, wodurch YOLO26-Modelle auf eingeschränkten Edge-Geräten und Mikrocontrollern mit geringem Stromverbrauch leichter ausgeführt werden können. Darüber hinaus enthält YOLO26 den MuSGD-Optimierer, eine Mischung aus SGD dem Muon-Optimierer (inspiriert durch LLM-Training), der erstmals die Stabilität des Trainings mit großen Batches für Computer-Vision-Aufgaben bietet.

Leistungsmetriken

Die folgende Tabelle zeigt die Leistungsunterschiede. YOLO26 weist eine überlegene Geschwindigkeit auf CPUs und eine höhere Genauigkeit über alle Modellskalen hinweg auf, insbesondere bei den größeren Varianten.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

Durchbruch bei der CPU

YOLO26 ist speziell für Umgebungen ohne dedizierte GPUs optimiert. Es erreicht CPU um bis zu 43 % schnellere CPU im Vergleich zu früheren Generationen und ist damit ein echter Game-Changer für Raspberry Pi und mobile Anwendungen.

Anwendungsfälle und reale Anwendungen

Wann man YOLOv10 wählen sollte

YOLOv10 eine ausgezeichnete Wahl für Forscher und bestimmte Szenarien, in denen es ausschließlich um die Erkennung geht.

Akademische Forschung: Die Dual-Assignment-Strategie ist ein faszinierendes Thema für weitere Untersuchungen im Bereich des Verlustfunktionsdesigns.
Ältere NMS Pipelines: Wenn ein Projekt bereits auf der YOLOv10 ONNX basiert, bietet es weiterhin eine zuverlässige Erkennung mit geringer Latenz.

Warum YOLO26 die beste Wahl für die Produktion ist

Für die meisten Entwickler bietet YOLO26 eine robustere und vielseitigere Lösung.

Edge Computing & IoT: Durch die vereinfachten Verlustfunktionen und den Wegfall von DFL eignet sich YOLO26 ideal für den Einsatz auf Edge-Geräten, bei denen Speicherplatz und Rechenleistung knapp sind.
Erkennung kleiner Objekte: Dank ProgLoss + STAL (Soft-Target Anchor Loss) eignet sich YOLO26 hervorragend für die Erkennung kleiner Objekte, was für Luftbildaufnahmen und Drohneninspektionen eine wichtige Voraussetzung ist.
Komplexes Multitasking: Im Gegensatz zu YOLOv10, das in erster Linie ein Erkennungsmodell ist, unterstützt YOLO26 nativ Instanzsegmentierung, Posenschätzung und OBB-Aufgaben (Oriented Bounding Box) innerhalb desselben Frameworks.

Der Ultralytics Vorteil

Die Wahl eines Ultralytics wie YOLO26 bietet Vorteile, die weit über reine Metriken hinausgehen. Das integrierte Ökosystem stellt sicher, dass Ihr Projekt von der Datenerfassung bis zur endgültigen Bereitstellung unterstützt wird.

Optimierte Benutzererfahrung

Die Benutzerfreundlichkeit der Ultralytics Python ist unübertroffen. Während andere Repositorys möglicherweise komplexe Einrichtungsskripte erfordern, können Ultralytics mit minimalem Code geladen, trainiert und bereitgestellt werden.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer
model.train(data="coco8.yaml", epochs=100, optimizer="MuSGD")

# Run inference without NMS post-processing
results = model("https://ultralytics.com/images/bus.jpg")

Umfassende Unterstützung des Ökosystems

YOLO26 ist vollständig in die Ultralytics integriert und ermöglicht eine nahtlose Verwaltung von Datensätzen, Remote-Schulungen und den Export mit einem Klick in Formate wie TensorRT, CoreML und OpenVINO. Dieses gut gepflegte Ökosystem gewährleistet, dass Sie Zugang zu regelmäßigen Updates, einem lebendigen Community-Forum und einer umfangreichen Dokumentation zur Fehlerbehebung haben.

Trainingseffizienz und Speicher

Ultralytics sind für ihre Trainingseffizienz bekannt. Die Verwendung des MuSGD-Optimierers durch YOLO26 ermöglicht ein stabiles Training mit geringeren Speicheranforderungen im Vergleich zu transformatorbasierten Modellen wie RT-DETR. Das bedeutet, dass Sie hochpräzise Modelle auf handelsüblichen GPUs trainieren können, ohne dass Ihnen der VRAM ausgeht, wodurch der Zugang zu High-End-KI-Funktionen demokratisiert wird.

Fazit

Beide Architekturen stellen bedeutende Errungenschaften im Bereich der Bildverarbeitung dar. YOLOv10 verdient Anerkennung für die Popularisierung des NMS Ansatzes und den Nachweis, dass eine End-to-End-Erkennung für Echtzeitanwendungen geeignet ist.

YOLO26 greift dieses Konzept jedoch auf und verfeinert es für die praktischen Anforderungen des Jahres 2026. Mit seinen überlegenen CPU , der speziellen Unterstützung für kleine Objekte über ProgLoss und der Unterstützung durch das Ultralytics ist YOLO26 die empfohlene Wahl für Entwickler, die skalierbare, zukunftssichere KI-Lösungen entwickeln möchten. Ganz gleich, ob Sie an intelligenten Einzelhandelsanalysen, autonomer Robotik oder Hochgeschwindigkeitsfertigung arbeiten – YOLO26 bietet die für den Erfolg erforderliche Leistungsbalance.

Weitere Modelle zum Erkunden

YOLO11: Der robuste Vorgänger von YOLO26, der nach wie vor in der Produktion weit verbreitet ist.
RT-DETR: Eine transformatorbasierte Alternative, die hohe Genauigkeit für Szenarien bietet, in denen GPU reichlich vorhanden sind.
YOLO: Ideal geeignet für Aufgaben zur Erkennung offener Vokabulare, bei denen Klassen durch Textprompts definiert werden.