YOLO26 vs. YOLOX: Entwicklung der Echtzeit-Objekterkennung

Die Landschaft der Computervision hat sich in den letzten fünf Jahren rasant weiterentwickelt und sich von komplexen, ankerbasierten Architekturen zu optimierten, leistungsstarken Modellen gewandelt. Dieser Vergleich untersucht zwei zentrale Modelle in dieser Zeitlinie: YOLOX, einen bahnbrechenden ankerfreien Detektor, der 2021 veröffentlicht wurde, und YOLO26, das hochmoderne Vision-Modell, das Ultralytics Januar 2026 veröffentlicht hat. Während YOLOX den Weg für viele moderne Architekturentscheidungen ebnete, stellt YOLO26 die Krönung dieser Fortschritte dar und bietet überlegene Geschwindigkeit, Genauigkeit und einfache Bereitstellung.

Modellübersicht

Ultralytics YOLO26

YOLO26 wurde im Januar 2026 veröffentlicht und ist für die nächste Generation von Edge-KI konzipiert. Es führt eine native End-to-End-Architektur (NMS) ein, wodurch Nachbearbeitungsschritte, die häufig zu Engpässen bei der Bereitstellung führen, entfallen. Durch die Eliminierung des Distribution Focal Loss (DFL) und die Einführung des MuSGD-Optimierers – inspiriert durch das Training großer Sprachmodelle – erreicht YOLO26 im Vergleich zu früheren Generationen eine um bis zu 43 % schnellere CPU und ist damit die erste Wahl für IoT-Anwendungen und Robotik.

Glenn Jocher und Jing Qiu
Ultralytics
14. Januar 2026
GitHub | Docs

Erfahren Sie mehr über YOLO26

YOLOX

YOLOX, 2021 von Megvii veröffentlicht, war einer der ersten leistungsstarken „ankerfreien” Detektoren, der auf einen entkoppelten Kopf und SimOTA-Label-Zuweisung umgestellt wurde. Er schloss damals erfolgreich die Lücke zwischen akademischer Forschung und industrieller Anwendung und bot ein saubereres Design als seine Vorgänger (wie YOLOv4 und YOLOv5), indem er Ankerboxen und NMS für die Trainingsstabilität entfernte, obwohl er NMS die Inferenz weiterhin NMS benötigte.

Zheng Ge, Songtao Liu et al.
Megvii
18. Juli 2021
ArXiv | GitHub

Technischer Leistungsvergleich

Die folgende Tabelle zeigt die Leistungsunterschiede zwischen den beiden Modellen. YOLO26 weist sowohl hinsichtlich der Genauigkeit (mAP) als auch der Effizienz erhebliche Verbesserungen auf, insbesondere in CPU , in denen seine Architektur für eine Ausführung mit geringer Latenz optimiert ist.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Leistungskontext

YOLOXnano hat zwar niedrigere Parameter und FLOPs, arbeitet jedoch mit einer deutlich geringeren Auflösung (416 px) und Genauigkeit (25,8 mAP) als YOLO26n (40,9 mAP 640 px). Bei Normalisierung auf die effektive Genauigkeit bietet YOLO26 eine weitaus bessere Inferenzlatenz.

Architektonische Innovationen

End-to-End vs. Nachbearbeitung

Der wichtigste Unterschied liegt in der Bereitstellungspipeline. YOLOX ist ankerfrei, stützt sich jedoch weiterhin auf Non-Maximum Suppression (NMS), um doppelte Begrenzungsrahmen zu filtern. NMS rechenintensiv und lässt sich auf Edge-Hardware (wie FPGAs oder NPUs) nur schwer optimieren, da es Sortier- und sequenzielle Vorgänge umfasst.

YOLO26 verwendet ein natives End-to-End-Design, ein Konzept, das erstmals in YOLOv10. Dieses Design gibt die endgültige Erkennung direkt aus dem Netzwerk ohne NMS aus. Dies führt zu folgenden Ergebnissen:

Geringere Latenz: Kein Overhead durch Nachbearbeitung.
Deterministische Latenz: Die Inferenzzeit ist unabhängig von der Objektdichte konstant.
Vereinfachte Bereitstellung: Exportieren nach ONNX oder TensorRT ist unkompliziert, da keine benutzerdefinierten NMS erforderlich sind.

Trainingsstabilität: MuSGD vs. SGD

YOLOX nutzt den standardmäßigen stochastischen Gradientenabstieg (SGD) mit entkoppelten Köpfen, der für 2021 weiterentwickelt wurde. YOLO26 führt jedoch den MuSGD-Optimierer ein, eine Mischung aus SGD dem Muon-Optimierer (inspiriert von Moonshot AI's Kimi K2). Diese Innovation bringt die Stabilitätseigenschaften des Trainings mit großen Sprachmodellen (LLM) in die Computer Vision ein und ermöglicht eine schnellere Konvergenz und eine robustere Merkmalsextraktion während des Trainingsprozesses.

Verlustfunktionen

YOLOX verwendet IoU und eine entkoppelte Head-Strategie. YOLO26 verbessert dies mit ProgLoss + STAL (Soft Target Assignment Loss). Diese Kombination adressiert speziell die Herausforderung der Erkennung kleiner Objekte, eine traditionelle Schwäche von einstufigen Detektoren. ProgLoss passt das Verlustgewicht während des Trainings dynamisch an, sodass sich das Modell im Laufe des Trainings auf schwierigere Beispiele (oft kleine oder verdeckte Objekte) konzentrieren kann.

Ökosystem und Benutzerfreundlichkeit

Einer der entscheidenden Unterschiede zwischen den beiden Frameworks ist das sie umgebende Ökosystem.

Der Ultralytics Vorteil

Mit YOLO26 erhalten Sie Zugriff auf die Ultralytics , eine umfassende Suite von Tools für Datenmanagement, Annotation und Modelltraining.

Einheitliche API: Unabhängig davon, ob Sie Objekterkennung, Instanzsegmentierung, Posenschätzung oder OBB -Erkennung (Oriented Bounding Box) durchführen, bleibt die API konsistent.
Zero-to-Hero: Mit weniger als fünf Zeilen python gelangen Sie von der Installation zum Training mit einem benutzerdefinierten Datensatz.
Flexibilität beim Export: Modelle nahtlos exportieren nach CoreML, OpenVINO, TFLite und viele andere mit einem einzigen Befehl.

from ultralytics import YOLO

# Load the model
model = YOLO("yolo26n.pt")

# Train on custom data
model.train(data="coco8.yaml", epochs=100)

# Export for deployment
model.export(format="onnx")

YOLOX-Komplexität

YOLOX ist in erster Linie ein Forschungsrepository. Es ist zwar leistungsstark, erfordert jedoch mehr manuelle Konfiguration für Datensätze und Trainingspipelines. Es fehlt die native Unterstützung für Aufgaben außerhalb der Standarderkennung (wie Pose oder Segmentierung) innerhalb desselben Repositorys, und der Export in Edge-Formate erfordert oft externe Skripte oder Tools von Drittanbietern (wie onnx-simplifier), oder Auto-Modus mit angegebener Auslastungsfraktion (

Anwendungen in der realen Welt

Intelligenter Einzelhandel und Lagerbestand

Für Einzelhandelsumgebungen, die eine Bestandsverwaltung erfordern, ist YOLO26 die beste Wahl. Durch die Beseitigung von DFL (Distribution Focal Loss) und die End-to-End-Architektur kann es effizient auf ARM-CPUs mit geringem Stromverbrauch laufen, wie sie in Smart-Shelf-Kameras zu finden sind. Die verbesserte Genauigkeit von YOLO26s (48,6 mAP) gegenüber YOLOX-s (40,5 mAP) sorgt für eine bessere Bestandsgenauigkeit mit weniger Fehlalarmen.

Drohnen erfordern die Verarbeitung hochauflösender Bilder mit minimaler Latenz. YOLO26 zeichnet sich hier durch ProgLoss aus, das die Erkennung kleiner Objekte wie entfernter Fahrzeuge oder Stromleitungen aus der Vogelperspektive verbessert. Die NMS Ausgabe stellt sicher, dass die Regelschleife der Drohne Daten mit einer konstanten Rate empfängt, was für Kollisionsvermeidungssysteme von entscheidender Bedeutung ist. Umgekehrt NMS die Abhängigkeit von YOLOX NMS in unübersichtlichen Umgebungen (z. B. beim Überfliegen eines Waldes oder einer Menschenmenge) zu Latenzspitzen führen, die die Flugstabilität gefährden können.

Industrierobotik

In der Fertigung werden Roboterarme häufig für Pick-and-Place-Aufgaben eingesetzt. Das YOLO26-Ökosystem unterstützt OBB (Oriented Bounding Boxes), das den Winkel von Objekten angibt – entscheidend für das Greifen von Gegenständen, die nicht achsausgerichtet sind. YOLOX erfordert erhebliche Modifikationen, um OBB zu unterstützen, während YOLO26 dies sofort unterstützt.

Fazit

Während YOLOX ein bedeutender Meilenstein war, der die ankerfreie Erkennung populär machte, repräsentiert YOLO26 die Zukunft der effizienten Computervision. Mit seinem End-to-End-Design, seinem überlegenen Verhältnis von Genauigkeit zu Latenz und der robusten Unterstützung durch das Ultralytics ist YOLO26 die empfohlene Wahl sowohl für die akademische Forschung als auch für den kommerziellen Einsatz im Jahr 2026.

Für Entwickler, die unterschiedliche architektonische Kompromisse benötigen, YOLO11 eine bewährte Alternative, und transformatorbasierte Modelle wie RT-DETR bieten eine hohe Genauigkeit für GPU Umgebungen.