Zum Inhalt springen

YOLOX vs. YOLO26: Die Entwicklung von der ankerfreien zur durchgängigen Objekterkennung

Der Bereich der Computervision hat in den letzten fünf Jahren einen rasanten Wandel erlebt, weg von komplexen ankerbasierten Architekturen hin zu optimierten ankerfreien Designs und schließlich zu nativen End-to-End-Systemen. Dieser Vergleich befasst sich mit den technischen Unterschieden zwischen YOLOX, einem wegweisenden ankerfreien Modell, das 2021 veröffentlicht wurde, und YOLO26, dem hochmodernen (SOTA) End-to-End-Detektor, Ultralytics von Ultralytics auf den Markt gebracht wurde.

Während YOLOX zu seiner Zeit hohe Maßstäbe für Forschung und Leistung gesetzt hat, bietet YOLO26 bahnbrechende Optimierungen wie NMS Inferenz und den MuSGD-Optimierer, was es zur ersten Wahl für moderne Produktionsumgebungen macht, die geringe Latenz und hohe Genauigkeit erfordern.

YOLOX: Der ankerfreie Pionier

YOLOX wurde im Juli 2021 von Forschern bei Megvii veröffentlicht und stellte eine bedeutende Abkehr von der ankerbasierten Logik dar, die frühere YOLO (wie YOLOv4 und YOLOv5) dominierte. Durch die Eliminierung von Ankerboxen wollten die Autoren den Designprozess vereinfachen und den Aufwand für die Hyperparameter-Optimierung im Zusammenhang mit dem Anker-Clustering reduzieren.

Wichtige technische Merkmale:

  • Ankerfreier Mechanismus: Macht vordefinierte Ankerboxen überflüssig und behandelt die Objekterkennung als Punktregressionsproblem.
  • Entkoppelter Kopf: Trennt die Klassifizierungs- und Lokalisierungsaufgaben in verschiedene Zweige des Netzwerkkopfes, was zur Verbesserung der Konvergenzgeschwindigkeit und Genauigkeit beitrug.
  • SimOTA: Eine fortschrittliche Strategie zur Zuordnung von Labels namens Simplified Optimal Transport Assignment, die positive Samples dynamisch Ground Truths zuordnet.

Obwohl innovativ, stützt sich YOLOX bei der Nachbearbeitung auf die traditionelle Non-Maximum Suppression (NMS). Dieser Schritt entfernt doppelte Begrenzungsrahmen, führt jedoch zu Latenzschwankungen und Rechenaufwand, was bei streng Echtzeit-Anwendungen zu einem Engpass führen kann.

Modell-Details:

  • Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
  • Organisation: Megvii
  • Datum: 2021-07-18
  • Links:YOLOX Arxiv | YOLOX GitHub

Erfahren Sie mehr über YOLOX

YOLO26: Der End-to-End-Standard

Im Januar 2026 von Ultralytics, stellt YOLO26 den Gipfel der Effizienz im Bereich Computer Vision dar. Es verzichtet vollständig auf die traditionelle NMS und setzt stattdessen auf ein natives End-to-End-Design NMS. Diese Architektur ermöglicht es dem Modell, die endgültige Menge der erkannten Objekte direkt auszugeben, wodurch die Latenz erheblich reduziert und die Bereitstellungslogik vereinfacht wird.

Wichtige technische Merkmale:

  • NMS Architektur: Eliminiert den Rechenaufwand für das Sortieren und Filtern Tausender Kandidatenboxen, was zu stabilen, vorhersagbaren Inferenzzeiten führt.
  • MuSGD-Optimierer: Ein hybrider Optimierer, der SGD Muon kombiniert (inspiriert von Innovationen im Training großer Sprachmodelle wie Kimi K2 von Moonshot AI). Dies sorgt für eine stabilere Trainingsdynamik und eine schnellere Konvergenz.
  • DFL-Entfernung: Die Entfernung des Distribution Focal Loss (DFL) vereinfacht den Modellkopf und macht ihn kompatibler mit Edge-Geräten und Quantisierungstools.
  • ProgLoss + STAL: Fortschrittliche Verlustfunktionen (Programmatic Loss und Scale-Theoretic Alignment Loss), die die Erkennung kleiner Objekteerheblich verbessern – eine entscheidende Fähigkeit für Drohnenbilder und industrielle Inspektionen.

Modell-Details:

Erfahren Sie mehr über YOLO26

Warum End-to-End wichtig ist

Ältere Modelle wie YOLOX geben Tausende redundanter Boxen aus, die mithilfe von Non-Maximum Suppression (NMS) gefiltert werden müssen. Dieser Prozess ist CPU und lässt sich auf Hardware-Beschleunigern wie TPUs oder NPUs nur schwer optimieren. Das End-to-End-Design von YOLO26 macht diesen Schritt überflüssig, sodass das neuronale Netzwerk direkt die endgültige Antwort ausgeben kann. Dadurch ist die Inferenz auf CPUs im Vergleich zu früheren Generationen um bis zu 43 % schneller.

Leistungsvergleich

Die folgende Tabelle verdeutlicht den Leistungsunterschied zwischen den beiden Architekturen. YOLO26 weist eine überlegene Genauigkeit (mAP) und Effizienz auf, insbesondere in den Varianten Nano und Small, die für Edge-KI-Anwendungen verwendet werden.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Hinweis: Die Geschwindigkeiten von YOLOX sind aufgrund des NMS auf moderner Hardware in der Regel langsamer, während die Metriken von YOLO26 die gesamte Nachbearbeitungszeit umfassen.

Architektonischer Deep Dive

Rückgrat und Kopf

YOLOX nutzt ein modifiziertes CSPDarknet-Backbone mit Schwerpunkt auf der Entkopplung des Erkennungskopfes. Diese Entkopplung ist zwar effektiv, erhöht jedoch die Parameteranzahl im Vergleich zu den Shared-Head-Designs früherer Modelle erheblich.

Im Gegensatz dazu verwendet YOLO26 ein hochoptimiertes Backbone, das mithilfe von Neural Architecture Search (NAS)-Konzepten entwickelt wurde. Seine Kopfstruktur wurde durch die Entfernung von DFL optimiert, wodurch nicht nur die Modellgröße reduziert wurde, sondern auch eine perfekte Anpassung an Hardware-Beschleuniger erreicht wurde, die mit komplexen Ausgabeschichten zu kämpfen haben. Dies erleichtert den Export nach TensorRT oder ONNX nahtlos.

Verlustfunktionen und Training

YOLOX führte SimOTA ein, um das Problem der dynamischen Zuweisung von Labels zu lösen. Allerdings stützt es sich weiterhin auf Standard-Verlustfunktionen. YOLO26 geht noch einen Schritt weiter, indem es ProgLoss (Programmatic Loss) und STAL (Scale-Theoretic Alignment Loss) integriert. Diese Verluste passen die Strafe für Begrenzungsrahmenfehler dynamisch an die Objektgröße und die Trainingsphase an und beheben damit die historische Schwäche von YOLO bei der Erkennung kleiner Objekte wie weit entfernter Fußgänger oder Herstellungsfehler.

Darüber hinaus bringt der MuSGD-Optimierer in YOLO26 Stabilitätstechniken aus der LLM-Welt in die Bildverarbeitung ein. Durch eine effektivere Normalisierung der Aktualisierungen über alle Schichten hinweg als bei SGD erzielt YOLO26 eine höhere Genauigkeit mit weniger Trainings-Epochen.

Ideale Anwendungsfälle

Wann sollte YOLOX verwendet werden?

YOLOX bleibt ein wertvoller Bezugspunkt in akademischen Kreisen.

  • Forschungsgrundlagen: Seine klare, ankerfreie Struktur macht es zu einer hervorragenden Grundlage für Forscher, die sich mit Strategien zur Vergabe von Labels befassen.
  • Legacy-Projekte: Bei Systemen, die bereits stark in die MegEngine oder bestimmte YOLOX-Forks integriert sind, kann eine sofortige Migration kostspielig sein.

Wann YOLO26 verwenden

YOLO26 ist die empfohlene Wahl für praktisch alle neuen gewerblichen und industriellen Anwendungen.

  • Edge Computing: Mit CPU um bis zu 43 % schnelleren CPU ist YOLO26 ideal für Raspberry Pi, Jetson Nano und mobile Geräte, bei denen keine GPUs verfügbar sind.
  • Robotik und autonome Systeme: Das NMS Design eliminiert Latenzspitzen, die durch unübersichtliche Szenen verursacht werden (z. B. ein Roboter, der sich in einem überfüllten Lagerhaus bewegt), und gewährleistet deterministische Reaktionszeiten.
  • Hochpräzise Inspektion: Die Kombination aus ProgLoss und STAL macht YOLO26 zu einer überlegenen Lösung für Qualitätskontrollaufgaben, bei denen es um winzige Fehler geht.
  • Multitasking-Anwendungen: Im Gegensatz zu YOLOX, das in erster Linie ein Detektor ist, unterstützt das Ultralytics YOLO26 für Instanzsegmentierung, Posenschätzung und orientierte Begrenzungsrahmen (OBB).

Der Ultralytics Vorteil

Die Entscheidung für YOLO26 bedeutet auch, Zugang zu den umfassenden Ultralytics -Ökosystem. Während YOLOX ein eigenständiges Repository bereitstellt, Ultralytics ein einheitliches Framework, das den gesamten KI-Lebenszyklus vereinfacht.

  1. Benutzerfreundlichkeit: Eine einheitliche Python ermöglicht Ihnen den Wechsel zwischen Aufgaben (detect, segment, Posieren) und Modellen (YOLO26, YOLO11, RT-DETR) durch Ändern einer einzigen Codezeile wechseln.
  2. Trainingseffizienz: Ultralytics sind hinsichtlich der Speichereffizienz während des Trainings optimiert. Im Vergleich zu älteren Architekturen oder schweren Transformatoren können Sie größere Batches auf Consumer-GPUs trainieren.
  3. Ultralytics : Die Ultralytics bietet eine webbasierte Schnittstelle für die Verwaltung von Datensätzen, automatische Annotation und Modelltraining mit einem Klick und optimiert so die Zusammenarbeit von Teams.
  4. Gut gepflegtes Ökosystem: Dank häufiger Updates, umfangreicher Dokumentation und aktiver Community-Unterstützung sind Entwickler beim Debuggen nie auf sich allein gestellt.

Code-Beispiel

Die Ausführung von YOLO26 ist mit Hilfe der ultralytics Paket. Das folgende Beispiel zeigt das Laden eines vortrainierten Modells und die Ausführung einer Inferenz für ein Bild.

from ultralytics import YOLO

# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")

# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

# Display the results
for result in results:
    result.show()  # Show image in a window

    # Print boxes to console
    for box in result.boxes:
        print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")

Fazit

Sowohl YOLOX als auch YOLO26 stellen bedeutende Meilensteine in der Geschichte der Objekterkennung dar. YOLOX hat 2021 erfolgreich das ankerbasierte Paradigma in Frage gestellt und bewiesen, dass ankerfreie Modelle Spitzenleistungen erzielen können. YOLO26 definiert jedoch den Standard für 2026 neu, indem es das „Last Mile”-Problem der Inferenz löst: den NMS .

Mit seiner End-to-End-Architektur, dem MuSGD-Optimierer und speziellen Verlustfunktionen bietet YOLO26 eine unübertroffene Balance zwischen Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit. Für Entwickler, die robuste Computer-Vision-Lösungen einsetzen möchten – sei es auf leistungsstarken Cloud-Servern oder auf Edge-Geräten mit begrenzten Ressourcen – istYOLO26 die erste Wahl.

Für diejenigen, die sich für andere moderne Architekturen interessieren, empfiehlt sich ein Blick auf YOLO11 für allgemeine Erkennungszwecke oder RT-DETR für transformatorbasierte Anwendungen.


Kommentare