Zum Inhalt springen

YOLOX vs. YOLO11: Ein tiefer Einblick in die leistungsstarke Objekterkennung

Die Entwicklung der Computervision wurde maßgeblich durch das Streben nach Echtzeit-Objekterkennungsframeworks vorangetrieben, die ein Gleichgewicht zwischen hoher Genauigkeit und Inferenzgeschwindigkeit herstellen. Zu den bemerkenswertesten Meilensteinen auf diesem Weg zählen YOLOX und Ultralytics YOLO11. Beide Modelle haben zwar bedeutende Beiträge zu diesem Bereich geleistet, unterscheiden sich jedoch erheblich in ihrer zugrunde liegenden Architektur, ihrer Designphilosophie und ihrem Entwickler-Ökosystem.

Dieser umfassende technische Vergleich untersucht ihre Architekturen, Leistungskennzahlen, Trainingsmethoden und idealen Einsatzszenarien, um Ihnen zu helfen, eine fundierte Entscheidung für Ihr nächstes Projekt im Bereich der künstlichen Intelligenz zu treffen.

YOLOX Übersicht

YOLOX wurde am 18. Juli 2021 von den Forschern Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun bei Megvii vorgestellt und stellte eine bedeutende Veränderung in der YOLO dar. Durch die Einführung eines ankerfreien Designs gelang es, die Lücke zwischen akademischer Forschung und industrieller Anwendung zu schließen.

Weitere technische Hintergrundinformationen finden Sie im Originalartikel zu YOLOX auf Arxiv.

Wesentliche Architekturmerkmale

YOLOX hat sich von der traditionellen ankerbasierten Erkennung verabschiedet, indem es einen entkoppelten Kopf und einen ankerfreien Mechanismus eingeführt hat. Dieses Design reduzierte die Anzahl der Designparameter und verbesserte die Leistung des Modells bei verschiedenen Benchmarks. Darüber hinaus wurden fortschrittliche Strategien zur Zuweisung von Labels wie SimOTA eingeführt, um den Trainingsprozess zu beschleunigen und die Konvergenz zu verbessern.

YOLOX bietet zwar für seine Zeit eine hervorragende Genauigkeit, konzentriert sich jedoch in erster Linie auf die Erkennung von Objekten in Begrenzungsrahmen und bietet keine native Unterstützung für andere komplexe Bildverarbeitungsaufgaben.

Erfahren Sie mehr über YOLOX

Ankerfreies Design

Durch die Eliminierung vordefinierter Ankerboxen reduzierte YOLOX den für verschiedene Datensätze erforderlichen heuristischen Abstimmungsaufwand drastisch und wurde damit zu einer starken Grundlage für die Forschung im Bereich ankerfreier Methoden.

Ultralytics YOLO11 Übersicht

Veröffentlicht am 27. September 2024 von Glenn Jocher und Jing Qiu bei UltralyticsYOLO11 ein hochmodernes Modell, das Vielseitigkeit und Benutzerfreundlichkeit in der Bildverarbeitung neu definiert. Es basiert auf jahrelanger Grundlagenforschung und bietet eine hochentwickelte, produktionsreife Lösung, die sich für eine Vielzahl von Aufgaben eignet.

Der Ultralytics Vorteil

YOLO11 nicht nur ein Objektdetektor, sondern ein einheitliches Framework, das Instanzsegmentierung, Bildklassifizierung, Posenschätzung und OBB-Erkennung (Oriented Bounding Box) unterstützt. Es verfügt über eine hocheffiziente Architektur, die einen nahtlosen Ausgleich zwischen Geschwindigkeit, Parameteranzahl und Genauigkeit priorisiert.

Darüber hinaus YOLO11 vollständig in die Ultralytics integriert, die ein optimiertes Ökosystem für Datenannotation, Modelltraining und Bereitstellung bietet.

Erfahren Sie mehr über YOLO11

Leistung und Metriken im Vergleich

Beim Vergleich dieser Modelle wird die Leistungsbilanz deutlich. YOLO11 in den meisten Größenkategorien eine höhere mittlere durchschnittliche Präzision (mAP) mit deutlich weniger Parametern und FLOPs als seine YOLOX-Pendants.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Wie gezeigt, übertreffen YOLO11 YOLOX durchweg in puncto Genauigkeit und benötigen dabei weniger Parameter. So erreicht YOLO11m beispielsweise einen mAP von 51,5 mit nur 20,1 Millionen Parametern, während YOLOXx einen ähnlichen mAP von 51,1 erreicht, mAP massive 99,1 Millionen Parameter benötigt. Diese Speichereffizienz während des Trainings und der Inferenz macht YOLO11 geeignet für den Einsatz auf Edge-KI-Geräten, da es die hohen CUDA vermeidet, die für ältere oder transformatorbasierte Modelle wie RT-DETR.

Effizientes Training

Ultralytics benötigen während des Trainings deutlich weniger GPU als YOLOX- und Transformer-basierte Architekturen, sodass Forscher leistungsstarke Modelle auf handelsüblicher Hardware trainieren können.

Ökosystem und Benutzerfreundlichkeit

Einer der auffälligsten Unterschiede zwischen den beiden Frameworks ist die Entwicklererfahrung.

YOLOX erfordert oft das Klonen von Repositorys, das Einrichten komplexer Umgebungen und die Ausführung umfangreicher Befehlszeilenargumente, um Modelle zu trainieren und in Formate wie ONNX oder TensorRT.

Im krassen Gegensatz dazu Ultralytics YOLO11 eine unglaublich einfache Python und CLI. Die Ultralytics übernimmt automatisch die Datenvergrößerung, die Hyperparameter-Optimierung und den Export.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")

Dieses gut gepflegte Ökosystem wird durch umfangreiche Dokumentation und nahtlose Integration mit Tools wie Weights & Biases für die Nachverfolgung von Experimenten.

Ideale Anwendungsfälle

Die Wahl zwischen diesen Modellen hängt oft von den Besonderheiten der Einsatzumgebung ab.

Wann sollte YOLOX verwendet werden?

  • Legacy-Systeme: Wenn Sie über eine etablierte Pipeline verfügen, die explizit auf dem MegEngine-Framework oder den Objektdetektionsparadigmen von Anfang 2021 basiert.
  • Akademische Grundlagen: Bei der Durchführung von Forschungsarbeiten, die einen direkten Vergleich mit grundlegenden, ankerfreien Architekturen aus dem Jahr 2021 erfordern.

Wann sollte YOLO11 verwendet werden?

  • Produktionsbereitstellungen: Für kommerzielle Anwendungen im Bereich Smart Retail oder Sicherheitsalarmsysteme, bei denen robuster, gepflegter Code und hohe Genauigkeit unverzichtbar sind.
  • Multitasking-Pipelines: Wenn ein Projekt die Verfolgung von Objekten, die Schätzung menschlicher Körperhaltungen und die Segmentierung von Instanzen unter Verwendung eines einzigen, einheitlichen Frameworks erfordert.
  • Ressourcenbeschränkte Edge-Geräte: Aufgrund seiner geringen Parameteranzahl und seines hohen Durchsatzes YOLO11 ideal für den Einsatz auf Raspberry Pi oder mobilen Edge-Knoten über CoreML und NCNN.

Ausblick: Der Vorteil von YOLO26

Während YOLO11 einen enormen Fortschritt gegenüber YOLOX YOLO11 , schreitet die Entwicklung im Bereich der Bildverarbeitung rasant voran. Für Entwickler, die heute neue Projekte starten, ist istUltralytics die definitive Empfehlung.

YOLO26 wurde im Januar 2026 veröffentlicht und übernimmt die architektonische Brillanz von YOLO11 führt mehrere bahnbrechende Funktionen ein:

  • End-to-End-Design NMS: YOLO26 macht die Nachbearbeitung mit Non-Maximum Suppression (NMS) überflüssig und ermöglicht natives Streaming der Inferenz für schnellere, einfachere Bereitstellungspipelines (ein Konzept, das erstmals in YOLOv10untersucht wurde).
  • Bis zu 43 % schnellere CPU : Durch die Entfernung von Distribution Focal Loss (DFL) ist YOLO26 auf CPUs und Edge-Geräten mit geringem Stromverbrauch wesentlich effizienter.
  • MuSGD-Optimierer: Inspiriert von den LLM-Trainingsinnovationen von Moonshot AI sorgt der MuSGD-Optimierer für äußerst stabile Trainingsläufe und schnelle Konvergenz.
  • Fortgeschrittene Verlustfunktionen: Durch die Verwendung von ProgLoss + STAL erzielt YOLO26 bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, was für Drohnenbilder und autonome Robotik von entscheidender Bedeutung ist.

Für die überwiegende Mehrheit moderner Computer-Vision-Aufgaben bietet die Aufrüstung Ihrer Pipeline zur Nutzung von YOLO26 die absolut beste Balance zwischen Geschwindigkeit, Genauigkeit und einfacher Bereitstellung.


Kommentare