Zum Inhalt springen

YOLOv10 YOLOX: Entwicklung der anker- und NMS Objekterkennung

Der Bereich der Computervision wird durch rasante Fortschritte bei Echtzeit-Objekterkennungsarchitekturen vorangetrieben. Dieser detaillierte technische Vergleich untersucht zwei einflussreiche Modelle, die die Grenzen der Effizienz und der Designparadigmen erweitert haben: YOLOv10 und YOLOX. Durch die Untersuchung ihrer architektonischen Unterschiede, Leistungskennzahlen und Trainingsmethoden können Entwickler und Forscher fundierte Entscheidungen für den Einsatz robuster Bildverarbeitungssysteme treffen.

Hintergründe und Ursprünge der Modelle

Das Verständnis der Ursprünge dieser Deep-Learning-Modelle liefert wertvolle Informationen hinsichtlich ihrer architektonischen Ziele und der angestrebten Anwendungsfälle.

YOLOv10: Eliminierung von NMS echte End-to-End-Erkennung

YOLOv10 wurde entwickelt, um langjährige Latenzengpässe zu beseitigen, und YOLOv10 einen nativen End-to-End-Ansatz in die YOLO YOLOv10 .

Erfahren Sie mehr über YOLOv10

YOLOX: Überbrückung der Kluft zwischen Forschung und Industrie

YOLOX entstand als ankerfreie Version des traditionellen YOLO und bietet eine einfachere Methodik mit wettbewerbsfähiger Leistung, die speziell darauf ausgerichtet ist, den Einsatz in Industriegemeinden zu vereinfachen.

Erfahren Sie mehr über YOLOX

Architektonische Highlights und Innovationen

Beide Frameworks weichen von herkömmlichen ankerbasierten Detektoren ab, lösen jedoch unterschiedliche Probleme in der Objekterkennungspipeline.

YOLOX-Architektur

YOLOX brachte 2021 mehrere wichtige Neuerungen für das Ökosystem mit sich. Der wichtigste Beitrag war die Umstellung auf ein ankerfreies Detektordesign. Durch den Verzicht auf vordefinierte Ankerboxen reduzierte YOLOX die Anzahl der Designparameter und die für verschiedene Datensätze erforderliche heuristische Feinabstimmung erheblich.

Darüber hinaus verwendet YOLOX einen entkoppelten Kopf, der die Klassifizierungs- und Regressionsaufgaben voneinander trennt. Dadurch wurde der Konflikt zwischen den beiden Zielen gelöst und die Konvergenz während des Trainings erheblich beschleunigt. Außerdem wird SimOTA für die erweiterte Label-Zuweisung verwendet, wodurch die Verarbeitung von überfüllten Szenen und Verdeckungen, wie sie im COCO häufig vorkommen, verbessert wird.

Vorteil ohne Verankerung

Ankerfreie Designs, wie das von YOLOX entwickelte, reduzieren die Komplexität der Modelloptimierung erheblich. Entwickler müssen keine k-Means-Clustering mehr auf benutzerdefinierten Datensätzen durchführen, um optimale Ankerboxgrößen zu definieren, wodurch wertvolle Vorbereitungszeit eingespart wird.

YOLOv10 Architektur

YOLOX verbesserte zwar den Erkennungskopf, stützte sich jedoch bei der Inferenz weiterhin auf die Nicht-Maximalunterdrückung (NMS), was zu Latenzschwankungen führt. YOLOv10 hat speziell auf diesen Mangel abgezielt und eine konsistente Doppelzuweisungsstrategie für NMS Training eingeführt. Während des Trainings verwendet es sowohl Eins-zu-Viele- als auch Eins-zu-Eins-Label-Zuweisungen, aber während der Inferenz lässt es den Eins-zu-Viele-Kopf vollständig weg und gibt saubere Vorhersagen ohne NMS aus.

YOLOv10 zeichnet sich YOLOv10 durch ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Modelldesign aus. Es umfasst leichtgewichtige Klassifizierungsköpfe und eine räumlich-kanalgetrennte Downsampling-Funktion, wodurch die Parameteranzahl und die FLOPs erheblich reduziert werden, ohne dass dabei die Genauigkeit beeinträchtigt wird.

Leistungsvergleich

Die Bewertung dieser Modelle auf Hardware wie der NVIDIA GPU je nach Umfang deutliche Vorteile. Nachstehend finden Sie eine umfassende Vergleichstabelle.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Wie oben zu sehen ist, YOLOv10 außergewöhnlich gut YOLOv10 . Die YOLOv10x Variante erzielt die höchste Genauigkeit (54,4 mAP), während die YOLOv10n Variante liefert die schnellste Inferenz unter Verwendung von TensorRT Integration. Umgekehrt zeichnet sich das bewährte YOLOX-Nano-Modell durch den geringsten Platzbedarf für stark eingeschränkte Umgebungen aus.

Schulungsmethoden und Ressourcenanforderungen

Bei der Implementierung von Modellen für die Produktion sind das Trainingsökosystem und der Ressourcenbedarf genauso wichtig wie die reine Inferenzgeschwindigkeit.

YOLOX stützt sich häufig auf ältere Umgebungskonfigurationen, deren Verwaltung mühsam sein kann. Darüber hinaus erfordert seine veraltete Codebasis mehr Boilerplate-Code, um einGPU TrainingGPU oder eine Optimierung mit gemischter Genauigkeit zu erreichen.

Im Gegensatz dazu YOLOv10 nahtlos in moderne PyTorch YOLOv10 , aber es ist das Ultralytics , das die Entwicklererfahrung wirklich verändert. Ultralytics zeichnen sich durch einen deutlich geringeren CUDA während des Trainings aus als transformatorbasierte Architekturen wie RT-DETR.

Code-Beispiel: Optimiertes Training

Mit der einheitlichen Ultralytics können Sie nahtlos modernste Modelle mit nur wenigen Zeilen Python trainieren. Dadurch entfällt die manuelle Kompilierung von C++-Operatoren oder komplizierte Konfigurationsdateien.

from ultralytics import YOLO

# Initialize a pre-trained YOLOv10 model
model = YOLO("yolov10s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to ONNX format
model.export(format="onnx")

Diese einfache Syntax ermöglicht den sofortigen Zugriff auf automatische gemischte Genauigkeit, automatisierte Datenanreicherung und die Integration mit Tools wie Weights & Biases .

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv10 YOLOX hängt von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen ab.

Wann man YOLOv10 wählen sollte

YOLOv10 eine gute Wahl für:

  • NMS Echtzeit-Erkennung: Anwendungen, die von einer durchgängigen Erkennung ohne Non-Maximum Suppression profitieren und die Komplexität der Bereitstellung reduzieren.
  • Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit über verschiedene Modellskalen hinweg erfordern.
  • Anwendungen mit konsistenter Latenz: Einsatzszenarien, in denen vorhersehbare Inferenzzeiten entscheidend sind, wie beispielsweise Robotik oder autonome Systeme.

Wann YOLOX wählen?

YOLOX wird empfohlen für:

  • Ankerfreie Erkennung Forschung: Akademische Forschung, die die saubere, ankerfreie Architektur von YOLOX als Grundlage für Experimente mit neuen Erkennungsköpfen oder Verlustfunktionen nutzt.
  • Ultraleichte Edge-Geräte: Einsatz auf Mikrocontrollern oder älterer mobiler Hardware, wo die extrem geringe Speicherbelegung der YOLOX-Nano-Variante (0,91 Millionen Parameter) entscheidend ist.
  • SimOTA-Labelzuweisungsstudien: Forschungsprojekte, die sich mit optimalen transportbasierten Labelzuweisungsstrategien und deren Auswirkungen auf die Trainingskonvergenz befassen.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
  • CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.

Die Zukunft der visuellen KI: YOLO26 kommt auf den Markt

Während YOLOv10 YOLOX wichtige Meilensteine darstellen, schreitet die Entwicklung im Bereich Computer Vision unaufhaltsam voran. Für Entwickler, die heute neue Projekte starten, ist Ultralytics die definitive Empfehlung.

Ultralytics wurde im Januar 2026 veröffentlicht und baut auf dem grundlegenden Durchbruch des von YOLOv10 eingeführten End-to-End-Designs NMS auf, das für noch mehr Stabilität und Geschwindigkeit weiterentwickelt wurde.

YOLO26 zeichnet sich durch mehrere enorme Fortschritte aus:

  • Bis zu 43 % schnellere CPU : Durch die strategische Entfernung des Distribution Focal Loss (DFL) erzielt YOLO26 eine deutlich überlegene Leistung auf Edge-Geräten ohne GPUs.
  • MuSGD Optimizer: Inspiriert von der Stabilität des LLM-Trainings sorgt diese neuartige Mischung aus SGD Muon für eine schnellere Konvergenz und äußerst stabile Trainingsläufe.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, einem entscheidenden Faktor für Luftbildaufnahmen und IoT-Sensoren.
  • Unübertroffene Vielseitigkeit: Im Gegensatz zu YOLOX, das ausschließlich als Objekterkennungssystem dient, unterstützt YOLO26 nativ Instanzsegmentierung, Posenschätzung, Bildklassifizierung und OBB-Erkennung in einer einzigen, einheitlichen Bibliothek.

Erfahren Sie mehr über YOLO26

Nutzen Sie die Ultralytics

Für den einfachsten Weg zur Produktion können Entwickler die Ultralytics nutzen, um Datensätze zu annotieren, YOLO26-Modelle in der Cloud zu trainieren und auf jedem Edge-Gerät ohne jegliche Einrichtung bereitzustellen.

Anwendungen in der realen Welt

Die Wahl des richtigen Modells entscheidet über den Erfolg der praktischen Umsetzung in verschiedenen Branchen.

Hochgeschwindigkeits-Videoanalyse

Für die Verarbeitung dichter Video-Feeds, wie z. B. im Rahmen des Verkehrsmanagements in Smart Cities, YOLOv10 einen erheblichen Vorteil aufgrund seiner NMS Nachbearbeitung. Durch die Beseitigung des NMS wird eine konstant niedrige Latenz erreicht, wodurch es sich ideal für die Kombination mit Tracking-Algorithmen wie BoT-SORT eignet.

Legacy Edge-Bereitstellung

Für ältere akademische Setups oder ältere Android , die stark für reine Convolutional-Paradigmen optimiert sind, können kleinere Modelle wie YOLOX-Tiny möglicherweise noch spezielle Anwendungsfälle finden, in denen die Beibehaltung älterer PyTorch ein akzeptabler Kompromiss ist.

Moderne Edge- und IoT-Geräte

Für Hardware-Implementierungen der nächsten Generation, wie Robotik, Drohnen und Regalanalysen im Einzelhandel, ist YOLO26 die ultimative Lösung. Dank seiner drastisch reduzierten CPU und seiner überlegenen Erkennung kleiner Objekte eignet es sich besonders für die autonome Navigation und die detaillierte Bestandsverwaltung.

Für weitere Vergleiche zur Erweiterung Ihres Deep-Learning-Toolkits können Sie auch untersuchen, wie diese Modelle im Vergleich zu Alternativen wie dem flexiblen YOLO11 oder dem transformatorbasierten RT-DETR.


Kommentare