YOLOv10 YOLOX: Entwicklung der anker- und NMS Objekterkennung

Der Bereich der Computervision wird durch rasante Fortschritte bei Echtzeit-Objekterkennungsarchitekturen vorangetrieben. Dieser detaillierte technische Vergleich untersucht zwei einflussreiche Modelle, die die Grenzen der Effizienz und der Designparadigmen erweitert haben: YOLOv10 und YOLOX. Durch die Untersuchung ihrer architektonischen Unterschiede, Leistungskennzahlen und Trainingsmethoden können Entwickler und Forscher fundierte Entscheidungen für den Einsatz robuster Bildverarbeitungssysteme treffen.

Hintergründe und Ursprünge der Modelle

Das Verständnis der Ursprünge dieser Deep-Learning-Modelle liefert wertvolle Informationen hinsichtlich ihrer architektonischen Ziele und der angestrebten Anwendungsfälle.

YOLOv10: Eliminierung von NMS echte End-to-End-Erkennung

Entwickelt, um langjährige Latenzengpässe zu beheben, führte YOLOv10 einen nativen End-to-End-Ansatz in die YOLO-Familie ein.

Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation:Tsinghua University
Datum: 23. Mai 2024
ArXiv:2405.14458
GitHub:THU-MIG/yolov10
Dokumentation:Ultralytics YOLOv10 Dokumentation

Erfahren Sie mehr über YOLOv10

YOLOX: Überbrückung der Kluft zwischen Forschung und Industrie

YOLOX entstand als ankerfreie Version des traditionellen YOLO und bietet eine einfachere Methodik mit wettbewerbsfähiger Leistung, die speziell darauf ausgerichtet ist, den Einsatz in Industriegemeinden zu vereinfachen.

Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation:Megvii
Datum: 18. Juli 2021
ArXiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX
Dokumentation:Offizielle YOLOX Dokumentation

Erfahren Sie mehr über YOLOX

Architektonische Highlights und Innovationen

Beide Frameworks weichen von traditionellen ankerbasierten Detektoren ab, lösen aber unterschiedliche Probleme in der Objekterkennungspipeline.

YOLOX-Architektur

YOLOX brachte 2021 mehrere wichtige Neuerungen für das Ökosystem mit sich. Der wichtigste Beitrag war die Umstellung auf ein ankerfreies Detektordesign. Durch den Verzicht auf vordefinierte Ankerboxen reduzierte YOLOX die Anzahl der Designparameter und die für verschiedene Datensätze erforderliche heuristische Feinabstimmung erheblich.

Darüber hinaus verwendet YOLOX einen entkoppelten Kopf, der die Klassifizierungs- und Regressionsaufgaben voneinander trennt. Dadurch wurde der Konflikt zwischen den beiden Zielen gelöst und die Konvergenz während des Trainings erheblich beschleunigt. Außerdem wird SimOTA für die erweiterte Label-Zuweisung verwendet, wodurch die Verarbeitung von überfüllten Szenen und Verdeckungen, wie sie im COCO häufig vorkommen, verbessert wird.

Vorteil ankerfreier Ansätze

Ankerfreie Architekturen, wie sie von YOLOX eingeführt wurden, reduzieren die Komplexität der Modelloptimierung erheblich. Entwickler müssen keine K-Means-Clusteranalyse mehr auf benutzerdefinierten Datensätzen durchführen, um optimale Ankerbox-Größen zu definieren, was wertvolle Vorbereitungszeit spart.

YOLOv10 Architektur

YOLOX verbesserte zwar den Erkennungskopf, stützte sich jedoch bei der Inferenz weiterhin auf die Nicht-Maximalunterdrückung (NMS), was zu Latenzschwankungen führt. YOLOv10 hat speziell auf diesen Mangel abgezielt und eine konsistente Doppelzuweisungsstrategie für NMS Training eingeführt. Während des Trainings verwendet es sowohl Eins-zu-Viele- als auch Eins-zu-Eins-Label-Zuweisungen, aber während der Inferenz lässt es den Eins-zu-Viele-Kopf vollständig weg und gibt saubere Vorhersagen ohne NMS aus.

YOLOv10 zeichnet sich YOLOv10 durch ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Modelldesign aus. Es umfasst leichtgewichtige Klassifizierungsköpfe und eine räumlich-kanalgetrennte Downsampling-Funktion, wodurch die Parameteranzahl und die FLOPs erheblich reduziert werden, ohne dass dabei die Genauigkeit beeinträchtigt wird.

Leistungsvergleich

Die Bewertung dieser Modelle auf Hardware wie der NVIDIA GPU je nach Umfang deutliche Vorteile. Nachstehend finden Sie eine umfassende Vergleichstabelle.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Wie oben gezeigt, skaliert YOLOv10 außergewöhnlich gut. Die YOLOv10x Variante erzielt die höchste Genauigkeit (54.4 mAP), während die YOLOv10n Variante liefert die schnellste Inferenz unter Verwendung von TensorRT Integration. Umgekehrt zeichnet sich das bewährte YOLOX-Nano-Modell durch den geringsten Platzbedarf für stark eingeschränkte Umgebungen aus.

Schulungsmethoden und Ressourcenanforderungen

Bei der Implementierung von Modellen für die Produktion sind das Trainingsökosystem und der Ressourcenbedarf genauso wichtig wie die reine Inferenzgeschwindigkeit.

YOLOX stützt sich häufig auf ältere Umgebungskonfigurationen, deren Verwaltung mühsam sein kann. Darüber hinaus erfordert seine veraltete Codebasis mehr Boilerplate-Code, um einGPU TrainingGPU oder eine Optimierung mit gemischter Genauigkeit zu erreichen.

Im Gegensatz dazu YOLOv10 nahtlos in moderne PyTorch YOLOv10 , aber es ist das Ultralytics , das die Entwicklererfahrung wirklich verändert. Ultralytics zeichnen sich durch einen deutlich geringeren CUDA während des Trainings aus als transformatorbasierte Architekturen wie RT-DETR.

Codebeispiel: Optimiertes Training

Mit der einheitlichen Ultralytics können Sie nahtlos modernste Modelle mit nur wenigen Zeilen Python trainieren. Dadurch entfällt die manuelle Kompilierung von C++-Operatoren oder komplizierte Konfigurationsdateien.

from ultralytics import YOLO

# Initialize a pre-trained YOLOv10 model
model = YOLO("yolov10s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to ONNX format
model.export(format="onnx")

Diese einfache Syntax ermöglicht den sofortigen Zugriff auf automatische gemischte Genauigkeit, automatisierte Datenanreicherung und die Integration mit Tools wie Weights & Biases .

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv10 und YOLOX hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann man YOLOv10 wählen sollte

YOLOv10 eine gute Wahl für:

NMS-freie Echtzeit-detect: Anwendungen, die von einer End-to-End-detect ohne Non-Maximum Suppression profitieren und die Bereitstellungskomplexität reduzieren.
Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und detect-Genauigkeit über verschiedene Modellskalen hinweg erfordern.
Anwendungen mit konsistenter Latenz: Bereitstellungsszenarien, in denen vorhersehbare Inferenzzeiten kritisch sind, wie z. B. Robotik oder autonome Systeme.

Wann YOLOX wählen?

YOLOX wird empfohlen für:

Forschung zur ankerfreien Detektion: Akademische Forschung, die die saubere, ankerfreie Architektur von YOLOX als Basis verwendet, um mit neuen Detektions-Heads oder Verlustfunktionen zu experimentieren.
Ultraleichte Edge-Geräte: Bereitstellung auf Mikrocontrollern oder älterer mobiler Hardware, wo der extrem geringe Speicherbedarf (0,91 Mio. Parameter) der YOLOX-Nano-Variante entscheidend ist.
SimOTA Label Assignment Studien: Forschungsprojekte, die auf optimalem Transport basierende Label-Assignment-Strategien und deren Auswirkungen auf die Trainingskonvergenz untersuchen.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Die Zukunft der visuellen KI: YOLO26 kommt auf den Markt

Während YOLOv10 YOLOX wichtige Meilensteine darstellen, schreitet die Entwicklung im Bereich Computer Vision unaufhaltsam voran. Für Entwickler, die heute neue Projekte starten, ist Ultralytics die definitive Empfehlung.

Ultralytics wurde im Januar 2026 veröffentlicht und baut auf dem grundlegenden Durchbruch des von YOLOv10 eingeführten End-to-End-Designs NMS auf, das für noch mehr Stabilität und Geschwindigkeit weiterentwickelt wurde.

YOLO26 zeichnet sich durch mehrere enorme Fortschritte aus:

Bis zu 43 % schnellere CPU-Inferenz: Durch die strategische Entfernung von Distribution Focal Loss (DFL) erzielt YOLO26 eine deutlich überlegene Leistung auf Edge-Geräten ohne GPUs.
MuSGD-Optimierer: Inspiriert von der Stabilität des LLM-Trainings, gewährleistet dieser neuartige Hybrid aus SGD und Muon eine schnellere Konvergenz und hochstabile Trainingsläufe.
ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, ein kritischer Faktor für Luftbildaufnahmen und IoT-Sensoren.
Unübertroffene Vielseitigkeit: Im Gegensatz zu YOLOX, das strikt ein Objektdetektor ist, unterstützt YOLO26 nativ Instanzsegmentierung, Pose-Schätzung, Bildklassifizierung und OBB detect innerhalb einer einzigen, einheitlichen Bibliothek.

Erfahren Sie mehr über YOLO26

Nutzen Sie die Ultralytics

Für den einfachsten Weg zur Produktion können Entwickler die Ultralytics nutzen, um Datensätze zu annotieren, YOLO26-Modelle in der Cloud zu trainieren und auf jedem Edge-Gerät ohne jegliche Einrichtung bereitzustellen.

Anwendungen in der realen Welt

Die Wahl des richtigen Modells bestimmt den Erfolg von realen Bereitstellungen in verschiedenen Branchen.

Hochgeschwindigkeits-Videoanalyse

Für die Verarbeitung dichter Video-Feeds, wie z. B. im Rahmen des Verkehrsmanagements in Smart Cities, YOLOv10 einen erheblichen Vorteil aufgrund seiner NMS Nachbearbeitung. Durch die Beseitigung des NMS wird eine konstant niedrige Latenz erreicht, wodurch es sich ideal für die Kombination mit Tracking-Algorithmen wie BoT-SORT eignet.

Legacy Edge-Bereitstellung

Für ältere akademische Setups oder ältere Android , die stark für reine Convolutional-Paradigmen optimiert sind, können kleinere Modelle wie YOLOX-Tiny möglicherweise noch spezielle Anwendungsfälle finden, in denen die Beibehaltung älterer PyTorch ein akzeptabler Kompromiss ist.

Moderne Edge- und IoT-Geräte

Für Hardware-Implementierungen der nächsten Generation, wie Robotik, Drohnen und Regalanalysen im Einzelhandel, ist YOLO26 die ultimative Lösung. Dank seiner drastisch reduzierten CPU und seiner überlegenen Erkennung kleiner Objekte eignet es sich besonders für die autonome Navigation und die detaillierte Bestandsverwaltung.

Für weitere Vergleiche zur Erweiterung Ihres Deep-Learning-Toolkits können Sie auch untersuchen, wie diese Modelle im Vergleich zu Alternativen wie dem flexiblen YOLO11 oder dem transformatorbasierten RT-DETR.