Link to this sectionYOLOX vs. YOLOv6-3.0#

Die Entwicklung der Computer Vision wurde maßgeblich durch die rasanten Fortschritte der YOLO-Serie geprägt. Die Wahl der richtigen Architektur für deine Implementierung hängt oft davon ab, wie du den Durchsatz, die architektonische Einfachheit und die Trainingseffizienz gegeneinander abwägst. Zwei bemerkenswerte Meilensteine auf diesem Weg sind der auf Forschung fokussierte, anchor-free Ansatz von YOLOX und der hochoptimierte, industrielle Durchsatz von YOLOv6-3.0.

Dieser technische Vergleich erläutert die architektonischen Unterschiede, Leistungsmetriken und idealen Anwendungsfälle und stellt zudem die Funktionen der nächsten Generation von Ultralytics YOLO26 für Entwickler vor, die nach der ultimativen Edge- und Cloud-Lösung suchen.

Link to this sectionYOLOX: Die Brücke zwischen Forschung und Industrie#

YOLOX wurde von Forschern bei Megvii entwickelt und als bedeutender Schritt zur Vereinfachung der YOLO-Architektur eingeführt, indem sie vollständig auf Anchor-Boxes verzichtet.

Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
Organisation: Megvii
Datum: 18.07.2021
Arxiv: 2107.08430
GitHub: Megvii-BaseDetection/YOLOX

Link to this sectionArchitektonische Highlights#

YOLOX hat erfolgreich ein anchor-free Design in die YOLO-Familie integriert. Durch den Verzicht auf vordefinierte Anchor Boxes reduziert das Modell die Anzahl der Designparameter und die für das Training erforderliche heuristische Feinabstimmung erheblich. Das macht YOLOX sehr anpassungsfähig an verschiedene benutzerdefinierte Datensätze, ohne dass eine manuelle Neuberechnung der Anchors erforderlich ist.

Darüber hinaus führte YOLOX eine entkoppelte Head-Architektur ein. Indem Klassifizierungs- und Regressionsaufgaben in verschiedene Zweige aufgeteilt werden, löst das Modell den inhärenten Konflikt zwischen der Identifizierung, was ein Objekt ist und wo es sich befindet. In Kombination mit der SimOTA-Label-Zuweisungsstrategie erreicht YOLOX eine schnellere Konvergenz und eine verbesserte mean average precision (mAP).

Erfahre mehr über YOLOX

Der Vorteil des ankerfreien Designs

Anchor-free Detektoren wie YOLOX schneiden bei benutzerdefinierten Datensätzen mit ungewöhnlichen Objektseitenverhältnissen oft besser ab, da sie sich nicht auf feste Bounding Box-Vorgaben verlassen, die möglicherweise nicht zu den neuen Daten passen.

Link to this sectionYOLOv6-3.0: Das industrielle Schwergewicht#

YOLOv6-3.0 wurde von der Vision AI Abteilung bei Meituan entwickelt und ist konsequent auf maximalen industriellen Durchsatz ausgelegt, insbesondere auf NVIDIA GPUs unter Verwendung von Hardware-Beschleunigern wie TensorRT.

Autoren: Chuyi Li, Lulu Li, Yifei Geng, et al.
Organisation: Meituan
Datum: 13.01.2023
Arxiv: 2301.05586
GitHub: meituan/YOLOv6

Link to this sectionOptimierung für die Bereitstellung#

YOLOv6-3.0 konzentriert sich auf die Maximierung der GPU-Auslastung. Es führt ein Bi-directional Concatenation (BiC) Modul im Neck ein, um die Feature-Fusion zu verbessern und gleichzeitig hohe Inferenzgeschwindigkeiten beizubehalten. Während die Inferenzphase vollständig anchor-free ist, nutzt YOLOv6-3.0 eine innovative Anchor-Aided Training (AAT) Strategie, um während der Trainingsphase von der Stabilität anchor-basierter Ansätze zu profitieren.

Das Backbone ist in der hardwarefreundlichen EfficientRep-Architektur konstruiert, die bewusst darauf ausgelegt ist, Speicherzugriffskosten zu minimieren und die Rechendichte auf modernen Beschleunigern zu maximieren. Das macht YOLOv6 zu einem außergewöhnlich starken Kandidaten für die serverseitige Videoanalyse.

Erfahre mehr über YOLOv6

Link to this sectionLeistungsvergleich#

Beim Vergleich dieser Modelle müssen Entwickler die reine Genauigkeit gegen die Inferenzgeschwindigkeit und die Anzahl der Parameter abwägen. Die folgende Tabelle hebt die Leistung beider Modellfamilien in verschiedenen Größen hervor.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOXnano	416	25,8	-	-	0,91	1,08
YOLOXtiny	416	32,8	-	-	5,06	6,45
YOLOXs	640	40.5	-	2,56	9,0	26,8
YOLOXm	640	46,9	-	5,43	25.3	73,8
YOLOXl	640	49.7	-	9,04	54,2	155,6
YOLOXx	640	51,1	-	16,1	99,1	281,9

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Während YOLOv6-3.0 bei größeren Varianten eine überlegene mAP und exzellente TensorRT-Geschwindigkeiten zeigt, bleibt YOLOX aufgrund seiner Einfachheit und robusten Leistung auf älterer Hardware äußerst wettbewerbsfähig.

Link to this sectionAnwendungsfälle und Empfehlungen#

Die Entscheidung zwischen YOLOX und YOLOv6 hängt von deinen spezifischen Projektanforderungen, Bereitstellungseinschränkungen und Ökosystempräferenzen ab.

Link to this sectionWann man sich für YOLOX entscheiden sollte#

YOLOX ist eine starke Wahl für:

Forschung an ankerfreier Detektion: Akademische Forschung, die die saubere, ankerfreie Architektur von YOLOX als Basislinie verwendet, um mit neuen Detektions-Heads oder Verlustfunktionen zu experimentieren.
Ultraleichte Edge-Geräte: Bereitstellung auf Mikrocontrollern oder älterer mobiler Hardware, wo der extrem kleine Platzbedarf der YOLOX-Nano-Variante (0,91 Mio. Parameter) entscheidend ist.
SimOTA Label-Zuweisungsstudien: Forschungsprojekte, die transportbasierte Strategien zur Label-Zuweisung und deren Auswirkungen auf die Trainingskonvergenz untersuchen.

Link to this sectionWann du dich für YOLOv6 entscheiden solltest#

YOLOv6 wird empfohlen für:

Hardware-bewusste Bereitstellung in der Industrie: Szenarien, in denen das hardwarebewusste Design des Modells und die effiziente Reparametrisierung eine optimierte Leistung auf spezifischer Zielhardware bieten.
Schnelle Single-Stage-Erkennung: Anwendungen, bei denen die reine Inferenzgeschwindigkeit auf der GPU für die Echtzeit-Videoverarbeitung in kontrollierten Umgebungen priorisiert wird.
Integration in das Meituan-Ökosystem: Teams, die bereits innerhalb des Technologie-Stacks und der Bereitstellungsinfrastruktur von Meituan arbeiten.

Link to this sectionWann du Ultralytics wählen solltest (YOLO26)#

Für die meisten neuen Projekte bietet Ultralytics YOLO26 die beste Kombination aus Leistung und Entwicklererfahrung:

NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.

Link to this sectionDer Ultralytics-Vorteil#

Während sowohl Megvii als auch Meituan leistungsstarke Forschungs-Repositories bereitstellen, erfordert die Bereitstellung dieser Modelle in der Produktion oft einen erheblichen technischen Aufwand. Das integrierte Ultralytics Ökosystem beseitigt diese Hürden durch eine einheitliche, umfassend dokumentierte API.

Durch die Nutzung des Ultralytics-Pakets erhalten Entwickler Zugang zu einer unvergleichlichen Nutzererfahrung. Dazu gehören integrierte Auto-Augmentierung, hocheffizientes Speichermanagement während des Trainings (was die VRAM-Anforderungen im Vergleich zu Transformer-Modellen wie RTDETR drastisch senkt) und nahtlose Export-Pipelines in Formate wie ONNX und OpenVINO.

Im Gegensatz zu spezialisierten Modellen sind Ultralytics-Architekturen von Natur aus vielseitig und unterstützen Object Detection, Instance Segmentation, Pose Estimation, Bildklassifizierung und Oriented Bounding Boxes (OBB) sofort einsatzbereit.

Link to this sectionEinführung von YOLO26: Die ultimative Edge-Lösung#

Für Teams, die neue Computer Vision-Projekte starten, empfehlen wir dringend das Upgrade auf das neu veröffentlichte Ultralytics YOLO26. Aufbauend auf den Erfolgen von YOLO11 und YOLOv8 führt YOLO26 paradigmenwechselnde Innovationen ein:

End-to-End NMS-Free Design: First explored in YOLOv10, YOLO26 natively eliminates the need for Non-Maximum Suppression (NMS) post-processing. This guarantees deterministic, ultra-low latency inference critical for real-time robotics.
MuSGD Optimierer: Inspiriert von Techniken des LLM-Trainings wie Moonshot AIs Kimi K2, nutzt YOLO26 den MuSGD-Optimierer (eine Hybridform aus SGD und Muon), um eine unglaublich stabile Trainingsdynamik und eine schnellere Konvergenz zu erreichen.
Bis zu 43 % schnellere CPU-Inferenz: Durch das Entfernen von Distribution Focal Loss (DFL) und die Optimierung des Netzwerk-Heads ist YOLO26 stark auf Edge-Geräte optimiert, die sich auf CPU-Ausführung verlassen, und übertrifft YOLOv6 in Edge-Szenarien bei weitem.
ProgLoss + STAL: Diese fortschrittlichen Loss-Formulierungen liefern bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, wodurch YOLO26 ideal für Luftaufnahmen und mikroskopische Defektinspektionen ist.

Erfahre mehr über YOLO26

Link to this sectionEinheitliches Trainingsbeispiel#

Mit der Ultralytics Python API erfordert das Training modernster Modelle nur wenige Zeilen Code. Dieselbe übersichtliche Schnittstelle gilt sowohl, wenn du ein älteres YOLO-Modell testest, als auch bei der Bereitstellung des hochmodernen YOLO26-Frameworks.

from ultralytics import YOLO

# Load the next-generation YOLO26 model (NMS-free, optimized for edge)
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The ecosystem handles downloading, caching, and auto-batching natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model and print mAP metrics
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the model for edge deployment
model.export(format="onnx")

Ultralytics Platform

Für ein noch reibungsloseres Erlebnis kannst du deine Datensätze verwalten, Experimente nachverfolgen und Modelle in der Cloud mithilfe der Zero-Code Ultralytics Platform trainieren.

Link to this sectionEmpfehlungen für Anwendungsfälle#

Wenn du dich zwischen diesen Architekturen entscheidest, berücksichtige deine spezifischen Hardwarebeschränkungen und Projektanforderungen:

Wähle YOLOX, wenn du akademische Forschung zu Label-Zuweisungsstrategien betreibst oder eine reine, leicht verständliche anchor-free Basis für benutzerdefinierte architektonische Modifikationen benötigst.
Wähle YOLOv6-3.0, wenn du ein industrielles Server-Rack mit High-End NVIDIA GPUs (wie die A100 oder T4) bestückst, bei dem du große Batch-Größen und TensorRT-Optimierungen nutzen kannst, um Hunderte von Videostreams gleichzeitig zu verarbeiten.
Wähle YOLO26 für die allermeisten modernen Anwendungen. Wenn du Edge AI Anwendungen für IoT-Geräte, Drohnen oder Mobiltelefone entwickelst, machen das native NMS-freie Design, die CPU-Optimierungen und die umfassende Ökosystemunterstützung von YOLO26 zur unbestritten besten Wahl, um die Lücke zwischen Training und Produktion zu schließen.

Mitwirkende

GLglenn-jocher¹⁴ PDpderrenger¹

Erstellt 27. Jan. 2025Aktualisiert vor 3 Wochen