Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX vs RTDETRv2#

Die Wahl der optimalen Architektur für Computer-Vision-Anwendungen erfordert eine sorgfältige Abwägung zwischen Genauigkeit, Inferenzgeschwindigkeit und Bereitstellungsmöglichkeiten. In dieser umfassenden technischen Analyse untersuchen wir die grundlegenden Unterschiede zwischen YOLOX, einer äußerst erfolgreichen ankerfreien CNN-Architektur, und RTDETRv2, einem hochmodernen Echtzeit-Detektions-Transformer.

Obwohl beide Modelle bedeutende Beiträge zum Bereich der Objekterkennung geleistet haben, stellen Entwickler, die produktionsreife Anwendungen erstellen, oft fest, dass moderne Alternativen wie Ultralytics YOLO26 eine überlegene Trainingseffizienz, geringere Speicheranforderungen und ein robusteres Bereitstellungs-Ökosystem bieten.

Link to this sectionYOLOX: Die Lücke zwischen Forschung und Industrie schließen#

YOLOX entwickelte sich zu einer sehr beliebten ankerfreien Anpassung der YOLO-Serie und führte ein vereinfachtes Design ein, das zum Zeitpunkt seiner Veröffentlichung beeindruckende Leistungsverbesserungen lieferte.

  • Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
  • Organisation: Megvii
  • Datum: 18. Juli 2021
  • Links: Arxiv, GitHub, Docs

Link to this sectionArchitektonische Innovationen#

YOLOX überführte die YOLO-Familie in ein ankerfreies Paradigma und integrierte einen entkoppelten Head sowie die fortschrittliche SimOTA-Strategie zur Label-Zuweisung. Durch den Verzicht auf Ankerboxen reduzierte die Architektur die Anzahl der Designparameter erheblich und verbesserte die Generalisierung über verschiedene Benchmark-Datensätze hinweg. Die leichtgewichtigen Versionen YOLOX-Nano und YOLOX-Tiny wurden zu beliebten Optionen für die Bereitstellung von Vision-KI-Anwendungen auf Edge-Geräten.

Überlegungen zu Legacy-Systemen

Obwohl YOLOX bemerkenswerte Fortschritte brachte, kann seine Abhängigkeit von aufwendigen Augmentierungs-Pipelines und älteren Post-Processing-Routinen (wie traditionellem NMS) im Vergleich zu nativen End-to-End-Modellen zu einer höheren Latenz führen.

Erfahre mehr über YOLOX

Link to this sectionRTDETRv2: Fortschritte bei Real-Time Vision Transformern#

Aufbauend auf dem Fundament seines Vorgängers nutzt RTDETRv2 die Leistungsfähigkeit von Vision Transformern (ViTs), um eine äußerst wettbewerbsfähige Genauigkeit zu erreichen, ohne dabei Echtzeit-Inferenzgeschwindigkeiten zu opfern.

  • Autoren: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang und Yi Liu
  • Organisation: Baidu
  • Datum: 24.07.2024
  • Links: Arxiv, GitHub

Link to this sectionArchitektonische Innovationen#

RTDETRv2 überdenkt die Detektions-Pipeline grundlegend, indem es eine Transformer-basierte Architektur verwendet, die nativ auf Non-Maximum Suppression (NMS) verzichtet. Dies wird durch einen hybriden Encoder und eine IoU-bewusste Query-Auswahl erreicht, die die Initialisierung von Objekt-Queries verbessert. Das Modell verarbeitet Multi-Scale-Features effektiv und ermöglicht es so, komplexe Details in schwierigen Umgebungen zu erfassen, wie etwa bei der Verkehrsvideoüberwachung bei Nacht.

Allerdings sind Transformer von Natur aus ressourcenintensiv. Das Training von RTDETRv2 erfordert in der Regel deutlich mehr GPU-Speicher und Rechenzyklen als CNN-basierte Alternativen, was für Teams mit strengen Budgetvorgaben oder Anforderungen an häufiges Modell-Tuning eine Hürde darstellen kann.

Erfahre mehr über RTDETR

Link to this sectionTabelle zum Leistungsvergleich#

Um diese Architekturen objektiv zu bewerten, untersuchen wir ihre Leistung auf dem COCO-Datensatz. Die folgende Tabelle veranschaulicht die Kompromisse zwischen Genauigkeit (mAP), Parameteranzahl und Rechenkomplexität.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOXnano41625,8--0,911,08
YOLOXtiny41632,8--5,066,45
YOLOXs64040.5-2.569,026,8
YOLOXm64046,9-5,4325.373,8
YOLOXl64049.7-9,0454,2155,6
YOLOXx64051,1-16,199,1281,9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Während RTDETRv2 eine beeindruckende Genauigkeit erreicht, behält YOLOX bei leichtgewichtigen Parameterprofilen einen Vorteil, insbesondere bei seinen Nano- und Tiny-Varianten.

Link to this sectionAnwendungsfälle und Empfehlungen#

Die Wahl zwischen YOLOX und RT-DETR hängt von deinen spezifischen Projektanforderungen, Bereitstellungseinschränkungen und Ökosystem-Präferenzen ab.

Link to this sectionWann man sich für YOLOX entscheiden sollte#

YOLOX ist eine starke Wahl für:

  • Forschung an ankerfreier Detektion: Akademische Forschung, die die saubere, ankerfreie Architektur von YOLOX als Basislinie verwendet, um mit neuen Detektions-Heads oder Verlustfunktionen zu experimentieren.
  • Ultraleichte Edge-Geräte: Bereitstellung auf Mikrocontrollern oder älterer mobiler Hardware, wo der extrem kleine Platzbedarf der YOLOX-Nano-Variante (0,91 Mio. Parameter) entscheidend ist.
  • SimOTA Label-Zuweisungsstudien: Forschungsprojekte, die transportbasierte Strategien zur Label-Zuweisung und deren Auswirkungen auf die Trainingskonvergenz untersuchen.

Link to this sectionWann du RT-DETR wählen solltest#

RT-DETR wird empfohlen für:

  • Transformer-basierte Erkennungsforschung: Projekte, die Aufmerksamkeitsmechanismen und Transformer-Architekturen für die End-to-End-Objekterkennung ohne NMS erforschen.
  • Szenarien mit hoher Genauigkeit bei flexibler Latenz: Anwendungen, bei denen die Erkennungsgenauigkeit oberste Priorität hat und eine etwas höhere Inferenzlatenz akzeptabel ist.
  • Erkennung großer Objekte: Szenen mit hauptsächlich mittelgroßen bis großen Objekten, bei denen der globale Aufmerksamkeitsmechanismus von Transformern einen natürlichen Vorteil bietet.

Link to this sectionWann du Ultralytics wählen solltest (YOLO26)#

Für die meisten neuen Projekte bietet Ultralytics YOLO26 die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
  • Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.

Link to this sectionDer Ultralytics-Vorteil: YOLO26#

Obwohl sowohl YOLOX als auch RTDETRv2 ihre jeweiligen Stärken haben, definiert das neu veröffentlichte Ultralytics YOLO26 den aktuellen Stand der Technik für Vision-KI neu und löst die historischen Kompromisse zwischen Geschwindigkeit, Genauigkeit und einfacher Bereitstellung.

Link to this section1. End-to-End NMS-freie Architektur#

Inspiriert von Transformer-Modellen, aber unter Beibehaltung der Effizienz von CNNs, bietet YOLO26 ein natives End-to-End NMS-freies Design. Durch den Wegfall von Non-Maximum Suppression als Post-Processing-Schritt vereinfacht YOLO26 Bereitstellungs-Pipelines erheblich und sorgt für eine konsistente Inferenzlatenz über verschiedene Edge-Geräte hinweg, ohne den Overhead einer komplexen Schwellenwert-Anpassung.

Link to this section2. Bis zu 43 % schnellere CPU-Inferenz#

Im Gegensatz zu Transformer-Architekturen wie RTDETRv2, die stark auf High-End-GPUs angewiesen sind, ist YOLO26 speziell für Edge-Computing-Umgebungen optimiert. Durch die Entfernung von Distribution Focal Loss (DFL) optimiert YOLO26 den Modellexport und erreicht eine bis zu 43 % schnellere CPU-Inferenz, was es zur idealen Wahl für die Integration in Hardware wie den Raspberry Pi oder Standard-Mobilgeräte macht.

Link to this section3. Trainingseffizienz mit MuSGD#

Das Training von Transformer-Modellen führt oft zu einem übermäßigen CUDA-Speicherverbrauch und langen Trainingszeiten. YOLO26 führt den neuartigen MuSGD Optimizer ein – eine Hybridlösung aus Stochastic Gradient Descent und dem von LLMs inspirierten Muon-Optimierer. Diese Innovation liefert ein außergewöhnlich stabiles Training und eine schnellere Konvergenz, was die Hardwareanforderungen im Vergleich zu RTDETRv2 erheblich senkt.

Link to this section4. Unübertroffenes Ökosystem und Vielseitigkeit#

Das Ultralytics-Ökosystem bietet eine intuitive, optimierte Entwicklererfahrung. Mit umfangreicher Dokumentation, aktiver Community-Unterstützung und der Cloud-basierten Ultralytics-Plattform war das Management des gesamten KI-Lebenszyklus noch nie so einfach. Darüber hinaus ist YOLO26 äußerst vielseitig. Während sich RTDETRv2 auf die Objekterkennung konzentriert, unterstützt YOLO26 nahtlos Instanzsegmentierung, Pose-Schätzung, Bildklassifizierung und Oriented Bounding Box (OBB)-Aufgaben nativ. Unterstützt durch die neuen ProgLoss + STAL-Verlustfunktionen zeichnet sich YOLO26 zudem bei der Erkennung kleiner Objekte aus, eine entscheidende Funktion für Luftbilder und industrielle Defekterkennung.

Weitere unterstützte Modelle

Das Ultralytics-Framework unterstützt auch die Vorgängergenerationen YOLO11 und YOLOv8, sodass Benutzer problemlos Legacy-Pipelines vergleichen und migrieren können.

Link to this sectionNahtlose Integration mit Ultralytics#

Die Bereitstellung von Modellen sollte nicht mit dem Umgang komplexer, fragmentierter Codebasen verbunden sein. Die Ultralytics Python API ermöglicht es dir, modernste Modelle mit nur wenigen Codezeilen zu laden, zu trainieren und zu exportieren.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Durch die Nutzung von Ultralytics vermeidest du die komplizierten Umgebungskonfigurationen, die normalerweise mit Forschungs-Repositories verbunden sind, und beschleunigst deine Time-to-Market.

Link to this sectionFazit#

YOLOX und RTDETRv2 stellen wichtige Meilensteine in der Entwicklung der Echtzeit-Objekterkennung dar. YOLOX bewies die Lebensfähigkeit hocheffizienter, ankerfreier CNNs, während RTDETRv2 Transformer erfolgreich an Echtzeitbeschränkungen anpasste.

Für moderne Anwendungen, die von Smart Retail Analytics bis hin zu eingebetteter Robotik reichen, bietet Ultralytics YOLO26 jedoch die definitive Lösung. Durch die Kombination von NMS-freier Inferenz mit beispiellosen CPU-Geschwindigkeiten, reduziertem Speicherbedarf und der robusten Unterstützung der Ultralytics-Plattform versetzt YOLO26 Entwickler in die Lage, die nächste Generation zuverlässiger Hochleistungs-Computer-Vision-Systeme zu erstellen.

Mitwirkende

Kommentare