Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv10 im Vergleich zu RTDETRv2#

Die Landschaft des Computer Vision entwickelt sich in einem rasanten Tempo, wobei neue Architekturen ständig den aktuellen Stand der Technik bei der Echtzeit-Objektdetektion neu definieren. Zwei bedeutende Meilensteine in dieser Entwicklung sind YOLOv10 und RTDETRv2. Beide Modelle zielen darauf ab, einen grundlegenden Engpass in traditionellen Detektions-Pipelines zu lösen, indem sie die Notwendigkeit einer Non-Maximum Suppression (NMS)-Nachbearbeitung eliminieren, gehen diese Herausforderung jedoch mit völlig unterschiedlichen architektonischen Ansätzen an.

Dieser technische Vergleich bietet eine fundierte Analyse ihrer Architekturen, Trainingsmethoden und idealen Einsatzszenarien, um Entwicklern und Forschern bei der Auswahl des richtigen Werkzeugs für ihr nächstes Vision AI-Projekt zu helfen.

Link to this sectionYOLOv10: Der NMS-freie Pionier#

YOLOv10 wurde von Forschern der Tsinghua University entwickelt und konzentriert sich stark auf architektonische Effizienz und die Beseitigung von Engpässen bei der Nachbearbeitung. Durch die Einführung konsistenter dualer Zuweisungen für das NMS-freie Training erzielt es eine wettbewerbsfähige Leistung bei gleichzeitig deutlich geringerer Inferenz-Latenz.

Link to this sectionTechnische Spezifikationen#

Link to this sectionArchitektur und Methodik#

Der primäre Durchbruch von YOLOv10 liegt in seinem ganzheitlichen, auf Effizienz und Genauigkeit ausgerichteten Modelldesign. Es optimiert verschiedene Komponenten aus beiden Perspektiven und reduziert so den Rechenaufwand erheblich. Die Strategie der konsistenten dualen Zuweisungen ermöglicht es dem Modell, ohne NMS zu trainieren, was sich in einer gestrafften End-to-End-Bereitstellungs-Pipeline niederschlägt. Dies ist besonders vorteilhaft beim Exportieren von Modellen in Edge-Formate wie ONNX oder TensorRT, wo Nachbearbeitungsschritte unerwartete Latenzen verursachen können.

Link to this sectionStärken und Schwächen#

Das Modell bietet außergewöhnliche Geschwindigkeits-Genauigkeits-Kompromisse, insbesondere bei den kleineren Varianten (N und S). Seine minimale Latenz macht es ideal für Hochgeschwindigkeits-Edge-Umgebungen. Während YOLOv10 bei der reinen Detektionsgeschwindigkeit glänzt, bleibt es jedoch ein spezialisiertes Modell für die reine Objektdetektion. Teams, die Instance Segmentation oder Pose Estimation benötigen, müssen auf vielseitigere Frameworks zurückgreifen.

Erfahre mehr über YOLOv10

Link to this sectionRTDETRv2: Verfeinerung des Detection Transformer#

RTDETRv2 baut auf dem ursprünglichen Real-Time Detection Transformer auf und integriert einen "Bag of Freebies", um die Basisleistung zu verbessern. Dies zeigt, dass Transformer in Echtzeitszenarien mit CNNs konkurrieren können.

Link to this sectionTechnische Spezifikationen#

Link to this sectionArchitektur und Methodik#

RTDETRv2 nutzt eine hybride Architektur, die ein Convolutional Neural Network (CNN)-Backbone zur visuellen Merkmalsextraktion mit einem Transformer-Encoder-Decoder für ein umfassendes Szenenverständnis kombiniert. Der Self-Attention-Mechanismus des Transformers ermöglicht es dem Modell, das Bild global zu betrachten, was es äußerst effektiv bei der Handhabung komplexer Szenen, überlappender Objekte und dichter Menschenmengen macht.

Link to this sectionStärken und Schwächen#

Die Transformer-Architektur bietet eine hervorragende Genauigkeit, insbesondere bei größeren Parameterskalen, und liefert nativ ohne NMS finale Detektionen. Dies hat jedoch seinen Preis. Traditionell benötigen Transformer-Modelle während des Trainings deutlich mehr CUDA-Speicher und können langsamer konvergieren als reine CNN-Architekturen. Obwohl RTDETRv2 die Inferenzgeschwindigkeiten verbessert hat, verbraucht es im Allgemeinen mehr Speicher als leichtgewichtige YOLO-Varianten.

Erfahre mehr über RTDETRv2

Link to this sectionLeistungsvergleich#

Die Auswertung der Leistungsmetriken gibt ein klareres Bild davon, wo die Stärken der jeweiligen Modelle liegen. Die folgende Tabelle verdeutlicht ihre Fähigkeiten auf dem COCO dataset:

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5,4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256,9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Bei der Datenanalyse zeigt sich, dass YOLOv10 bei vergleichbaren Größen einen strikten Vorteil in Bezug auf Parametereffizienz und TensorRT-Inferenzgeschwindigkeit beibehält. RTDETRv2-x erreicht bei der Genauigkeit das massive YOLOv10x, erfordert jedoch fast 20 Millionen Parameter mehr und deutlich höhere FLOPs.

Link to this sectionAnwendungsfälle und Empfehlungen#

Die Wahl zwischen YOLOv10 und RT-DETR hängt von deinen spezifischen Projektanforderungen, Bereitstellungseinschränkungen und Ökosystempräferenzen ab.

Link to this sectionWann du dich für YOLOv10 entscheiden solltest#

YOLOv10 ist eine starke Wahl für:

  • NMS-freie Echtzeiterkennung: Anwendungen, die von einer End-to-End-Erkennung ohne Non-Maximum Suppression profitieren, was die Komplexität der Bereitstellung reduziert.
  • Ausgewogene Speed-Accuracy-Tradeoffs: Projekte, die eine gute Balance zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit über verschiedene Modellgrößen hinweg erfordern.
  • Anwendungen mit konstanter Latenz: Bereitstellungsszenarien, in denen vorhersehbare Inferenzzeiten kritisch sind, wie etwa in der Robotik oder bei autonomen Systemen.

Link to this sectionWann du RT-DETR wählen solltest#

RT-DETR wird empfohlen für:

  • Transformer-basierte Erkennungsforschung: Projekte, die Aufmerksamkeitsmechanismen und Transformer-Architekturen für die End-to-End-Objekterkennung ohne NMS erforschen.
  • Szenarien mit hoher Genauigkeit bei flexibler Latenz: Anwendungen, bei denen die Erkennungsgenauigkeit oberste Priorität hat und eine etwas höhere Inferenzlatenz akzeptabel ist.
  • Erkennung großer Objekte: Szenen mit hauptsächlich mittelgroßen bis großen Objekten, bei denen der globale Aufmerksamkeitsmechanismus von Transformern einen natürlichen Vorteil bietet.

Link to this sectionWann du Ultralytics wählen solltest (YOLO26)#

Für die meisten neuen Projekte bietet Ultralytics YOLO26 die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
  • Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.

Link to this sectionDer Ultralytics-Vorteil: Ökosystem und Innovation#

Während YOLOv10 und RTDETRv2 robuste Detektionsfähigkeiten bieten, geht es bei der Modellauswahl oft auch um das umgebende Software-Ökosystem. Die Ultralytics Platform bietet eine nahtlose, einheitliche Schnittstelle, die die Komplexität des Deep Learnings abstrahiert.

Link to this sectionDer neue Standard: Ultralytics YOLO26#

Für Entwickler, die die absolut beste Leistung suchen, stellt Ultralytics YOLO26 den Höhepunkt aktueller architektonischer Fortschritte dar. YOLO26 wurde Anfang 2026 veröffentlicht und erbt das von YOLOv10 pionierhaft entwickelte End-to-End NMS-Free Design, wodurch die NMS-Nachbearbeitung für eine schnellere und einfachere Bereitstellung vollständig entfällt.

Warum YOLO26 wählen?

YOLO26 bringt Innovationen aus dem LLM-Training in das Computer Vision mittels des MuSGD Optimizer (einer Hybridform aus SGD und Muon), was zu einem stabileren Training und einer schnelleren Konvergenz führt. Es bietet außerdem eine bis zu 43% schnellere CPU-Inferenz, was es zur ersten Wahl für Edge Computing macht.

Darüber hinaus führt YOLO26 ProgLoss + STAL für bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte ein. Im Gegensatz zum spezialisierten YOLOv10 bietet es zudem eine extreme Vielseitigkeit. Es unterstützt nativ Object Detection, Segmentierung, Pose und Oriented Bounding Boxes (OBB) mit aufgabenspezifischen Verbesserungen wie semantischem Segmentierungsverlust und Residual Log-Likelihood Estimation (RLE) für Pose. Die Entfernung des Distribution Focal Loss (DFL) sorgt zudem für einen vereinfachten Export und eine bessere Kompatibilität mit Geräten mit geringer Leistung.

Erfahre mehr über YOLO26

Link to this sectionBenutzerfreundlichkeit und Trainingseffizienz#

Egal, ob du mit älteren Modellgenerationen wie Ultralytics YOLO11 oder dem hochmodernen YOLO26 experimentierst, die optimierte Python API sorgt für einen geringeren Speicherverbrauch während des Trainings und extrem schnelle Workflows.

from ultralytics import RTDETR, YOLO

# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

Das gut gepflegte Ökosystem bietet Werkzeuge für ein einfaches Hyperparameter-Tuning und lässt sich nahtlos in umfangreiche Tracking-Lösungen sowie Modell-Bereitstellungsoptionen integrieren.

Link to this sectionFazit#

Sowohl YOLOv10 als auch RTDETRv2 stellen beachtliche Meilensteine bei der Suche nach NMS-freier Objektdetektion dar. RTDETRv2 beweist, dass Transformer eine Echtzeit-Latenz mit hervorragendem globalem Kontextverständnis erreichen können, wenn auch bei höherem Speicherbedarf. YOLOv10 bietet eine hocheffiziente, schnelle CNN-Alternative, die auf ressourcenbeschränkte Detektionsaufgaben zugeschnitten ist.

Für eine ausgewogene Leistung, Vielseitigkeit bei mehreren Aufgaben und das ausgereifteste Ökosystem wird Entwicklern jedoch dringend empfohlen, Ultralytics YOLO26 zu nutzen. Es verbindet auf elegante Weise die architektonischen Innovationen seiner Vorgänger mit den robusten, benutzerfreundlichen Werkzeugen, die die Bereitstellung von Vision AI zu einer nahtlosen Realität machen.

Kommentare