YOLO11 vs. YOLO26: Evolution der Echtzeit-Vision-KI
Das Feld der Computer Vision schreitet rasant voran, und Ultralytics führt weiterhin mit hochmodernen Objekterkennungsmodellen die Spitze an. Dieser Vergleich untersucht die architektonische Entwicklung, Leistungsmetriken und praktischen Anwendungen von YOLO11, das Ende 2024 veröffentlicht wurde, und dem bahnbrechenden YOLO26, das im Januar 2026 erschien. Während beide Modelle zum Zeitpunkt ihrer Veröffentlichung den Höhepunkt der Vision-KI darstellten, führt YOLO26 signifikante architektonische Veränderungen ein, die Effizienz und Geschwindigkeit für Edge-Bereitstellungen neu definieren.
Modellübersicht
YOLO11
Autoren: Glenn Jocher und Jing Qiu
Organisation:Ultralytics
Datum: 2024-09-27
GitHub:Ultralytics Repository
Dokumentation:YOLO11 Documentation
YOLO11 stellte eine signifikante Verfeinerung in der YOLO-Serie dar, indem es eine Reduzierung der Parameter um 22 % im Vergleich zu YOLOv8 bot und gleichzeitig die Erkennungsgenauigkeit verbesserte. Es führte ein verbessertes architektonisches Design ein, das Geschwindigkeit und Präzision ausbalancierte, was es zu einer zuverlässigen Wahl für vielfältige Computer-Vision-Aufgaben machte, von der Objekterkennung bis zur Instanzsegmentierung.
YOLO26
Autoren: Glenn Jocher und Jing Qiu
Organisation:Ultralytics
Datum: 2026-01-14
GitHub:Ultralytics Repository
Dokumentation:YOLO26 Documentation
YOLO26 stellt einen Paradigmenwechsel dar mit seinem nativ durchgängigen NMS-freien Design, das die Notwendigkeit einer Nachbearbeitung durch Non-Maximum Suppression eliminiert. Diese Innovation, die erstmals in YOLOv10 eingeführt wurde, vereinfacht Bereitstellungspipelines erheblich und reduziert die Latenz. YOLO26 ist speziell für Edge Computing optimiert und liefert bis zu 43 % schnellere CPU-Inferenz sowie neuartige Trainingsmethoden wie den MuSGD Optimizer – eine Hybridform aus SGD und Muon, inspiriert von LLM-Trainingsinnovationen.
Vorteil der End-to-End-Latenz
Durch das Entfernen des NMS-Schritts bietet YOLO26 konsistente Inferenzzeiten, unabhängig von der Anzahl der in einer Szene erkannten Objekte. Dies ist entscheidend für Echtzeitanwendungen wie das autonome Fahren, bei denen Spitzen in der Nachbearbeitung gefährliche Verzögerungen verursachen können.
Leistungsvergleich
Die folgende Tabelle hebt die Leistungsverbesserungen von YOLO26 gegenüber YOLO11 hervor. Beachten Sie die erheblichen Zuwächse bei der CPU-Geschwindigkeit, die YOLO26 außergewöhnlich leistungsfähig für Geräte ohne dedizierte GPUs machen, wie Raspberry Pis oder Mobiltelefone.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Architektonischer Deep Dive
YOLO11-Architektur
YOLO11 baute auf dem CSPNet-Backbone-Konzept auf und verfeinerte die Merkmalsextraktionsschichten, um granularere Details zu erfassen. Es verwendete einen standardmäßigen ankerfreien Erkennungskopf und stützte sich auf Distribution Focal Loss (DFL), um die Bounding-Box-Regression zu verfeinern. Obwohl hochwirksam, führte die Abhängigkeit von NMS dazu, dass die Inferenzgeschwindigkeit je nach Szenendichte schwanken konnte, ein häufiger Engpass bei der intelligenten Stadtüberwachung.
YOLO26-Architektur
YOLO26 führt mehrere radikale Änderungen ein, die auf Effizienz und Stabilität ausgelegt sind:
- NMS-freies End-to-End: Das Modell prognostiziert während des Trainings einen festen Satz von Bounding Boxes mit Eins-zu-Eins-Zuordnung, wodurch der heuristische NMS-Schritt während der Inferenz entfällt.
- DFL-Entfernung: Distribution Focal Loss wurde entfernt, um den Exportprozess in Formate wie ONNX und TensorRT zu vereinfachen und die Kompatibilität mit stromsparenden Edge-Geräten zu verbessern.
- MuSGD Optimizer: Inspiriert von Moonshot AIs Kimi K2 und dem Training großer Sprachmodelle (LLM) kombiniert dieser Hybrid-Optimizer SGD und Muon, um eine schnellere Konvergenz und stabilere Trainingsläufe zu gewährleisten und die „Loss Spikes“ zu reduzieren, die oft beim großskaligen Vision-Training auftreten.
- ProgLoss + STAL: Neue Verlustfunktionen (Progressive Loss und Soft-Target Assignment Loss) zielen speziell auf die Erkennung kleiner Objekte ab und bieten einen massiven Schub für die Analyse von Luftbildern und IoT-Sensoren.
Vielseitigkeit der Aufgaben
Beide Modelle unterstützen eine Vielzahl von Aufgaben innerhalb des Ultralytics-Ökosystems, wodurch Entwickler Modelle wechseln können, ohne ihre Pipelines neu schreiben zu müssen.
- Erkennung: Standard-Bounding-Box-Erkennung.
- Segmentierung: Pixelbasierte Masken. YOLO26 fügt eine spezifische semantische Segmentierungs-Loss und Multi-Scale-Proto für eine bessere Maskenqualität hinzu.
- Klassifizierung: Ganzbild-Kategorisierung.
- Pose-Schätzung: Keypoint-Erkennung. YOLO26 nutzt Residual Log-Likelihood Estimation (RLE) für höhere Präzision bei komplexen Posen, was für die Sportanalyse vorteilhaft ist.
- OBB (Orientierte Bounding Box): Rotierte Boxen für Luft- oder schräge Objekte. YOLO26 verfügt über einen spezialisierten Winkelfehler (angle loss), um Probleme mit der Begrenzungsdiskontinuität zu lösen, die bei Satellitenbildern häufig auftreten.
Training und Nutzung
Eines der Kennzeichen des Ultralytics-Ökosystems ist die vereinheitlichte API. Ob Sie YOLO11 verwenden oder auf YOLO26 aktualisieren, der Code bleibt praktisch identisch, wodurch die technische Schuld minimiert wird.
Python-Beispiel
So trainieren Sie das neue YOLO26-Modell mit der gleichen vertrauten Oberfläche, die auch für YOLO11 verwendet wird. Dieses Beispiel demonstriert das Training auf dem COCO8-Datensatz, einem kleinen Datensatz mit 8 Bildern, der sich perfekt zum Testen eignet.
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model
# The MuSGD optimizer is handled automatically internally for YOLO26 models
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device="cpu", # Use '0' for GPU
)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
CLI-Beispiel
Die Befehlszeilenschnittstelle ist gleichermaßen optimiert und ermöglicht schnelle Experimente und Modell-Benchmarking.
# Train YOLO26n on the COCO8 dataset
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640
# Export to ONNX for simplified edge deployment
yolo export model=yolo26n.pt format=onnx
Ideale Anwendungsfälle
Wählen Sie YOLO11, wenn:
- Sie über eine bestehende Produktionspipeline verfügen, die hochgradig auf YOLO11 abgestimmt ist, und keine Validierungszeit für eine neue Architektur aufwenden können.
- Ihre Bereitstellungshardware spezifische Optimierungen für die YOLO11-Schichtstruktur aufweist, die noch nicht für YOLO26 aktualisiert wurden.
Wählen Sie YOLO26, wenn:
- Edge-Bereitstellung ist entscheidend: Die Entfernung von NMS und DFL macht YOLO26 zur überlegenen Wahl für Android-/iOS-Apps und eingebettete Systeme, wo CPU-Zyklen kostbar sind.
- Erkennung kleiner Objekte: Die ProgLoss- und STAL-Funktionen machen es deutlich besser für die Identifizierung von Schädlingen in der Landwirtschaft oder entfernten Objekten in Drohnenaufnahmen.
- Trainingsstabilität: Wenn Sie auf massiven benutzerdefinierten Datensätzen trainieren und Divergenzprobleme aufgetreten sind, bietet der MuSGD-Optimierer in YOLO26 einen stabileren Trainingspfad.
- Einfachster Export: Die End-to-End-Architektur exportiert sauberer in Formate wie CoreML und TensorRT, ohne komplexe externe NMS-Plugins zu benötigen.
Für Entwickler, die andere Optionen innerhalb der Ultralytics-Familie erkunden möchten, werden Modelle wie YOLOv10 (der Vorläufer von End-to-End YOLO) oder YOLO-World (für Open-Vocabulary-Erkennung) ebenfalls vollständig unterstützt.
Fazit
Während YOLO11 ein robustes und hochleistungsfähiges Modell bleibt, etabliert YOLO26 einen neuen Maßstab für das, was in der Echtzeit-Computer-Vision möglich ist. Durch die Integration von LLM-inspirierten Trainingsdynamiken und die Vereinfachung der Inferenz-Pipeline durch ein NMS-freies Design hat Ultralytics ein Modell geschaffen, das nicht nur genauer, sondern auch erheblich einfacher in der realen Welt einzusetzen ist.
Das Ultralytics-Ökosystem gewährleistet einen nahtlosen Upgrade-Prozess. Mit geringeren Speicheranforderungen während des Trainings und schnelleren CPU-Geschwindigkeiten während der Inferenz ist YOLO26 der empfohlene Ausgangspunkt für alle neuen Projekte im Jahr 2026.
Erste Schritte mit Ultralytics