Ultralytics YOLO26

Übersicht

Ultralytics YOLO26 ist die neueste Evolution der YOLO-Serie für Echtzeit-Objektdetektion, die von Grund auf für Edge- und Low-Power-Geräte entwickelt wurde. Es führt ein optimiertes Design ein, das unnötige Komplexität entfernt und gleichzeitig gezielte Innovationen integriert, um eine schnellere, leichtere und zugänglichere Bereitstellung zu ermöglichen.

Vergleichsdiagramme für Ultralytics YOLO26

Auf der Ultralytics Plattform ausprobieren

Erkunde und führe YOLO26-Modelle direkt auf der Ultralytics Plattform aus.

Die Architektur von YOLO26 basiert auf drei Grundprinzipien:

  • Einfachheit: YOLO26 ist ein natives End-to-End-Modell, das Vorhersagen direkt liefert, ohne dass eine nicht-maximale Unterdrückung (NMS) erforderlich ist. Durch den Wegfall dieses Nachbearbeitungsschritts wird die Inferenz schneller, leichter und einfacher in realen Systemen bereitzustellen. Dieser bahnbrechende Ansatz wurde erstmals in YOLOv10 von Ao Wang an der Tsinghua-Universität erprobt und in YOLO26 weiterentwickelt.
  • Bereitstellungseffizienz: Das End-to-End-Design eliminiert eine gesamte Stufe der Pipeline, was die Integration drastisch vereinfacht, die Latenz reduziert und die Bereitstellung in verschiedenen Umgebungen robuster macht.
  • Trainingsinnovation: YOLO26 führt den MuSGD-Optimierer ein, eine Hybridlösung aus SGD und Muon – inspiriert von den Durchbrüchen von Moonshot AI bei Kimi K2 im LLM-Training. Dieser Optimierer sorgt für verbesserte Stabilität und schnellere Konvergenz, wodurch Optimierungsfortschritte aus Sprachmodellen auf die Computer Vision übertragen werden.
  • Aufgabenspezifische Optimierungen: YOLO26 bietet gezielte Verbesserungen für spezialisierte Aufgaben, darunter semantischen Segmentierungsverlust und Multi-Scale-Proto-Module für Segmentierung, Residual Log-Likelihood Estimation (RLE) für hochpräzise Pose-Schätzung sowie optimierte Dekodierung mit Winkelverlust zur Lösung von Grenzproblemen bei OBB.

Zusammen liefern diese Innovationen eine Modellfamilie, die eine höhere Genauigkeit bei kleinen Objekten erzielt, eine nahtlose Bereitstellung ermöglicht und bis zu 43 % schneller auf CPUs läuft – was YOLO26 zu einem der praktischsten und einsatzfähigsten YOLO-Modelle für ressourcenbeschränkte Umgebungen macht.

Hauptfunktionen

  • Entfernung von DFL
    Das Distribution Focal Loss (DFL)-Modul war zwar effektiv, komplizierte jedoch oft den Export und schränkte die Hardwarekompatibilität ein. YOLO26 entfernt DFL vollständig, was die Inferenz vereinfacht und die Unterstützung für Edge- und Low-Power-Geräte erweitert.

  • End-to-End NMS-freie Inferenz
    Im Gegensatz zu herkömmlichen Detektoren, die auf NMS als separaten Nachbearbeitungsschritt angewiesen sind, ist YOLO26 nativ End-to-End. Vorhersagen werden direkt generiert, was die Latenz reduziert und die Integration in Produktionssysteme schneller, leichter und zuverlässiger macht.

  • ProgLoss + STAL
    Verbesserte Verlustfunktionen erhöhen die Erkennungsgenauigkeit, mit bemerkenswerten Fortschritten bei der Erkennung kleiner Objekte, was eine entscheidende Anforderung für IoT, Robotik, Luftbilder und andere Edge-Anwendungen ist.

  • MuSGD-Optimierer
    Ein neuer hybrider Optimierer, der SGD mit Muon kombiniert. Inspiriert von Moonshot AIs Kimi K2, bringt MuSGD fortschrittliche Optimierungsmethoden aus dem LLM-Training in die Computer Vision und ermöglicht stabileres Training sowie schnellere Konvergenz.

  • Bis zu 43 % schnellere CPU-Inferenz
    Speziell für Edge-Computing optimiert, liefert YOLO26 eine deutlich schnellere CPU-Inferenz und gewährleistet Echtzeitleistung auf Geräten ohne GPUs.

  • Verbesserungen bei der Instanzsegmentierung
    Führt einen semantischen Segmentierungsverlust ein, um die Modellkonvergenz zu verbessern, sowie ein aktualisiertes Proto-Modul, das Multi-Scale-Informationen für eine überragende Maskenqualität nutzt.

  • Präzise Pose-Schätzung
    Integriert Residual Log-Likelihood Estimation (RLE) für eine genauere Keypoint-Lokalisierung und optimiert den Dekodierungsprozess für eine erhöhte Inferenzgeschwindigkeit.

  • Verfeinerte OBB-Dekodierung
    Führt einen speziellen Winkelverlust ein, um die Erkennungsgenauigkeit für quadratische Objekte zu verbessern, und optimiert die OBB-Dekodierung, um Probleme mit Grenzdiskontinuitäten zu beheben.

Vergleichsdiagramme für Ultralytics YOLO26 End-to-End


Unterstützte Aufgaben und Modi

YOLO26 baut auf der vielseitigen Modellreihe früherer Ultralytics YOLO-Veröffentlichungen auf und bietet erweiterte Unterstützung für verschiedene Computer-Vision-Aufgaben:

ModellDateinamenAufgabeInferenzValidierungTrainingExportieren
YOLO26yolo26n.pt yolo26s.pt yolo26m.pt yolo26l.pt yolo26x.ptDetektion
YOLO26-segyolo26n-seg.pt yolo26s-seg.pt yolo26m-seg.pt yolo26l-seg.pt yolo26x-seg.ptInstanzsegmentierung
YOLO26-semyolo26n-sem.pt yolo26s-sem.pt yolo26m-sem.pt yolo26l-sem.pt yolo26x-sem.ptSemantische Segmentierung
YOLO26-poseyolo26n-pose.pt yolo26s-pose.pt yolo26m-pose.pt yolo26l-pose.pt yolo26x-pose.ptPose/Keypoints
YOLO26-obbyolo26n-obb.pt yolo26s-obb.pt yolo26m-obb.pt yolo26l-obb.pt yolo26x-obb.ptOrientierte Detektion
YOLO26-clsyolo26n-cls.pt yolo26s-cls.pt yolo26m-cls.pt yolo26l-cls.pt yolo26x-cls.ptKlassifizierung

Dieses einheitliche Framework stellt sicher, dass YOLO26 in Echtzeit-Detektion, Instanzsegmentierung, semantischer Segmentierung, Klassifizierung, Pose-Schätzung und orientierter Objekterkennung anwendbar ist – alles mit Unterstützung für Training, Validierung, Inferenz und Export.

Nur-Architektur-Varianten

yolo26-p2.yaml und yolo26-p6.yaml fügen einen P2- (kleine Objekte) oder P6- (große Eingabe) Detektionskopf hinzu und werden nur als YAML-Architekturen geliefert. Es werden keine skalierten yolo26*-p2.pt oder yolo26*-p6.pt Gewichte veröffentlicht. Erstelle eine skalierte Konfiguration aus der YAML-Datei (z. B. YOLO("yolo26n-p6.yaml")) und trainiere oder optimiere diese nach Bedarf.


Leistungsmetriken

Leistung

Siehe Detektionsdokumentation für Nutzungsbeispiele mit diesen Modellen, die auf COCO trainiert wurden und 80 vortrainierte Klassen enthalten.

ModellGröße
(Pixel)
mAPval
50-95
mAPval
50-95(e2e)
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO26n64040.940.138.9 ± 0.71.7 ± 0.02.45.4
YOLO26s64048.647.887.2 ± 0.92.5 ± 0.09.520.7
YOLO26m64053.152.5220.0 ± 1.44.7 ± 0.120.468.2
YOLO26l64055.054.4286.2 ± 2.06.2 ± 0.224.886.4
YOLO26x64057.556.9525.8 ± 4.011.8 ± 0.255.7193.9

Params- und FLOPs-Werte beziehen sich auf das fusionierte Modell nach model.fuse(), welches Conv- und BatchNorm-Schichten zusammenführt und den zusätzlichen One-to-Many-Detection-Head entfernt. Vortrainierte Checkpoints behalten die vollständige Trainingsarchitektur bei und können höhere Werte aufweisen.


Anwendungsbeispiele

Dieser Abschnitt bietet einfache YOLO26-Trainings- und Inferenzbeispiele. Für die vollständige Dokumentation zu diesen und anderen Modi, siehe die Dokumentationsseiten für Predict, Train, Val und Export.

Beachte, dass das folgende Beispiel für YOLO26 Detect-Modelle zur Objekterkennung gilt. Für weitere unterstützte Aufgaben, siehe die Dokumentation zu Segment, Semantic Segmentation, Classify, OBB und Pose.

Beispiel

PyTorch vortrainierte *.pt-Modelle sowie Konfigurations-*.yaml-Dateien können an die YOLO()-Klasse übergeben werden, um eine Modellinstanz in Python zu erstellen:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO26n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
Dual-Head-Architektur

YOLO26 bietet eine Dual-Head-Architektur, die Flexibilität für verschiedene Bereitstellungsszenarien bietet:

  • One-to-One Head (Standard): Erzeugt End-to-End-Vorhersagen ohne NMS und gibt (N, 300, 6) aus, mit maximal 300 Erkennungen pro Bild. Dieser Head ist für schnelle Inferenz und vereinfachte Bereitstellung optimiert.
  • One-to-Many Head: Erzeugt traditionelle YOLO-Ausgaben, die eine NMS-Nachverarbeitung erfordern, und gibt (N, nc + 4, 8400) aus, wobei nc die Anzahl der Klassen ist. Dieser Head erzielt normalerweise eine etwas höhere Genauigkeit auf Kosten zusätzlicher Verarbeitung.

Du kannst während des Exports, der Vorhersage oder der Validierung zwischen den Heads wechseln:

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Use one-to-one head (default, no NMS required)
results = model.predict("image.jpg")  # inference
metrics = model.val(data="coco.yaml")  # validation
model.export(format="onnx")  # export

# Use one-to-many head (requires NMS)
results = model.predict("image.jpg", end2end=False)  # inference
metrics = model.val(data="coco.yaml", end2end=False)  # validation
model.export(format="onnx", end2end=False)  # export

Die Wahl hängt von deinen Bereitstellungsanforderungen ab: Verwende den One-to-One-Head für maximale Geschwindigkeit und Einfachheit oder den One-to-Many-Head, wenn Genauigkeit die höchste Priorität hat.

YOLOE-26: Open-Vocabulary Instance Segmentation

YOLOE-26 integriert die leistungsstarke YOLO26-Architektur mit den Open-Vocabulary-Fähigkeiten der YOLOE-Serie. Dies ermöglicht die Echtzeit-Erkennung und -Segmentierung jeder Objektklasse mittels Text-Prompts, visueller Prompts oder eines prompt-freien Modus für Zero-Shot-Inferenz, wodurch die Einschränkungen eines Trainings mit festen Kategorien effektiv aufgehoben werden.

Durch die Nutzung des NMS-freien, End-to-End-Designs von YOLO26 bietet YOLOE-26 eine schnelle Open-World-Inferenz. Dies macht es zu einer leistungsstarken Lösung für Edge-Anwendungen in dynamischen Umgebungen, in denen die Zielobjekte ein breites und sich entwickelndes Vokabular repräsentieren.

Leistung

Siehe YOLOE Docs für Anwendungsbeispiele mit diesen Modellen, die auf Objects365v1, GQA und Flickr30k Datensätzen trainiert wurden.

ModellGröße
(Pixel)
Prompt-TypmAPminival
50-95(e2e)
mAPminival
50-95
mAPrmAPcmAPfParameter
(M)
FLOPs
(B)
YOLOE-26n-seg640Text/Visuell23.7 / 20.924.7 / 21.920.5 / 17.624.1 / 22.326.1 / 22.44.86.0
YOLOE-26s-seg640Text/Visuell29.9 / 27.130.8 / 28.623.9 / 25.129.6 / 27.833.0 / 29.913.121.7
YOLOE-26m-seg640Text/Visuell35.4 / 31.335.4 / 33.931.1 / 33.434.7 / 34.036.9 / 33.827.970.1
YOLOE-26l-seg640Text/Visuell36.8 / 33.737.8 / 36.335.1 / 37.637.6 / 36.238.5 / 36.132.388.3
YOLOE-26x-seg640Text/Visuell39.5 / 36.240.6 / 38.537.4 / 35.340.9 / 38.841.0 / 38.869.9196.7

Anwendungsbeispiel

YOLOE-26 unterstützt sowohl textbasierte als auch visuelle Prompts. Die Verwendung von Prompts ist unkompliziert – übergib sie einfach wie unten gezeigt an die predict-Methode:

Beispiel

Mit Text-Prompts kannst du die Klassen, die du erkennen möchtest, über Textbeschreibungen festlegen. Der folgende Code zeigt, wie du YOLOE-26 verwenden kannst, um Personen und Busse in einem Bild zu erkennen:

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg.pt")  # or select yoloe-26s/m-seg.pt for different sizes

# Set text prompt to detect person and bus. You only need to do this once after you load the model.
model.set_classes(["person", "bus"])

# Run detection on the given image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Für einen tiefen Einblick in Prompting-Techniken, das Training von Grund auf und vollständige Anwendungsbeispiele besuche die YOLOE-Dokumentation.

Zitate und Danksagungen

Publikation zu Ultralytics YOLO26

Ultralytics hat aufgrund der sich schnell entwickelnden Natur der Modelle kein formelles Forschungspapier für YOLO26 veröffentlicht. Stattdessen konzentrieren wir uns darauf, modernste Modelle bereitzustellen und sie benutzerfreundlich zu gestalten. Für die neuesten Updates zu YOLO-Funktionen, Architekturen und Verwendung besuche unser GitHub-Repository und unsere Dokumentation.

Wenn du YOLO26 oder andere Software von Ultralytics bei deiner Arbeit verwendest, zitiere sie bitte wie folgt:

Zitat
@software{yolo26_ultralytics,
  author = {Glenn Jocher and Jing Qiu},
  title = {Ultralytics YOLO26},
  version = {26.0.0},
  year = {2026},
  url = {https://github.com/ultralytics/ultralytics},
  orcid = {0000-0001-5950-6979, 0000-0003-3783-7069},
  license = {AGPL-3.0}
}

DOI ausstehend. YOLO26 ist unter AGPL-3.0 und Enterprise Lizenzen verfügbar.


FAQ

Was sind die wichtigsten Verbesserungen in YOLO26 im Vergleich zu YOLO11?

  • Entfernung von DFL: Vereinfacht den Export und erweitert die Edge-Kompatibilität
  • End-to-End NMS-freie Inferenz: Eliminiert NMS für schnelleres, einfacheres Deployment
  • ProgLoss + STAL: Steigert die Genauigkeit, insbesondere bei kleinen Objekten
  • MuSGD-Optimierer: Kombiniert SGD und Muon (inspiriert von Moonshots Kimi K2) für ein stabileres, effizienteres Training
  • Bis zu 43 % schnellere CPU-Inferenz: Erhebliche Leistungssteigerungen für reine CPU-Geräte

Welche Aufgaben unterstützt YOLO26?

YOLO26 ist eine einheitliche Modellfamilie, die End-to-End-Unterstützung für mehrere Computer-Vision-Aufgaben bietet:

Jede Größenvariante (n, s, m, l, x) unterstützt alle Aufgaben, plus Open-Vocabulary-Versionen via YOLOE-26.

Warum ist YOLO26 für das Edge-Deployment optimiert?

YOLO26 liefert modernste Edge-Leistung durch:

  • Bis zu 43 % schnellere CPU-Inferenz
  • Reduzierte Modellgröße und Speicherbedarf
  • Vereinfachte Architektur für Kompatibilität (kein DFL, kein NMS)
  • Flexible Exportformate einschließlich TensorRT, ONNX, CoreML, TFLite und OpenVINO

Wie fange ich mit YOLO26 an?

YOLO26-Modelle wurden am 14. Januar 2026 veröffentlicht und stehen zum Download bereit. Installiere oder aktualisiere das ultralytics-Paket und lade ein Modell:

from ultralytics import YOLO

# Load a pretrained YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("image.jpg")

Siehe den Abschnitt Usage Examples für Anleitungen zum Training, zur Validierung und zum Export.

Kommentare