Zum Inhalt springen

Ultralytics YOLO26

Überblick

Ultralytics YOLO26 ist die neueste Entwicklung in der YOLO-Serie von Echtzeit-Objektdetektoren, die von Grund auf für Edge- und Low-Power-Geräte entwickelt wurde. Es führt ein optimiertes Design ein, das unnötige Komplexität reduziert und gleichzeitig gezielte Innovationen integriert, um eine schnellere, schlankere und zugänglichere Bereitstellung zu ermöglichen.

Ultralytics YOLO26 Vergleichsgrafiken

Probieren Sie Ultralytics aus

Entdecken und nutzen Sie YOLO26-Modelle direkt auf Ultralytics .

Die Architektur von YOLO26 basiert auf drei Kernprinzipien:

  • Einfachheit: YOLO26 ist ein natives End-to-End-Modell, das Vorhersagen direkt liefert, ohne die Notwendigkeit einer Non-Maximum Suppression (NMS). Durch die Eliminierung dieses Nachbearbeitungsschritts wird die Inferenz schneller, schlanker und einfacher in realen Systemen bereitzustellen. Dieser bahnbrechende Ansatz wurde erstmals in YOLOv10 von Ao Wang an der Tsinghua-Universität entwickelt und in YOLO26 weiter vorangetrieben.
  • Deployment-Effizienz: Das End-to-End-Design spart eine ganze Phase der Pipeline ein, was die Integration erheblich vereinfacht, die Latenz reduziert und die Bereitstellung in verschiedenen Umgebungen robuster macht.
  • Trainingsinnovation: YOLO26 führt den MuSGD-Optimierer ein, eine Mischung aus SGD und Muon — inspiriert von Moonshot AIs Kimi K2-Durchbrüchen im LLM-Training. Dieser Optimierer sorgt für verbesserte Stabilität und schnellere Konvergenz und überträgt Optimierungsfortschritte von Sprachmodellen in die Computer Vision.
  • Aufgabenspezifische Optimierungen: YOLO26 führt gezielte Verbesserungen für spezialisierte Aufgaben ein, darunter semantischer Segmentierungsverlust und mehrskalige Proto-Module für die Segmentation, Residual Log-Likelihood Estimation (RLE) für hochpräzise Pose-Schätzung und optimierte Dekodierung mit Winkelfehler zur Behebung von Grenzproblemen bei OBB.

Zusammen liefern diese Innovationen eine Modellfamilie, die eine höhere Genauigkeit bei kleinen Objekten erreicht, eine nahtlose Bereitstellung ermöglicht und bis zu 43 % schneller auf CPUs läuft — was YOLO26 zu einem der praktischsten und am besten einsetzbaren YOLO-Modelle für ressourcenbeschränkte Umgebungen macht.

Hauptmerkmale

  • Entfernung von DFL
    Das Distribution Focal Loss (DFL)-Modul, obwohl effektiv, erschwerte oft den Export und schränkte die Hardware-Kompatibilität ein. YOLO26 entfernt DFL vollständig, was die Inferenz vereinfacht und die Unterstützung für Edge- und Low-Power-Geräte erweitert.

  • End-to-End NMS-freie Inferenz
    Im Gegensatz zu traditionellen Detektoren, die sich auf NMS als separaten Nachbearbeitungsschritt verlassen, ist YOLO26 nativ End-to-End. Vorhersagen werden direkt generiert, was die Latenz reduziert und die Integration in Produktionssysteme schneller, leichter und zuverlässiger macht.

  • ProgLoss + STAL
    Verbesserte Verlustfunktionen erhöhen die detect-Genauigkeit, mit bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, einer kritischen Anforderung für IoT, Robotik, Luftbildaufnahmen und andere Edge-Anwendungen.

  • MuSGD-Optimizer
    Ein neuer hybrider Optimizer, der SGD mit Muon kombiniert. Inspiriert von Moonshot AIs Kimi K2, führt MuSGD fortschrittliche Optimierungsmethoden aus dem LLM-Training in die Computer Vision ein, was ein stabileres Training und eine schnellere Konvergenz ermöglicht.

  • Bis zu 43 % schnellere CPU-Inferenz
    Speziell für Edge Computing optimiert, liefert YOLO26 eine deutlich schnellere CPU-Inferenz und gewährleistet Echtzeit-Performance auf Geräten ohne GPUs.

  • Verbesserungen bei der Instanzsegmentierung
    Führt einen semantischen Segmentierungsverlust ein, um die Modellkonvergenz zu verbessern, und ein aktualisiertes Proto-Modul, das mehrskalige Informationen für eine überlegene Maskenqualität nutzt.

  • Präzise Pose-Schätzung
    Integriert Residual Log-Likelihood Estimation (RLE) für eine genauere Schlüsselpunktlokalisierung und optimiert den Dekodierungsprozess für eine erhöhte Inferenzgeschwindigkeit.

  • Verfeinerte OBB-Dekodierung
    Führt einen spezialisierten Winkelfehler ein, um die detect-Genauigkeit für quadratische Objekte zu verbessern, und optimiert die obb-Dekodierung, um Probleme mit Grenzdiskontinuitäten zu lösen.

Ultralytics YOLO26 End-to-End Vergleichsdiagramme


Unterstützte Aufgaben und Modi

YOLO26 baut auf der vielseitigen Modellpalette auf, die durch frühere Ultralytics YOLO-Veröffentlichungen etabliert wurde, und bietet erweiterte Unterstützung für verschiedene Computer-Vision-Aufgaben:

ModellDateinamenAufgabeInferenzValidierungTrainingExport
YOLO26yolo26n.pt yolo26s.pt yolo26m.pt yolo26l.pt yolo26x.ptErkennung
YOLO26-segyolo26n-seg.pt yolo26s-seg.pt yolo26m-seg.pt yolo26l-seg.pt yolo26x-seg.ptInstanzsegmentierung
YOLO26-poseyolo26n-pose.pt yolo26s-pose.pt yolo26m-pose.pt yolo26l-pose.pt yolo26x-pose.ptPose/Keypoints
YOLO26-obbyolo26n-obb.pt yolo26s-obb.pt yolo26m-obb.pt yolo26l-obb.pt yolo26x-obb.ptOrientierte Erkennung
YOLO26-clsyolo26n-cls.pt yolo26s-cls.pt yolo26m-cls.pt yolo26l-cls.pt yolo26x-cls.ptKlassifizierung

Dieses einheitliche Framework stellt sicher, dass YOLO26 für Echtzeit-Detektion, -Segmentierung, -Klassifizierung, -Pose-Schätzung und -orientierte Objektdetektion eingesetzt werden kann — alles mit Unterstützung für Training, Validierung, Inferenz und Export.


Leistungsmetriken

Performance

Siehe detect-Dokumentation für Anwendungsbeispiele mit diesen Modellen, die auf COCO trainiert wurden und 80 vortrainierte Klassen umfassen.

ModellGröße
(Pixel)
mAPval
50-95
mAPval
50-95(e2e)
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO26n64040.940.138.9 ± 0.71.7 ± 0.02.45.4
YOLO26s64048.647.887.2 ± 0.92.5 ± 0.09.520.7
YOLO26m64053.152.5220.0 ± 1.44.7 ± 0.120.468.2
YOLO26l64055.054.4286.2 ± 2.06.2 ± 0.224.886.4
YOLO26x64057.556.9525.8 ± 4.011.8 ± 0.255.7193.9

Siehe Dokumentation zur Segmentierung für Anwendungsbeispiele mit diesen auf COCO trainierten Modellen, die 80 vortrainierte Klassen enthalten.

ModellGröße
(Pixel)
mAPbox
50-95(e2e)
mAPmask
50-95(e2e)
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO26n-seg64039.633.953.3 ± 0.52.1 ± 0.02.79.1
YOLO26s-seg64047.340.0118.4 ± 0.93.3 ± 0.010.434.2
YOLO26m-seg64052.544.1328.2 ± 2.46.7 ± 0.123.6121.5
YOLO26l-seg64054.445.5387.0 ± 3.78.0 ± 0.128.0139.8
YOLO26x-seg64056.547.0787.0 ± 6.816.4 ± 0.162.8313.5

Siehe Klassifizierungs-Dokumentation für Anwendungsbeispiele mit diesen Modellen, die auf ImageNet trainiert wurden und 1000 vortrainierte Klassen umfassen.

ModellGröße
(Pixel)
acc
top1
acc
top5
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B) bei 224
YOLO26n-cls22471.490.15.0 ± 0.31.1 ± 0.02.80.5
YOLO26s-cls22476.092.97.9 ± 0.21.3 ± 0.06.71.6
YOLO26m-cls22478.194.217.2 ± 0.42.0 ± 0.011.64.9
YOLO26l-cls22479.094.623.2 ± 0.32.8 ± 0.014.16.2
YOLO26x-cls22479.995.041.4 ± 0.93.8 ± 0.029.613.6

Siehe Dokumentation zur Pose-Schätzung für Anwendungsbeispiele mit diesen auf COCO trainierten Modellen, die eine vortrainierte Klasse, 'person', enthalten.

ModellGröße
(Pixel)
mAPpose
50-95(e2e)
mAPpose
50(e2e)
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO26n-pose64057.283.340.3 ± 0.51.8 ± 0.02.97.5
YOLO26s-pose64063.086.685.3 ± 0.92.7 ± 0.010.423.9
YOLO26m-pose64068.889.6218.0 ± 1.55.0 ± 0.121.573.1
YOLO26l-pose64070.490.5275.4 ± 2.46.5 ± 0.125.991.3
YOLO26x-pose64071.691.6565.4 ± 3.012.2 ± 0.257.6201.7

Siehe Dokumentation zur orientierten detect-Erkennung für Anwendungsbeispiele mit diesen Modellen, die auf DOTAv1 trainiert wurden und 15 vortrainierte Klassen umfassen.

ModellGröße
(Pixel)
mAPtest
50-95(e2e)
mAPtest
50(e2e)
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO26n-obb102452.478.997.7 ± 0.92.8 ± 0.02.514.0
YOLO26s-obb102454.880.9218.0 ± 1.44.9 ± 0.19.855.1
YOLO26m-obb102455.381.0579.2 ± 3.810.2 ± 0.321.2183.3
YOLO26l-obb102456.281.6735.6 ± 3.113.0 ± 0.225.6230.0
YOLO26x-obb102456.781.71485.7 ± 11.530.5 ± 0.957.6516.5

Anwendungsbeispiele

Dieser Abschnitt bietet einfache Beispiele für das Training und die Inferenz mit YOLO26. Für die vollständige Dokumentation zu diesen und weiteren Modi siehe die Dokumentationsseiten zu Predict, Train, Val und Export.

Beachten Sie, dass das folgende Beispiel für YOLO26 Detect-Modelle zur Objekterkennung gilt. Für weitere unterstützte Aufgaben siehe die Dokumentation zu Segment, Classify, OBB und Pose.

Beispiel

PyTorch vorab trainierte *.pt Modelle sowie Konfigurations- *.yaml Dateien können an die YOLO() Klasse, um eine Modellinstanz in Python zu erstellen:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO26n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

Es stehen CLI-Befehle zur Verfügung, um die Modelle direkt auszuführen:

# Load a COCO-pretrained YOLO26n model and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained YOLO26n model and run inference on the 'bus.jpg' image
yolo predict model=yolo26n.pt source=path/to/bus.jpg

Dual-Head-Architektur

YOLO26 verfügt über eine Dual-Head-Architektur, die Flexibilität für verschiedene Einsatzszenarien bietet:

  • Eins-zu-Eins-Kopf (Standard)Erzeugt End-to-End-Vorhersagen ohne NMS und gibt aus. (N, 300, 6) mit maximal 300 Erkennungen pro Bild. Dieser Kopf ist für schnelle Inferenz und vereinfachte Bereitstellung optimiert.
  • Eins-zu-Viele-Kopf: Erzeugt traditionelle YOLO , die NMS erfordern, und gibt aus (N, nc + 4, 8400) wobei nc ist die Anzahl der Klassen. Dieser Kopf erreicht in der Regel eine etwas höhere Genauigkeit, allerdings auf Kosten zusätzlicher Verarbeitung.

Sie können während des Exports, der Vorhersage oder der Validierung zwischen den Köpfen wechseln:

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Use one-to-one head (default, no NMS required)
results = model.predict("image.jpg")  # inference
metrics = model.val(data="coco.yaml")  # validation
model.export(format="onnx")  # export

# Use one-to-many head (requires NMS)
results = model.predict("image.jpg", end2end=False)  # inference
metrics = model.val(data="coco.yaml", end2end=False)  # validation
model.export(format="onnx", end2end=False)  # export
# Use one-to-one head (default, no NMS required)
yolo predict model=yolo26n.pt source=image.jpg
yolo val model=yolo26n.pt data=coco.yaml
yolo export model=yolo26n.pt format=onnx

# Use one-to-many head (requires NMS)
yolo predict model=yolo26n.pt source=image.jpg end2end=False
yolo val model=yolo26n.pt data=coco.yaml end2end=False
yolo export model=yolo26n.pt format=onnx end2end=False

Die Wahl hängt von Ihren Einsatzanforderungen ab: Verwenden Sie den Eins-zu-Eins-Kopf für maximale Geschwindigkeit und Einfachheit oder den Eins-zu-Viele-Kopf, wenn Genauigkeit oberste Priorität hat.

YOLOE-26: Open-Vocabulary Instanzsegmentierung

YOLOE-26 integriert die hochleistungsfähige YOLO26-Architektur mit den Open-Vocabulary-Funktionen der YOLOE-Serie. Es ermöglicht die Echtzeit-detect und segment jeder Objektklasse mittels Text-Prompts, visuellen Prompts oder eines Prompt-freien Modus für die Zero-Shot-Inferenz, wodurch die Einschränkungen des Trainings mit festen Kategorien effektiv aufgehoben werden.

Durch die Nutzung des NMS-freien, End-to-End-Designs von YOLO26 liefert YOLOE-26 eine schnelle Open-World-Inferenz. Dies macht es zu einer leistungsstarken Lösung für Edge-Anwendungen in dynamischen Umgebungen, in denen die interessierenden Objekte ein breites und sich entwickelndes Vokabular darstellen.

Performance

Siehe YOLOE Docs für Anwendungsbeispiele mit diesen Modellen, die auf den Datensätzen Objects365v1, GQA und Flickr30k trainiert wurden.

ModellGröße
(Pixel)
Prompt-TypmAPminival
50-95(e2e)
mAPminival
50-95
mAPrmAPcmAPfParameter
(M)
FLOPs
(B)
YOLOE-26n-seg640Text/Visuell23.7 / 20.924.7 / 21.920.5 / 17.624.1 / 22.326.1 / 22.44.86.0
YOLOE-26s-seg640Text/Visuell29.9 / 27.130.8 / 28.623.9 / 25.129.6 / 27.833.0 / 29.913.121.7
YOLOE-26m-seg640Text/Visuell35.4 / 31.335.4 / 33.931.1 / 33.434.7 / 34.036.9 / 33.827.970.1
YOLOE-26l-seg640Text/Visuell36.8 / 33.737.8 / 36.335.1 / 37.637.6 / 36.238.5 / 36.132.388.3
YOLOE-26x-seg640Text/Visuell39.5 / 36.240.6 / 38.537.4 / 35.340.9 / 38.841.0 / 38.869.9196.7

Siehe YOLOE Docs für Anwendungsbeispiele mit diesen Modellen, die auf den Datensätzen Objects365v1, GQA und Flickr30k trainiert wurden.

ModellGröße
(Pixel)
mAPminival
50-95(e2e)
mAPminival
50(e2e)
Parameter
(M)
FLOPs
(B)
YOLOE-26n-seg-pf64016.622.76.515.8
YOLOE-26s-seg-pf64021.428.616.235.5
YOLOE-26m-seg-pf64025.733.636.2122.1
YOLOE-26l-seg-pf64027.235.440.6140.4
YOLOE-26x-seg-pf64029.938.786.3314.4

Anwendungsbeispiel

YOLOE-26 unterstützt sowohl textbasierte als auch visuelle Prompts. Die Verwendung von Prompts ist unkompliziert – übergeben Sie diese einfach über den predict Methode, wie unten gezeigt, verwenden:

Beispiel

Text-Prompts ermöglichen es Ihnen, die Klassen, die Sie detect möchten, durch textuelle Beschreibungen zu spezifizieren. Der folgende Code zeigt, wie Sie YOLOE-26 verwenden können, um Personen und Busse in einem Bild zu detect:

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg.pt")  # or select yoloe-26s/m-seg.pt for different sizes

# Set text prompt to detect person and bus. You only need to do this once after you load the model.
names = ["person", "bus"]
model.set_classes(names, model.get_text_pe(names))

# Run detection on the given image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Visuelle Prompts ermöglichen es Ihnen, das Modell zu steuern, indem Sie ihm visuelle Beispiele der Zielklassen zeigen, anstatt sie im Text zu beschreiben.

import numpy as np

from ultralytics import YOLO
from ultralytics.models.yolo.yoloe import YOLOEVPSegPredictor

# Initialize model
model = YOLO("yoloe-26l-seg.pt")

# Define visual prompts using bounding boxes and their corresponding class IDs.
# Each box highlights an example of the object you want the model to detect.
visual_prompts = dict(
    bboxes=np.array(
        [
            [221.52, 405.8, 344.98, 857.54],  # Box enclosing person
            [120, 425, 160, 445],  # Box enclosing glasses
        ],
    ),
    cls=np.array(
        [
            0,  # ID to be assigned for person
            1,  # ID to be assigned for glasses
        ]
    ),
)

# Run inference on an image, using the provided visual prompts as guidance
results = model.predict(
    "ultralytics/assets/bus.jpg",
    visual_prompts=visual_prompts,
    predictor=YOLOEVPSegPredictor,
)

# Show results
results[0].show()

YOLOE-26 umfasst prompt-freie Varianten, die mit einem integrierten Vokabular ausgestattet sind. Diese Modelle benötigen keine Prompts und funktionieren wie traditionelle YOLO-Modelle. Anstatt sich auf benutzerdefinierte Labels oder visuelle Beispiele zu verlassen, detect sie Objekte aus einer vordefinierten Liste von 4.585 Klassen, basierend auf dem Tag-Set, das vom Recognize Anything Model Plus (RAM++) verwendet wird.

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg-pf.pt")

# Run prediction. No prompts required.
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Für einen tieferen Einblick in Prompting-Techniken, Training von Grund auf und vollständige Anwendungsbeispiele besuchen Sie die YOLOE-Dokumentation.

Zitate und Danksagungen

Ultralytics YOLO26 Veröffentlichung

Ultralytics hat keine formelle Forschungsarbeit für YOLO26 veröffentlicht, da sich die Modelle schnell weiterentwickeln. Stattdessen konzentrieren wir uns darauf, hochmoderne Modelle bereitzustellen und sie einfach zu bedienen. Die neuesten Updates zu YOLO-Funktionen, Architekturen und zur Verwendung finden Sie in unserem GitHub-Repository und in unserer Dokumentation.

Wenn Sie YOLO26 oder andere Ultralytics Software in Ihrer Arbeit verwenden, zitieren Sie diese bitte wie folgt:

@software{yolo26_ultralytics,
  author = {Glenn Jocher and Jing Qiu},
  title = {Ultralytics YOLO26},
  version = {26.0.0},
  year = {2026},
  url = {https://github.com/ultralytics/ultralytics},
  orcid = {0000-0001-5950-6979, 0000-0003-3783-7069},
  license = {AGPL-3.0}
}

DOI ausstehend. YOLO26 ist unter AGPL-3.0- und Enterprise-Lizenzen verfügbar.


FAQ

Was sind die wichtigsten Verbesserungen in YOLO26 im Vergleich zu YOLO11?

  • DFL-Entfernung: Vereinfacht den Export und erweitert die Edge-Kompatibilität
  • End-to-End NMS-freie Inferenz: Eliminiert NMS für eine schnellere, einfachere Bereitstellung
  • ProgLoss + STAL: Erhöht die Genauigkeit, insbesondere bei kleinen Objekten
  • MuSGD-Optimizer: Kombiniert SGD und Muon (inspiriert von Moonshots Kimi K2) für stabileres, effizienteres Training.
  • Bis zu 43 % schnellere CPU-Inferenz: Deutliche Leistungssteigerung für reine CPU-Geräte

Welche Aufgaben unterstützt YOLO26?

YOLO26 ist eine vereinheitlichte Modellfamilie, die eine End-to-End-Unterstützung für mehrere Computer-Vision-Aufgaben bietet:

Jede Größenvariante (n, s, m, l, x) unterstützt alle Aufgaben sowie Open-Vocabulary-Versionen über YOLOE-26.

Warum ist YOLO26 für den Edge-Einsatz optimiert?

YOLO26 bietet modernste Edge-Performance mit:

  • Bis zu 43 % schnellere CPU-Inferenz
  • Reduzierte Modellgröße und Speicherbedarf
  • Architektur für Kompatibilität vereinfacht (ohne DFL, ohne NMS)
  • Flexible Exportformate, darunter TensorRT, ONNX, CoreML, TFLite und OpenVINO

Wie fange ich mit YOLO26 an?

YOLO26-Modelle wurden am 14. Januar 2026 veröffentlicht und stehen zum Download bereit. Installieren oder aktualisieren Sie das ultralytics Paket und laden Sie ein Modell:

from ultralytics import YOLO

# Load a pretrained YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("image.jpg")

Anweisungen zum Training, zur Validierung und zum Export finden Sie im Abschnitt Anwendungsbeispiele.



📅 Erstellt vor 3 Monaten ✏️ Aktualisiert vor 0 Tagen
glenn-jocherY-T-GLaughing-qraimbekovmfcakyonlmycrosspderrenger

Kommentare