Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 Trainingsrezept#

Link to this sectionEinführung#

Dieser Leitfaden dokumentiert das exakte Training-Rezept, das zur Erstellung der offiziellen YOLO26-vortrainierten Checkpoints auf COCO verwendet wurde. Jeder hier aufgeführte Hyperparameter ist bereits in den veröffentlichten .pt-Gewichten eingebettet und kann programmatisch überprüft werden.

Zu verstehen, wie die Basismodelle trainiert wurden, hilft dir dabei, bessere Entscheidungen beim Fine-Tuning zu treffen: welche Datenaugmentation du beibehalten solltest, welche Gewichte der Verlustfunktion anzupassen sind und welche Optimizer-Einstellungen für deine Datensatzgröße am besten funktionieren.

Für wen ist dieser Leitfaden?

Dieser Leitfaden richtet sich an Anwender, die verstehen wollen, was in die offiziellen YOLO26-Checkpoints eingeflossen ist – nicht nur die Architektur, sondern auch die Lernraten-Zeitpläne, Augmentations-Pipelines und Verlustgewichte, die ihre Leistung bestimmt haben. Nutze diese Informationen, um fundierte Entscheidungen beim Fine-Tuning mit deinen eigenen Daten zu treffen.

Link to this sectionTrainingsargumente untersuchen#

Jeder Ultralytics-Checkpoint speichert die vollständige Trainingskonfiguration, die zu seiner Erstellung verwendet wurde. Du kannst diese Einstellungen jederzeit überprüfen:

Trainingsargumente des Checkpoints untersuchen
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
print(model.ckpt["train_args"])

Dies funktioniert für jeden .pt-Checkpoint – sowohl für offizielle Releases als auch für deine eigenen feinabgestimmten Modelle. Eine vollständige Liste der konfigurierbaren Trainingsargumente findest du in der Referenz zur Trainingskonfiguration.

Link to this sectionTrainingsübersicht#

Alle YOLO26-Basismodelle wurden auf COCO mit einer Auflösung von 640x640 unter Verwendung des MuSGD-Optimizers mit einer Batch Size von 128 trainiert. Die Modelle wurden von zwischenzeitlichen vortrainierten Gewichten initialisiert und mit Hyperparametern verfeinert, die mittels evolutionärer Suche gefunden wurden. Vollständige Trainingsprotokolle und Metriken für jede Modellgröße sind auf der Ultralytics Platform verfügbar:

Wichtige Designentscheidungen für alle Größen:

  • End-to-End-Training (end2end=True) mit NMS-freiem One-to-One-Head
  • MuSGD-Optimizer, der SGD mit Muon-artigen orthogonalisierten Updates für Conv-Gewichte kombiniert
  • Starke Mosaic-Augmentation (~0,9-1,0 Wahrscheinlichkeit), die in den letzten 10 Epochen deaktiviert wird (close_mosaic=10)
  • Aggressive Skalierungs-Augmentation (0,56-0,95), um Objekte unterschiedlicher Größe zu handhaben
  • Minimale Rotation/Scherung für die meisten Größen, um geometrische Verzerrungen gering zu halten

Link to this sectionHyperparameter pro Modellgröße#

Link to this sectionOptimizer und Lernrate#

EinstellungNSMLX
optimizerMuSGDMuSGDMuSGDMuSGDMuSGD
lr00,00540,000380,000380,000380,00038
lrf0,04950,8820,8820,8820,882
momentum0,9470,9480,9480,9480,948
weight_decay0,000640,000270,000270,000270,00027
warmup_epochs0,980.990.990.990.99
epochs24570806040
batch128128128128128
imgsz640640640640640
Lernratenstrategie

The N model used a higher initial learning rate with steep decay (lrf=0.0495), while S/M/L/X models used a much lower initial LR with a gentler schedule (lrf=0.882). This reflects the different convergence dynamics of smaller vs larger models — smaller models need more aggressive updates to learn effectively.

Link to this sectionVerlustgewichte#

EinstellungNSMLX
box5.639,839,839,839,83
cls0,560,650,650,650,65
dfl9.040,960,960,960,96

Das N-Modell priorisiert den DFL-Verlust, während S/M/L/X-Modelle den Schwerpunkt auf die Bounding Box-Regression verlagern. Der Klassifizierungsverlust bleibt über alle Größen hinweg relativ konsistent.

Link to this sectionAugmentations-Pipeline#

Eine detaillierte Erklärung jeder Technik findest du im YOLO Data Augmentation-Leitfaden.

EinstellungNSMLX
mosaic0,9090,9920,9920,9920,992
mixup0,0120,050,4270,4270,427
copy_paste0,0750,4040,3040,4040,404
scale0,5620,90,950,950,95
fliplr0,6060,3040,3040,3040,304
degrees1,11~0~0~0~0
shear1,46~0~0~0~0
translate0,0710,2750,2750,2750,275
hsv_h0,0140,0130,0130,0130,013
hsv_s0,6450,3530,3530,3530,353
hsv_v0,5660,1940,1940,1940,194
bgr0,1060,00,00,00,0

Größere Modelle verwenden insgesamt aggressivere Augmentation (höherer Mixup, Copy-Paste und Skalierung), da sie über mehr Kapazität verfügen und von einer stärkeren Regularisierung profitieren. Das N-Modell ist die einzige Größe mit nennenswerter Rotation, Scherung und BGR-Augmentation.

Link to this sectionInterne Trainingsparameter#

Fortgeschritten: interne Pipeline-Parameter

Die Checkpoints enthalten auch Parameter, die in der internen Trainingspipeline verwendet wurden, aber nicht als benutzerkonfigurierbare Einstellungen in default.yaml offengelegt sind:

EinstellungBeschreibungNSMLX
muon_wMuon-Update-Gewicht in MuSGD0,5280,4360,4360,4360,436
sgd_wSGD-Update-Gewicht in MuSGD0,6740,4790,4790,4790,479
cls_wInternes Klassifizierungsgewicht2,743,483,483,483,48
o2mGewicht für den One-to-many Head-Loss1,00,7050,7050,7050,705
topkTop-k Label-Zuweisung85555

Diese werden zur Reproduzierbarkeit aufgezeichnet, müssen jedoch beim Fine-Tuning nicht eingestellt werden. Weitere Details findest du im FAQ.

Link to this sectionAnleitung zum Fine-Tuning#

Wenn du YOLO26 auf deinem eigenen Datensatz fine-tunest, musst du nicht das vollständige Pretraining-Rezept replizieren. Die vortrainierten Gewichte enthalten bereits das Wissen über Augmentierung und Optimierung aus dem COCO-Training. Allgemeine Best Practices für das Training findest du unter Tipps für das Modelltraining.

Link to this sectionEinfach starten#

Fine-Tuning mit Standardeinstellungen
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
results = model.train(data="your-dataset.yaml", epochs=100, imgsz=640)

Das Fine-Tuning mit Standardwerten ist eine solide Basis. Ändere Hyperparameter nur, wenn du einen spezifischen Grund dafür hast.

Link to this sectionWann Anpassungen vornehmen#

Kleine Datensätze (< 1.000 Bilder):

  • Augmentierungsstärke reduzieren: mosaic=0.5, mixup=0.0, copy_paste=0.0
  • Lernrate senken: lr0=0.001
  • Weniger Epochen mit Patience verwenden: epochs=50, patience=20
  • In Betracht ziehen, Backbone-Layer einzufrieren: freeze=10

Große Datensätze (> 50.000 Bilder):

  • Das Pretraining-Rezept genauer einhalten
  • Für längere Läufe optimizer=MuSGD in Betracht ziehen
  • Augmentierung erhöhen: mosaic=1.0, mixup=0.3, scale=0.9

Domänenspezifische Bilder (Luftaufnahmen, medizinische Bilder, Unterwasseraufnahmen):

  • flipud=0.5 erhöhen, wenn die vertikale Ausrichtung variiert
  • degrees erhöhen, wenn Objekte in beliebigen Rotationen erscheinen
  • hsv_s und hsv_v anpassen, wenn sich die Lichtverhältnisse deutlich von COCO unterscheiden

Für eine automatisierte Hyperparameter-Optimierung siehe den Hyperparameter-Tuning-Guide.

Link to this sectionAuswahl der Modellgröße#

ModellAm besten geeignet fürAnleitung zur Batch-Größe
YOLO26nEdge-Geräte, Mobilgeräte, Echtzeit auf CPUGroße Batches (64-128) auf Consumer-GPUs
YOLO26sAusgewogene Geschwindigkeit und GenauigkeitMittlere Batches (32-64)
YOLO26mHöhere Genauigkeit bei moderater RechenleistungKleinere Batches (16-32)
YOLO26lHohe Genauigkeit bei verfügbarer GPUKleine Batches (8-16) oder Multi-GPU
YOLO26xMaximale Genauigkeit, Server-DeploymentKleine Batches (4-8) oder Multi-GPU

Für Optionen zum Export und Deployment siehe den Export-Guide und die Optionen für das Modell-Deployment.

Link to this sectionFAQ#

Link to this sectionWie sehe ich die genauen Hyperparameter, die für einen Checkpoint verwendet wurden?#

Lade den Checkpoint mit torch.load() und greife auf den train_args Key zu, oder verwende model.ckpt["train_args"] mit der Ultralytics API. Siehe Inspecting Training Args für vollständige Beispiele.

Link to this sectionWarum sind die Epochen-Anzahlen für jede Modellgröße unterschiedlich?#

Größere Modelle konvergieren auf COCO schneller, da sie eine höhere Kapazität haben. Das N-Modell benötigte 245 Epochen, während das X-Modell nur 40 benötigte. Beim Fine-Tuning auf deinem eigenen Datensatz hängt die optimale Anzahl der Epochen von der Größe und Komplexität deines Datensatzes ab, nicht von der Modellgröße. Nutze Early Stopping (patience), um den richtigen Endpunkt automatisch zu finden.

Link to this sectionSollte ich MuSGD für das Fine-Tuning verwenden?#

Wenn optimizer=auto (Standard) gewählt ist, wählt Ultralytics automatisch MuSGD für längere Trainingsläufe (>10.000 Iterationen) und AdamW für kürzere. Du kannst optimizer=MuSGD explizit setzen, wenn du das bevorzugst. Mehr zur Auswahl des Optimierers findest du in der Trainingsdokumentation.

Link to this sectionWas sind muon_w, sgd_w, cls_w, o2m und topk im Checkpoint?#

Dies sind interne Parameter aus der Trainings-Pipeline, mit der die Basis-Checkpoints erstellt wurden. Sie werden zur Reproduzierbarkeit gespeichert, sind aber keine benutzerkonfigurierbaren Einstellungen in default.yaml. Du musst sie beim Fine-Tuning nicht festlegen. Details findest du unter Interne Trainingsparameter.

Link to this sectionKann ich das Pretraining exakt von Grund auf replizieren?#

Die Checkpoints wurden mit einem internen Trainings-Zweig erstellt, der zusätzliche Funktionen enthält, die nicht im öffentlichen Codebase verfügbar sind (wie konfigurierbare o2m-Gewichte und cls_w). Du kannst mit den auf dieser Seite dokumentierten Hyperparametern und dem öffentlichen Ultralytics-Paket sehr nahe Ergebnisse erzielen, aber eine exakte Reproduktion erfordert den internen Zweig.

Kommentare