Ricetta di addestramento YOLO26

Introduzione

Questa guida documenta l'esatta ricetta di addestramento utilizzata per produrre i checkpoint ufficiali preaddestrati YOLO26 su COCO. Ogni iperparametro qui mostrato è già incorporato nei pesi .pt rilasciati e può essere esaminato programmaticamente.

Comprendere come sono stati addestrati i modelli base ti aiuta a prendere decisioni migliori durante il fine-tuning: quali aumentazioni dei dati mantenere, quali pesi della funzione di perdita regolare e quali impostazioni dell'ottimizzatore funzionano meglio per la dimensione del tuo dataset.

A chi è rivolta questa guida?

Questa guida è rivolta ai professionisti che desiderano comprendere cosa è stato incluso nei checkpoint ufficiali YOLO26: non solo l'architettura, ma anche gli schemi del learning rate, le pipeline di aumentazione e i pesi della perdita che ne hanno determinato le prestazioni. Usa queste informazioni per fare scelte informate durante il fine-tuning sui tuoi dati.

Ispezione degli argomenti di addestramento

Ogni checkpoint Ultralytics memorizza la configurazione di addestramento completa utilizzata per produrlo. Puoi esaminare queste impostazioni in qualsiasi momento:

Ispeziona gli argomenti di addestramento del checkpoint

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
print(model.ckpt["train_args"])

Questo funziona per qualsiasi checkpoint .pt, sia per i rilasci ufficiali che per i tuoi modelli sottoposti a fine-tuning. Per l'elenco completo degli argomenti di addestramento configurabili, consulta il riferimento alla configurazione di addestramento.

Panoramica sull'addestramento

Tutti i modelli base YOLO26 sono stati addestrati su COCO a una risoluzione di 640x640 utilizzando l'ottimizzatore MuSGD con batch size 128. I modelli sono stati inizializzati da pesi preaddestrati intermedi e perfezionati con iperparametri trovati tramite ricerca evolutiva. I log di addestramento completi e le metriche per ogni dimensione del modello sono disponibili su Ultralytics Platform:

Scelte progettuali chiave per tutte le dimensioni:

Addestramento end-to-end (end2end=True) con head one-to-one senza NMS
Ottimizzatore MuSGD che combina SGD con aggiornamenti ortogonalizzati in stile Muon per i pesi di convoluzione
Aumentazione mosaic pesante (probabilità ~0.9-1.0) disabilitata negli ultimi 10 epoche (close_mosaic=10)
Aumentazione di scala aggressiva (0.56-0.95) per gestire oggetti di dimensioni diverse
Rotazione/taglio minimi per la maggior parte delle dimensioni, mantenendo bassa la distorsione geometrica

Iperparametri per dimensione del modello

Ottimizzatore e Learning Rate

Impostazione	N	S	M	L	X
`optimizer`	MuSGD	MuSGD	MuSGD	MuSGD	MuSGD
`lr0`	0.0054	0.00038	0.00038	0.00038	0.00038
`lrf`	0.0495	0.882	0.882	0.882	0.882
`momentum`	0.947	0.948	0.948	0.948	0.948
`weight_decay`	0.00064	0.00027	0.00027	0.00027	0.00027
`warmup_epochs`	0.98	0.99	0.99	0.99	0.99
`epochs`	245	70	80	60	40
`batch`	128	128	128	128	128
`imgsz`	640	640	640	640	640

Strategia del learning rate

Il modello N ha utilizzato un learning rate iniziale più elevato con decadimento ripido (lrf=0.0495), mentre i modelli S/M/L/X hanno utilizzato un LR iniziale molto più basso con uno schema più graduale (lrf=0.882). Ciò riflette le diverse dinamiche di convergenza dei modelli più piccoli rispetto a quelli più grandi: i modelli più piccoli necessitano di aggiornamenti più aggressivi per apprendere in modo efficace.

Pesi della perdita

Impostazione	N	S	M	L	X
`box`	5.63	9.83	9.83	9.83	9.83
`cls`	0.56	0.65	0.65	0.65	0.65
`dfl`	9.04	0.96	0.96	0.96	0.96

Il modello N dà priorità alla perdita DFL, mentre i modelli S/M/L/X spostano l'enfasi sulla regressione del bounding box. La perdita di classificazione rimane relativamente coerente in tutte le dimensioni.

Pipeline di aumentazione

Per una spiegazione dettagliata di ciascuna tecnica, consulta la guida all'aumentazione dei dati YOLO.

Impostazione	N	S	M	L	X
`mosaic`	0.909	0.992	0.992	0.992	0.992
`mixup`	0.012	0.05	0.427	0.427	0.427
`copy_paste`	0.075	0.404	0.304	0.404	0.404
`scale`	0.562	0.9	0.95	0.95	0.95
`fliplr`	0.606	0.304	0.304	0.304	0.304
`degrees`	1.11	~0	~0	~0	~0
`shear`	1.46	~0	~0	~0	~0
`translate`	0.071	0.275	0.275	0.275	0.275
`hsv_h`	0.014	0.013	0.013	0.013	0.013
`hsv_s`	0.645	0.353	0.353	0.353	0.353
`hsv_v`	0.566	0.194	0.194	0.194	0.194
`bgr`	0.106	0.0	0.0	0.0	0.0

I modelli più grandi utilizzano un'aumentazione complessivamente più aggressiva (maggiori mixup, copy-paste e scale), poiché hanno maggiore capacità e beneficiano di una regolarizzazione più forte. Il modello N è l'unica dimensione con un'aumentazione significativa di rotazione, taglio e BGR.

Parametri di addestramento interni

Avanzato: parametri interni della pipeline

I checkpoint contengono anche parametri utilizzati nella pipeline di addestramento interna ma che non sono esposti come impostazioni configurabili dall'utente in default.yaml:

Impostazione	Descrizione	N	S	M	L	X
`muon_w`	Peso dell'aggiornamento Muon in MuSGD	0.528	0.436	0.436	0.436	0.436
`sgd_w`	Peso dell'aggiornamento SGD in MuSGD	0.674	0.479	0.479	0.479	0.479
`cls_w`	Peso della classificazione interna	2.74	3.48	3.48	3.48	3.48
`o2m`	Peso della loss dell'head one-to-many	1.0	0.705	0.705	0.705	0.705
`topk`	Assegnazione label top-k	8	5	5	5	5

Questi sono registrati per la riproducibilità, ma non devono essere impostati durante il fine-tuning. Consulta le FAQ per maggiori dettagli.

Guida al fine-tuning

Quando effettui il fine-tuning di YOLO26 sul tuo dataset, non hai bisogno di replicare l'intera ricetta di pretraining. I pesi preaddestrati codificano già la conoscenza sull'aumento e sull'ottimizzazione derivata dal training su COCO. Per le migliori pratiche generali di training, consulta Suggerimenti per il training del modello.

Inizia in modo semplice

Fine-tuning con le impostazioni predefinite

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
results = model.train(data="your-dataset.yaml", epochs=100, imgsz=640)

Il fine-tuning con le impostazioni predefinite rappresenta una solida base di partenza. Regola gli iperparametri solo se hai un motivo specifico per farlo.

Quando apportare modifiche

Dataset piccoli (< 1.000 immagini):

Riduci l'intensità dell'aumento: mosaic=0.5, mixup=0.0, copy_paste=0.0
Abbassa il learning rate: lr0=0.001
Usa meno epoch con patience: epochs=50, patience=20
Prendi in considerazione il congelamento degli strati del backbone: freeze=10

Dataset grandi (> 50.000 immagini):

Segui più fedelmente la ricetta di pretraining
Valuta optimizer=MuSGD per esecuzioni più lunghe
Aumenta l'augmentation: mosaic=1.0, mixup=0.3, scale=0.9

Immagini specifiche di dominio (aeree, mediche, subacquee):

Aumenta flipud=0.5 se l'orientamento verticale varia
Aumenta degrees se gli oggetti appaiono con rotazioni arbitrarie
Regola hsv_s e hsv_v se le condizioni di illuminazione differiscono significativamente da COCO

Per l'ottimizzazione automatizzata degli iperparametri, vedi la guida al Tuning degli Iperparametri.

Scelta della dimensione del modello

Modello	Ideale per	Guida alla dimensione del batch
YOLO26n	Dispositivi edge, mobile, tempo reale su CPU	Batch grandi (64-128) su GPU consumer
YOLO26s	Equilibrio tra velocità e precisione	Batch medi (32-64)
YOLO26m	Precisione superiore con calcolo moderato	Batch più piccoli (16-32)
YOLO26l	Alta precisione quando è disponibile una GPU	Batch piccoli (8-16) o multi-GPU
YOLO26x	Massima precisione, distribuzione server	Batch piccoli (4-8) o multi-GPU

Per le opzioni di export e distribuzione, vedi la guida all'Export e le Opzioni di Distribuzione del Modello.

FAQ

Come vedo gli iperparametri esatti utilizzati per qualsiasi checkpoint?

Carica il checkpoint con torch.load() e accedi alla chiave train_args, oppure usa model.ckpt["train_args"] con l'API Ultralytics. Vedi Ispezione degli argomenti di Training per esempi completi.

Perché i conteggi delle epoch sono diversi per ogni dimensione del modello?

I modelli più grandi convergono più velocemente su COCO perché hanno maggiore capacità. Il modello N ha richiesto 245 epoch, mentre il modello X ne ha richieste solo 40. Durante il fine-tuning sul tuo dataset, il numero ottimale di epoch dipende dalla dimensione e dalla complessità del tuo dataset, non dalla dimensione del modello. Usa l'arresto anticipato (patience) per trovare automaticamente il punto di arresto corretto.

Dovrei usare MuSGD per il fine-tuning?

Quando optimizer=auto (l'impostazione predefinita), Ultralytics seleziona automaticamente MuSGD per training run più lunghe (>10.000 iterazioni) e AdamW per quelle più brevi. Puoi impostare esplicitamente optimizer=MuSGD se preferisci. Per ulteriori informazioni sulla selezione dell'ottimizzatore, consulta la documentazione sul training.

Cosa sono `muon_w`, `sgd_w`, `cls_w`, `o2m` e `topk` nel checkpoint?

Si tratta di parametri interni della pipeline di training che ha prodotto i checkpoint di base. Sono archiviati per la riproducibilità ma non sono impostazioni configurabili dall'utente in default.yaml. Non è necessario impostarli durante il fine-tuning. Vedi Parametri di Training Interni per i dettagli.

Posso replicare l'esatto pretraining da zero?

I checkpoint sono stati prodotti utilizzando un branch di training interno con funzionalità aggiuntive non presenti nel codebase pubblico (come i pesi configurabili o2m e cls_w). Puoi ottenere risultati molto simili utilizzando gli iperparametri documentati in questa pagina con il pacchetto pubblico Ultralytics, ma una riproduzione esatta richiede il branch interno.

Contributors

Y-Y-T-G¹ RAraimbekovm¹

Created 2 mesi faUpdated mese scorso