Meet YOLO26: next-gen vision AI.

Link to this sectionReceita de Treinamento YOLO26#

Link to this sectionIntrodução#

Este guia documenta a receita exata de treinamento utilizada para produzir os checkpoints pré-treinados oficiais do YOLO26 no COCO. Cada hiperparâmetro mostrado aqui já está incorporado nos pesos .pt lançados e pode ser inspecionado programaticamente.

Saber o que compôs os checkpoints oficiais — não apenas a arquitetura, mas os cronogramas de taxa de aprendizado, pipelines de aumento e pesos de perda que moldaram seu desempenho — ajuda você a tomar melhores decisões ao realizar o fine-tuning: quais aumentos de dados manter, quais pesos de função de perda ajustar e quais configurações de otimizador funcionam melhor para o tamanho do seu conjunto de dados.

Link to this sectionVisão Geral do Treinamento#

Todos os modelos base YOLO26 foram treinados no COCO com resolução de 640x640 usando o otimizador MuSGD com tamanho de lote 128. Em vez de começar com pesos aleatórios em uma única execução, os modelos foram inicializados a partir de pesos pré-treinados intermediários e refinados com hiperparâmetros encontrados via busca evolutiva. Os logs de treinamento completos e métricas para cada tamanho de modelo estão disponíveis na Plataforma Ultralytics:

Principais escolhas de design em todos os tamanhos:

  • Treinamento de ponta a ponta (end2end=True) com cabeça um-para-um sem NMS
  • Otimizador MuSGD combinando SGD com atualizações ortogonalizadas estilo Muon para matrizes de pesos (parâmetros com ndim >= 2, como pesos de conv e linear)
  • Aumento de mosaico intenso (probabilidade ~0.9-1.0) desativado nas últimas 10 épocas (close_mosaic=10)
  • Aumento de escala agressivo (0.56-0.95) para lidar com objetos em diferentes tamanhos
  • Rotação/cisalhamento mínimo para a maioria dos tamanhos, mantendo a distorção geométrica baixa

Link to this sectionInspecionando Argumentos de Treinamento do Checkpoint YOLO26#

Todo checkpoint Ultralytics armazena a configuração de treinamento completa usada para produzi-lo, então você pode verificar cada número nesta página por si mesmo:

Inspecione os argumentos de treinamento do checkpoint
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
print(model.ckpt["train_args"])

A saída lista a configuração completa de mais de 100 entradas, incluindo cada valor de receita documentado nesta página. Um trecho para yolo26n.pt:

batch: 128
...
box: 5.62767
...
close_mosaic: 10
cls: 0.56099
...
dfl: 9.03871
...
epochs: 245
...
lr0: 0.0054
lrf: 0.04952
...
optimizer: MuSGD

Isso funciona para qualquer checkpoint .pt — lançamentos oficiais e seus próprios modelos ajustados. Para a lista completa de argumentos de treinamento configuráveis, consulte a referência de configuração de treinamento.

Link to this sectionHiperparâmetros de Treinamento do YOLO26 por Tamanho de Modelo#

As tabelas abaixo agrupam a receita por categoria — otimizador e cronograma, pesos de perda e aumento. Cada valor vem diretamente dos train_args incorporados nos checkpoints lançados.

Link to this sectionOtimizador e Taxa de Aprendizado#

Estas configurações de otimizador e cronograma impulsionaram o pré-treinamento COCO para cada tamanho; note como o modelo N se destaca dos demais:

ConfiguraçãoNSMLX
optimizerMuSGDMuSGDMuSGDMuSGDMuSGD
lr00.00540.000380.000380.000380.00038
lrf0.04950.8820.8820.8820.882
momentum0.9470.9480.9480.9480.948
weight_decay0.000640.000270.000270.000270.00027
warmup_epochs0.980.990.990.990.99
epochs24570806040
batch128128128128128
imgsz640640640640640
Estratégia de taxa de aprendizado

O modelo N usou uma taxa de aprendizado inicial mais alta com decaimento acentuado (lrf=0.0495), enquanto os modelos S/M/L/X usaram uma LR inicial muito mais baixa com um cronograma mais suave (lrf=0.882). Isso reflete as diferentes dinâmicas de convergência de modelos menores versus maiores — modelos menores precisam de atualizações mais agressivas para aprender efetivamente.

Link to this sectionPesos de Perda#

Os pesos de perda equilibram os três componentes da perda de detecção — regressão IoU da caixa delimitadora (box), classificação (cls) e um termo de regressão de distância da caixa (dfl). Note que o YOLO26 livre de DFL reaproveita o ganho dfl para ponderar uma perda L1 em distâncias de caixa normalizadas em vez de perda focal de distribuição:

ConfiguraçãoNSMLX
box5.639.839.839.839.83
cls0.560.650.650.650.65
dfl9.040.960.960.960.96

O modelo N prioriza o termo de regressão de distância dfl, enquanto os modelos S/M/L/X mudam a ênfase para a regressão de caixa baseada em IoU. A perda de classificação permanece relativamente consistente em todos os tamanhos.

Link to this sectionPipeline de Aumento#

Para uma explicação detalhada de cada técnica, consulte o guia de Aumento de Dados YOLO.

ConfiguraçãoNSMLX
mosaic0.9090.9920.9920.9920.992
mixup0.0120.050.4270.4270.427
copy_paste0.0750.4040.3040.4040.404
scale0.5620.90.950.950.95
fliplr0.6060.3040.3040.3040.304
degrees1.11~0~0~0~0
shear1.46~0~0~0~0
translate0.0710.2750.2750.2750.275
hsv_h0.0140.0130.0130.0130.013
hsv_s0.6450.3530.3530.3530.353
hsv_v0.5660.1940.1940.1940.194
bgr0.1060.00.00.00.0

Valores mostrados como ~0 estão abaixo de 0.01 nos checkpoints reais (por exemplo, degrees=0.00012 para o modelo S) — o aumento está efetivamente desativado.

Modelos maiores usam um aumento mais agressivo no geral (mixup, copy-paste e escala maiores), já que possuem maior capacidade e se beneficiam de uma regularização mais forte. O modelo N é o único tamanho com aumento significativo de rotação, cisalhamento e BGR.

Link to this sectionParâmetros de Treinamento Internos#

Avançado: parâmetros internos de pipeline

Os checkpoints também contêm parâmetros que foram usados no pipeline de treinamento interno, mas não estão expostos como configurações configuráveis pelo usuário em default.yaml:

ConfiguraçãoDescriçãoNSMLX
muon_wPeso de atualização Muon no MuSGD0.5280.4360.4360.4360.436
sgd_wPeso de atualização SGD no MuSGD0.6740,4790,4790,4790,479
cls_wPeso de classificação interno2,743,483,483,483,48
o2mPeso da perda da head one-to-many1.00,7050,7050,7050,705
topkAtribuição de labels top-k85555

Veja a entrada do FAQ sobre esses parâmetros para saber o que significam ao fazer fine-tuning.

Link to this sectionFine-Tuning do YOLO26 no Seu Próprio Dataset#

Ao fazer fine-tuning do YOLO26 no seu próprio dataset, você não precisa replicar a receita de pré-treino completa. Os pesos pré-treinados já codificam o conhecimento de aumento e otimização do treino no COCO. Para práticas recomendadas de treinamento mais gerais, veja Dicas para Treinamento de Modelos.

Link to this sectionFine-Tune com Configurações Padrão#

Fine-tune com padrões
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
results = model.train(data="your-dataset.yaml", epochs=100, imgsz=640)

O fine-tuning com padrões é uma base sólida. Ajuste hiperparâmetros apenas se tiver um motivo específico para isso.

Link to this sectionQuando Ajustar os Hiperparâmetros do YOLO26#

Datasets pequenos (< 1.000 imagens):

  • Reduza a força do aumento: mosaic=0.5, mixup=0.0, copy_paste=0.0
  • Diminua a taxa de aprendizado: lr0=0.001
  • Use menos épocas com patience: epochs=50, patience=20
  • Considere congelar camadas do backbone: freeze=10

Datasets grandes (> 50.000 imagens):

  • Siga mais de perto a receita de pré-treino
  • Considere optimizer=MuSGD para execuções mais longas
  • Aumente o aumento: mosaic=1.0, mixup=0.3, scale=0.9

Imagens específicas de domínio (aéreas, médicas, subaquáticas):

  • Aumente flipud=0.5 se a orientação vertical variar
  • Aumente degrees se os objetos aparecerem em rotações arbitrárias
  • Ajuste hsv_s e hsv_v se as condições de iluminação diferirem significativamente das do COCO

Para otimização automatizada de hiperparâmetros, veja o guia de Ajuste de Hiperparâmetros.

Link to this sectionEscolha um Tamanho de Modelo#

ModeloMelhor paraOrientação sobre Batch Size
YOLO26nDispositivos de borda, mobile, tempo real em CPUBatches grandes (64-128) em GPUs de consumo
YOLO26sVelocidade e precisão equilibradasBatches médios (32-64)
YOLO26mMaior precisão com processamento moderadoBatches menores (16-32)
YOLO26lAlta precisão quando a GPU está disponívelBatches pequenos (8-16) ou multi-GPU
YOLO26xPrecisão máxima, deploy em servidorBatches pequenos (4-8) ou multi-GPU

Para opções de exportação e deploy, veja o Guia de Exportação e Opções de Deploy de Modelo.

Link to this sectionConclusão#

Os checkpoints do YOLO26 vêm com sua receita de treinamento completa embutida, portanto, os hiperparâmetros exatos por trás de cada tamanho de modelo estão sempre a uma consulta train_args de distância. Comece o fine-tuning a partir dos padrões, ajuste deliberadamente usando as tabelas nesta página e verifique cada alteração em seu próprio conjunto de validação. Se surgirem perguntas ao longo do caminho, pergunte à comunidade no repositório GitHub da Ultralytics ou no servidor Discord da Ultralytics.

Link to this sectionFAQ#

Link to this sectionComo vejo os hiperparâmetros exatos usados para qualquer checkpoint?#

Carregue o checkpoint com torch.load() e acesse a chave train_args, ou use model.ckpt["train_args"] com a API da Ultralytics. Veja Inspecionando os Argumentos de Treino do Checkpoint YOLO26 para exemplos completos.

Link to this sectionPor que as contagens de épocas são diferentes para cada tamanho de modelo?#

Modelos maiores geralmente precisaram de menos épocas no COCO porque sua maior capacidade acelera a convergência — o modelo X treinou por 40 épocas versus 245 para o N — embora as contagens não sejam estritamente monotônicas (o S usou 70, o M usou 80). Ao fazer fine-tuning no seu próprio dataset, o número ideal de épocas depende do tamanho e complexidade do seu dataset, não do tamanho do modelo. Use a parada antecipada (patience) para encontrar o ponto de parada correto automaticamente.

Link to this sectionDevo usar MuSGD para fine-tuning?#

Geralmente você não precisa escolher: com o padrão optimizer=auto, a Ultralytics seleciona automaticamente o MuSGD para execuções de treinamento mais longas (>10.000 iterações) e AdamW para as mais curtas. Você pode definir explicitamente optimizer=MuSGD se preferir. Para mais informações sobre como o MuSGD funciona, veja a documentação de treinamento.

Link to this sectionO que são muon_w, sgd_w, cls_w, o2m e topk no checkpoint?#

Esses são parâmetros internos do pipeline de treinamento que produziu os checkpoints base, registrados em train_args para reprodutibilidade. Eles não são configurações configuráveis pelo usuário no default.yaml, e passá-los para model.train() gera um erro de argumento inválido — o pacote público não os lê. Você não precisa defini-los ao fazer fine-tuning; veja Parâmetros Internos de Treinamento para seus valores por tamanho de modelo.

Link to this sectionPosso replicar o pré-treino exato do zero?#

Não exatamente — os checkpoints foram produzidos usando um branch de treinamento interno com recursos adicionais que não estão na base de código pública (como pesos o2m configuráveis e cls_w). Você pode obter resultados muito próximos usando os hiperparâmetros documentados nesta página com o pacote público da Ultralytics, mas uma reprodução exata requer o branch interno.

Comentários