Meet YOLO26: next-gen vision AI.

Link to this sectionUltralytics YOLO26#

Link to this sectionVisão geral#

O Ultralytics YOLO26 é uma família unificada de modelos de visão em tempo real descrita no artigo do Ultralytics YOLO26. Ele introduz inferência nativa de ponta a ponta, uma cabeça de detecção mais leve, uma receita de treinamento atualizada e cabeças específicas para tarefas de detecção, segmentação, estimativa de pose, classificação e detecção orientada.

Em suas cinco escalas de detecção, o YOLO26 atinge 40,9-57,5 mAP no COCO com 1,7-11,8 ms de latência T4 TensorRT. O artigo também relata inferência CPU ONNX até 43% mais rápida para o YOLO26n em comparação com o YOLO11n em uma CPU Intel Xeon @ 2.00 GHz.

Gráficos de comparação do Ultralytics YOLO26

Experimenta na Ultralytics Platform

Explora e executa modelos YOLO26 diretamente na Ultralytics Platform.

A família de modelos YOLO26 é construída em torno de quatro áreas de design:

  • Inferência nativa de ponta a ponta: A cabeça de detecção padrão um-para-um produz previsões sem a supressão de não-máximos (NMS), simplificando a implementação e reduzindo o pós-processamento.
  • Regressão de caixa mais leve: O YOLO26 remove a Distribution Focal Loss (DFL), reduzindo a complexidade da cabeça de detecção enquanto preserva uma faixa de regressão irrestrita.
  • Atualizações na receita de treinamento: O pipeline de treinamento combina MuSGD, Progressive Loss e STAL para melhorar a otimização, deslocar a supervisão em direção à cabeça de tempo de inferência e manter a cobertura de rótulos positivos para objetos pequenos.
  • Cabeças e perdas específicas para tarefas: O YOLO26 adiciona designs direcionados para segmentação de instâncias, variantes de segmentação semântica, estimativa de pose e detecção orientada, mantendo um pipeline de modelo único entre as tarefas.

Juntas, essas atualizações melhoram o equilíbrio entre precisão e latência em todas as escalas de modelo e alvos de implementação.

Link to this sectionPrincipais recursos#

  • Regressão livre de DFL O YOLO26 remove a Distribution Focal Loss (DFL), reduzindo a complexidade da cabeça de detecção e simplificando a exportação.

  • Inferência de ponta a ponta sem NMS Ao contrário dos detectores tradicionais que dependem de NMS como uma etapa separada de pós-processamento, o YOLO26 é nativamente de ponta a ponta por padrão. As previsões são geradas diretamente, reduzindo a latência e tornando a integração em produção mais simples.

  • Progressive Loss + STAL A Progressive Loss desloca a ênfase do treinamento para a cabeça de tempo de inferência, enquanto o STAL melhora a cobertura de rótulos positivos para objetos pequenos.

  • Otimizador MuSGD Um otimizador híbrido que combina SGD com Muon, adaptando ideias de otimização do treinamento de modelos de linguagem de grande escala para a visão computacional.

  • Implementação eficiente A cabeça simplificada e o caminho padrão sem NMS reduzem a sobrecarga de inferência em todos os alvos de exportação e perfis de hardware, incluindo o ganho de velocidade em CPU ONNX relatado no artigo para o YOLO26n versus o YOLO11n.

  • Melhorias na segmentação de instâncias Introduz a perda de segmentação semântica para melhorar a convergência do modelo e um módulo proto atualizado que aproveita informações multiescala para uma qualidade de máscara superior. O artigo relata ganhos em relação ao YOLO11 de até +2,5 AP de caixa e +3,7 AP de máscara na segmentação de instâncias do COCO.

  • Estimativa de pose de precisão Integra Residual Log-Likelihood Estimation (RLE) para uma localização de pontos-chave mais precisa e otimiza o processo de decodificação para aumentar a velocidade de inferência. O artigo relata até +7,2 AP em relação ao YOLO11 na estimativa de pose do COCO.

  • Decodificação de OBB refinada Introduz uma perda de ângulo especializada para melhorar a precisão da detecção para objetos em formato quadrado e otimiza a decodificação de OBB para resolver problemas de descontinuidade de limite. O artigo relata até +3,4 mAP em relação ao YOLO11 na detecção orientada DOTA-v1.0.

Gráficos de comparação de ponta a ponta do Ultralytics YOLO26


Link to this sectionTarefas e modos suportados#

O YOLO26 suporta o conjunto de tarefas padrão do Ultralytics em cinco escalas de modelo:

ModeloNomes de arquivoTarefaInferênciaValidaçãoTreinamentoExportar
YOLO26yolo26n.pt yolo26s.pt yolo26m.pt yolo26l.pt yolo26x.ptDetecção
YOLO26-segyolo26n-seg.pt yolo26s-seg.pt yolo26m-seg.pt yolo26l-seg.pt yolo26x-seg.ptSegmentação de instâncias
YOLO26-semyolo26n-sem.pt yolo26s-sem.pt yolo26m-sem.pt yolo26l-sem.pt yolo26x-sem.ptSegmentação semântica
YOLO26-poseyolo26n-pose.pt yolo26s-pose.pt yolo26m-pose.pt yolo26l-pose.pt yolo26x-pose.ptPose/Pontos-chave
YOLO26-obbyolo26n-obb.pt yolo26s-obb.pt yolo26m-obb.pt yolo26l-obb.pt yolo26x-obb.ptDetecção orientada
YOLO26-clsyolo26n-cls.pt yolo26s-cls.pt yolo26m-cls.pt yolo26l-cls.pt yolo26x-cls.ptClassificação

Esta estrutura unificada abrange detecção em tempo real, segmentação de instâncias, segmentação semântica, classificação, estimativa de pose e detecção de objetos orientados, com suporte para treinamento, validação, inferência e exportação.

Variantes apenas de arquitetura

yolo26-p2.yaml e yolo26-p6.yaml adicionam uma cabeça de detecção P2 (objetos pequenos) ou P6 (entrada grande) e são fornecidos apenas como arquiteturas YAML. Não há pesos específicos de escala yolo26*-p2.pt ou yolo26*-p6.pt lançados. Instancia uma configuração escalada a partir de YAML (por exemplo, YOLO("yolo26n-p6.yaml")) e treina ou ajusta conforme necessário.


Link to this sectionMétricas de desempenho#

Desempenho

Consulta a Documentação de detecção para ver exemplos de uso com esses modelos treinados no COCO, que incluem 80 classes pré-treinadas.

Modelotamanho
(pixels)
mAPval
50-95
mAPval
50-95(e2e)
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040,940,138,9 ± 0,71,7 ± 0,02,45,4
YOLO26s64048,647,887,2 ± 0,92,5 ± 0,09,520,7
YOLO26m64053,152,5220,0 ± 1,44,7 ± 0,120,468,2
YOLO26l64055,054,4286,2 ± 2,06,2 ± 0,224,886,4
YOLO26x64057,556,9525,8 ± 4,011,8 ± 0,255,7193,9

Os valores de Params e FLOPs são para o modelo fundido após model.fuse(), que combina as camadas Conv e BatchNorm e remove a cabeça de detecção auxiliar um-para-muitos. Os checkpoints pré-treinados retêm a arquitetura de treinamento completa e podem mostrar contagens mais altas.


Link to this sectionExemplos de uso#

Esta seção fornece exemplos simples de treinamento e inferência com YOLO26. Para a documentação completa sobre estes e outros modos, consulta as páginas de documentação de Predição, Treinamento, Validação e Exportação.

Observa que o exemplo abaixo é para modelos de Detecção YOLO26 para detecção de objetos. Para outras tarefas suportadas, consulta a documentação de Segmentação, Segmentação Semântica, Classificação, OBB e Pose.

Exemplo

Modelos pré-treinados PyTorch *.pt, bem como arquivos de configuração *.yaml, podem ser passados para a classe YOLO() para criar uma instância de modelo em Python:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO26n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
Arquitetura de Cabeça Dupla

Os modelos de detecção YOLO26 usam uma arquitetura de cabeça dupla que proporciona flexibilidade para diferentes cenários de implantação:

  • Cabeça Um-para-Um (Padrão): Produz previsões de ponta a ponta (end-to-end) sem NMS, gerando (N, 300, 6) com um máximo de 300 detecções por imagem. Esta cabeça é otimizada para inferência rápida e implantação simplificada.
  • Cabeça Um-para-Muitos: Gera saídas YOLO tradicionais que requerem pós-processamento NMS, gerando (N, nc + 4, 8400) onde nc é o número de classes. Esta cabeça geralmente atinge uma precisão ligeiramente maior ao custo de processamento adicional.

Podes alternar entre cabeças durante a exportação, predição ou validação:

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Use one-to-one head (default, no NMS required)
results = model.predict("image.jpg")  # inference
metrics = model.val(data="coco.yaml")  # validation
model.export(format="onnx")  # export

# Use one-to-many head (requires NMS)
results = model.predict("image.jpg", end2end=False)  # inference
metrics = model.val(data="coco.yaml", end2end=False)  # validation
model.export(format="onnx", end2end=False)  # export

A escolha depende dos teus requisitos de implantação: usa a cabeça um-para-um para máxima velocidade e simplicidade, ou a cabeça um-para-muitos quando a precisão for a prioridade máxima.

Link to this sectionYOLOE-26: Detecção e Segmentação de Vocabulário Aberto#

O YOLOE-26 estende o YOLO26 com as capacidades de vocabulário aberto da série YOLOE. Ele permite a detecção e segmentação em tempo real de categorias de objetos de conjunto aberto usando prompts de texto, prompts visuais ou um modo sem prompt.

Ao aproveitar o design end-to-end sem NMS do YOLO26, o YOLOE-26 mantém a inferência de vocabulário aberto rápida o suficiente para ambientes dinâmicos onde as categorias de destino podem mudar ao longo do tempo. O YOLOE-26x atinge 40.6 AP no LVIS minival sob prompt de texto, 38.5 AP sob prompt visual e 31.1 AP na configuração Non-E2E sem prompt.

Desempenho

Veja a Documentação YOLOE para exemplos de uso com esses modelos treinados nos datasets Objects365v1, GQA e Flickr30k.

Modelotamanho
(pixels)
Tipo de PromptmAPminival
50-95(e2e)
mAPminival
50-95
mAPrmAPcmAPfparams
(M)
FLOPs
(B)
YOLOE-26n-seg640Texto/Visual23.7 / 20.924.7 / 21.920.5 / 17.624.1 / 22.326.1 / 22.44.86.0
YOLOE-26s-seg640Texto/Visual29.9 / 27.130.8 / 28.623.9 / 25.129.6 / 27.833.0 / 29.913.121.7
YOLOE-26m-seg640Texto/Visual35.4 / 31.335.4 / 33.931.1 / 33.434.7 / 34.036.9 / 33.827.970.1
YOLOE-26l-seg640Texto/Visual36.8 / 33.737.8 / 36.335.1 / 37.637.6 / 36.238.5 / 36.132.388.3
YOLOE-26x-seg640Texto/Visual39.5 / 36.240.6 / 38.537.4 / 35.340.9 / 38.841.0 / 38.869.9196.7

Link to this sectionExemplo de Uso#

O YOLOE-26 suporta prompts baseados em texto e visuais. Usar prompts é simples—basta passá-los através do método predict, como mostrado abaixo:

Exemplo

Prompts de texto permitem que você especifique as classes que deseja detectar através de descrições textuais. O código a seguir mostra como podes usar o YOLOE-26 para detectar pessoas e ônibus em uma imagem:

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg.pt")  # or select yoloe-26s/m-seg.pt for different sizes

# Set text prompt to detect person and bus. You only need to do this once after you load the model.
model.set_classes(["person", "bus"])

# Run detection on the given image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Para técnicas de prompting e exemplos de uso completos, visite a Documentação YOLOE.

Link to this sectionCitações e Agradecimentos#

Para uma descrição técnica completa da arquitetura YOLO26, receita de treinamento, cabeças de tarefa e a extensão de vocabulário aberto YOLOE-26, leia Ultralytics YOLO26: Modelos de Visão de Fim a Fim em Tempo Real Unificados. Se usares o YOLO26 em tua pesquisa, por favor, cite:

Citação
@misc{jocher2026ultralyticsyolo26unifiedrealtime,
  title = {Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models},
  author = {Glenn Jocher and Jing Qiu and Mengyu Liu and Shuai Lyu and Fatih Cagatay Akyon and Muhammet Esat Kalfaoglu},
  year = {2026},
  eprint = {2606.03748},
  archivePrefix = {arXiv},
  primaryClass = {cs.CV},
  doi = {10.48550/arXiv.2606.03748},
  url = {https://arxiv.org/abs/2606.03748},
}

O código, modelos e documentação do YOLO26 estão disponíveis no Repositório GitHub da Ultralytics e no Ultralytics Docs sob as licenças AGPL-3.0 e Enterprise.


Link to this sectionFAQ#

Link to this sectionQuais são as principais melhorias no YOLO26?#

  • Regressão sem DFL: Simplifica a cabeça de detecção e o caminho de exportação
  • Inferência de fim a fim sem NMS: Remove o NMS do caminho de inferência padrão
  • Progressive Loss + STAL: Melhora o alinhamento de treinamento e a cobertura de rótulos para objetos pequenos
  • Otimizador MuSGD: Combina SGD com otimização inspirada em Muon para um treinamento estável
  • Cabeças e perdas específicas de tarefa: Melhora o suporte para segmentação, pose e detecção orientada

Link to this sectionQuais tarefas o YOLO26 suporta?#

O YOLO26 é uma família de modelos unificada, oferecendo suporte de fim a fim para múltiplas tarefas de visão computacional:

Cada variante de tamanho (n, s, m, l, x) suporta todas as tarefas, além de versões de vocabulário aberto via YOLOE-26.

Link to this sectionPor que o YOLO26 é eficiente para implantação?#

O YOLO26 melhora a eficiência da implantação com:

  • Inferência ponta a ponta nativa sem NMS por padrão
  • Regressão sem DFL e uma head de detecção mais leve
  • Exportação de modelo fundido que remove componentes auxiliares apenas de treinamento
  • Até 43% mais rápida inferência ONNX em CPU para YOLO26n em comparação ao YOLO11n em um Intel Xeon CPU @ 2.00 GHz
  • Formatos de exportação flexíveis, incluindo TensorRT, ONNX, CoreML, TFLite e OpenVINO

Link to this sectionComo posso começar a usar o YOLO26?#

Os modelos YOLO26 estão disponíveis para download através do pacote ultralytics. Instale ou atualize o pacote e carregue um modelo:

from ultralytics import YOLO

# Load a pretrained YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("image.jpg")

Veja a seção Exemplos de Uso para instruções de treinamento, validação e exportação.

Comentários