Ir para o conteúdo

YOLO11 vs. YOLO26: Evolução da IA de Visão em Tempo Real

O campo da visão computacional está avançando rapidamente, e a Ultralytics continua a liderar com modelos de detecção de objetos de última geração. Esta comparação explora a evolução arquitetônica, métricas de desempenho e aplicações práticas do YOLO11, lançado no final de 2024, e do inovador YOLO26, lançado em janeiro de 2026. Embora ambos os modelos representem o auge da IA de visão em seus respectivos lançamentos, o YOLO26 introduz mudanças arquitetônicas significativas que redefinem a eficiência e a velocidade para implantação em dispositivos de borda.

Visão Geral do Modelo

YOLO11

Autores: Glenn Jocher e Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHub:Repositório Ultralytics
Documentação:Documentação do YOLO11

YOLO11 marcou um refinamento significativo na série YOLO, oferecendo uma redução de 22% nos parâmetros em comparação com YOLOv8, ao mesmo tempo que melhorava a precisão da detecção. Introduziu um design arquitetural aprimorado que equilibrava velocidade e precisão, tornando-o uma escolha confiável para diversas tarefas de visão computacional, desde a detecção de objetos até a segmentação de instâncias.

Saiba mais sobre o YOLO11.

YOLO26

Autores: Glenn Jocher e Jing Qiu
Organização:Ultralytics
Data: 2026-01-14
GitHub:Repositório Ultralytics
Documentação:Documentação YOLO26

YOLO26 representa uma mudança de paradigma com seu design nativamente end-to-end sem NMS, eliminando a necessidade de pós-processamento de Non-Maximum Suppression. Esta inovação, pioneira em YOLOv10, simplifica significativamente os pipelines de implantação e reduz a latência. YOLO26 é especificamente otimizado para edge computing, proporcionando uma inferência na CPU até 43% mais rápida e incorporando novas técnicas de treinamento, como o Otimizador MuSGD—um híbrido de SGD e Muon inspirado nas inovações de treinamento de LLM.

Saiba mais sobre YOLO26

Vantagem de Latência End-to-End

Ao remover a etapa NMS, YOLO26 oferece tempos de inferência consistentes, independentemente do número de objetos detectados em uma cena. Isso é crucial para aplicações em tempo real, como a condução autônoma, onde picos de pós-processamento podem causar atrasos perigosos.

Comparação de Desempenho

A tabela abaixo destaca as melhorias de desempenho de YOLO26 em relação a YOLO11. Observe os ganhos substanciais na velocidade da CPU, tornando YOLO26 excepcionalmente capaz para dispositivos sem GPUs dedicadas, como Raspberry Pis ou telefones celulares.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Análise Arquitetural Detalhada

Arquitetura do YOLO11

YOLO11 foi construído sobre o conceito de backbone CSPNet, refinando as camadas de extração de características para capturar detalhes mais granulares. Utilizou uma cabeça de detecção padrão sem âncoras e dependia da Distribution Focal Loss (DFL) para refinar a regressão de caixas delimitadoras. Embora altamente eficaz, a dependência de NMS significava que a velocidade de inferência poderia flutuar com base na densidade da cena, um gargalo comum na vigilância de cidades inteligentes.

Arquitetura YOLO26

YOLO26 introduz várias mudanças radicais projetadas para eficiência e estabilidade:

  1. End-to-End sem NMS: O modelo prevê um conjunto fixo de caixas delimitadoras com correspondência um-para-um durante o treinamento, removendo a etapa heurística de NMS durante a inferência.
  2. Remoção de DFL: A Distribution Focal Loss foi removida para simplificar o processo de exportação para formatos como ONNX e TensorRT, aumentando a compatibilidade com dispositivos de borda de baixa potência.
  3. Otimizador MuSGD: Inspirado no Kimi K2 da Moonshot AI e no treinamento de Large Language Model (LLM), este otimizador híbrido combina SGD e Muon para garantir uma convergência mais rápida e execuções de treinamento mais estáveis, reduzindo os "picos de perda" frequentemente observados no treinamento de visão em larga escala.
  4. ProgLoss + STAL: Novas funções de perda (Progressive Loss e Soft-Target Assignment Loss) visam especificamente o reconhecimento de pequenos objetos, proporcionando um impulso massivo para a análise de imagens aéreas e sensores IoT.

Versatilidade da Tarefa

Ambos os modelos suportam uma ampla gama de tarefas dentro do ecossistema Ultralytics, garantindo que os desenvolvedores possam alternar modelos sem reescrever seus pipelines.

  • Detecção: Detecção padrão de caixas delimitadoras.
  • Segmentação: Máscaras em nível de pixel. YOLO26 adiciona uma perda de segmentação semântica específica e um protótipo multi-escala para melhor qualidade da máscara.
  • Classificação: Categorização de imagem inteira.
  • Estimativa de Pose: Detecção de pontos-chave. YOLO26 utiliza a Estimativa de Log-Verossimilhança Residual (RLE) para maior precisão em poses complexas, benéfico para análise esportiva.
  • OBB (Oriented Bounding Box): Caixas rotacionadas para objetos aéreos ou angulados. YOLO26 apresenta uma perda de ângulo especializada para resolver problemas de descontinuidade de fronteira comuns em imagens de satélite.

Treinamento e Uso

Uma das características do ecossistema Ultralytics é a API unificada. Quer esteja a usar YOLO11 ou a atualizar para YOLO26, o código permanece praticamente idêntico, minimizando a dívida técnica.

Exemplo Python

Veja como pode treinar o novo modelo YOLO26 usando a mesma interface familiar utilizada para YOLO11. Este exemplo demonstra o treinamento no conjunto de dados COCO8, um pequeno conjunto de dados de 8 imagens perfeito para testes.

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model
# The MuSGD optimizer is handled automatically internally for YOLO26 models
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cpu",  # Use '0' for GPU
)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Exemplo de CLI

A interface de linha de comando é igualmente otimizada, permitindo experimentação rápida e benchmarking de modelos.

# Train YOLO26n on the COCO8 dataset
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640

# Export to ONNX for simplified edge deployment
yolo export model=yolo26n.pt format=onnx

Casos de Uso Ideais

Escolha YOLO11 se:

  • Você tem um pipeline de produção existente altamente ajustado para YOLO11 e não pode dedicar tempo de validação para uma nova arquitetura.
  • Seu hardware de implantação possui otimizações específicas para a estrutura de camadas do YOLO11 que ainda não foram atualizadas para YOLO26.

Escolha YOLO26 se:

  • Implantação em Edge é Crítica: A remoção de NMS e DFL torna YOLO26 a escolha superior para aplicativos Android/iOS e sistemas embarcados onde os ciclos da CPU são preciosos.
  • Detecção de Pequenos Objetos: As funções ProgLoss e STAL o tornam significativamente melhor para identificar pragas na agricultura ou objetos distantes em filmagens de drones.
  • Estabilidade do Treinamento: Se você está treinando em grandes conjuntos de dados personalizados e enfrentou problemas de divergência, o otimizador MuSGD no YOLO26 oferece um caminho de treinamento mais estável.
  • Exportação Simplificada: A arquitetura de ponta a ponta exporta de forma mais limpa para formatos como CoreML e TensorRT, sem a necessidade de plugins NMS externos complexos.

Para desenvolvedores interessados em explorar outras opções na família Ultralytics, modelos como YOLOv10 (o precursor do YOLO de ponta a ponta) ou YOLO-World (para detecção de vocabulário aberto) também são totalmente suportados.

Conclusão

Embora o YOLO11 continue sendo um modelo robusto e altamente capaz, o YOLO26 estabelece um novo patamar para o que é possível na visão computacional em tempo real. Ao integrar dinâmicas de treinamento inspiradas em LLM e simplificar o pipeline de inferência através de um design sem NMS, a Ultralytics criou um modelo que não é apenas mais preciso, mas também significativamente mais fácil de implantar no mundo real.

O ecossistema Ultralytics garante que a atualização seja contínua. Com menores requisitos de memória durante o treinamento e velocidades de CPU mais rápidas durante a inferência, o YOLO26 é o ponto de partida recomendado para todos os novos projetos em 2026.

Comece com Ultralytics


Comentários