Ir para o conteúdo

YOLOX vs. YOLO26: A evolução da detecção de objetos sem âncora para a detecção de objetos de ponta a ponta

O campo da visão computacional passou por uma rápida transformação na última meia década, passando de arquiteturas complexas baseadas em âncoras para designs simplificados sem âncoras e, finalmente, chegando a sistemas nativamente ponta a ponta. Esta comparação aprofunda as distinções técnicas entre o YOLOX, um modelo sem âncoras lançado em 2021, e o YOLO26, o detector de ponta (SOTA) lançado pela Ultralytics 2026.

Enquanto o YOLOX estabeleceu um padrão elevado para pesquisa e desempenho na sua época, o YOLO26 introduz otimizações inovadoras, como inferênciaNMS e o otimizador MuSGD, tornando-o a escolha superior para ambientes de produção modernos que exigem baixa latência e alta precisão.

YOLOX: O Pioneiro Sem Anchor

Lançado em julho de 2021 por investigadores da Megvii, o YOLOX marcou um afastamento significativo da lógica baseada em âncoras que dominava YOLO anteriores YOLO (como YOLOv4 e YOLOv5). Ao eliminar as caixas de âncora, os autores pretendiam simplificar o processo de design e reduzir a carga de ajuste de hiperparâmetros associada ao agrupamento de âncoras.

Principais Recursos Técnicos:

  • Mecanismo sem âncora: elimina a necessidade de caixas de âncora predefinidas, tratando a deteção de objetos como um problema de regressão pontual.
  • Cabeça desacoplada: separa as tarefas de classificação e localização em diferentes ramos da cabeça da rede, o que ajudou a melhorar a velocidade e a precisão da convergência.
  • SimOTA: Uma estratégia avançada de atribuição de rótulos chamada Simplified Optimal Transport Assignment (Atribuição Simplificada de Transporte Otimizado), que atribui dinamicamente amostras positivas a verdades fundamentais.

Embora inovador, o YOLOX depende da tradicional supressão não máxima (NMS) para pós-processamento. Esta etapa remove caixas delimitadoras duplicadas, mas introduz variabilidade de latência e sobrecarga computacional, o que pode ser um gargalo em aplicações estritamente em tempo real.

Detalhes do modelo:

  • Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
  • Organização: Megvii
  • Data: 2021-07-18
  • Links:YOLOX Arxiv | YOLOX GitHub

Saiba mais sobre o YOLOX.

YOLO26: O padrão de ponta a ponta

Lançado em janeiro de 2026 pela Ultralytics, o YOLO26 representa o auge da eficiência em visão computacional. Ele abandona completamente o pipeline tradicional NMS , adotando um design nativo de ponta a ponta NMS. Essa arquitetura permite que o modelo produza diretamente o conjunto final de objetos detectados, reduzindo significativamente a latência e simplificando a lógica de implementação.

Principais Recursos Técnicos:

  • ArquiteturaNMS: elimina o custo computacional de classificar e filtrar milhares de caixas candidatas, resultando em tempos de inferência estáveis e previsíveis.
  • Otimizador MuSGD: Um otimizador híbrido que combina SGD Muon (inspirado em inovações no treinamento de Modelos de Linguagem de Grande Porte, como o Kimi K2 da Moonshot AI). Isso garante uma dinâmica de treinamento mais estável e uma convergência mais rápida.
  • Remoção de DFL: A remoção da perda focal de distribuição (DFL) simplifica o cabeçote do modelo, tornando-o mais compatível com dispositivos de ponta e ferramentas de quantização.
  • ProgLoss + STAL: Funções de perda avançadas (Perda Programática e Perda de Alinhamento Teórico de Escala) que melhoram drasticamente o reconhecimento de pequenos objetos— uma capacidade crítica para imagens de drones e inspeção industrial.

Detalhes do modelo:

Saiba mais sobre YOLO26

Por que o End-to-End é Importante

Modelos antigos, como o YOLOX, produzem milhares de caixas redundantes que devem ser filtradas usando a supressão não máxima (NMS). Esse processo CPU e é difícil de otimizar em aceleradores de hardware, como TPUs ou NPUs. O design completo do YOLO26 elimina essa etapa, permitindo que a rede neural produza a resposta final diretamente. Isso possibilita uma inferência até 43% mais rápida nas CPUs em comparação com as gerações anteriores.

Comparação de Desempenho

A tabela a seguir destaca a diferença de desempenho entre as duas arquiteturas. O YOLO26 demonstra precisão (mAP) e eficiência superiores, particularmente nas variantes Nano e Small usadas para aplicações de IA de ponta.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Nota: as velocidades do YOLOX são geralmente mais lentas em hardware moderno devido à NMS , enquanto as métricas do YOLO26 incluem todo o tempo de pós-processamento.

Análise Arquitetural Detalhada

Coluna vertebral e cabeça

O YOLOX utiliza uma espinha dorsal CSPDarknet modificada com foco na separação do cabeçote de detecção. Embora eficaz, essa separação aumenta significativamente a contagem de parâmetros em comparação com os designs de cabeçote compartilhado dos modelos anteriores.

Em contrapartida, o YOLO26 emprega uma estrutura altamente otimizada, concebida através de conceitos de Pesquisa de Arquitetura Neural (NAS). A sua estrutura principal é simplificada através da remoção do DFL, o que não só reduz o tamanho do modelo, como também se alinha perfeitamente com aceleradores de hardware que têm dificuldade com camadas de saída complexas. Isto facilita a exportação para TensorRT ou ONNX seja perfeita.

Funções de Perda e Treinamento

O YOLOX introduziu o SimOTA para resolver o problema da atribuição de rótulos de forma dinâmica. No entanto, ele ainda depende de funções de perda padrão. O YOLO26 avança nessa questão ao incorporar o ProgLoss (Perda Programática) e o STAL (Perda de Alinhamento Teórico de Escala). Essas perdas ajustam dinamicamente a penalidade por erros de caixa delimitadora com base no tamanho do objeto e no estágio de treinamento, abordando a fraqueza histórica dos YOLO na detecção de objetos pequenos, como pedestres distantes ou defeitos de fabricação.

Além disso, o otimizador MuSGD no YOLO26 traz técnicas de estabilidade do mundo LLM para a visão. Ao normalizar as atualizações entre camadas de forma mais eficaz do que SGD padrão, o YOLO26 alcança maior precisão com menos épocas de treino.

Casos de Uso Ideais

Quando usar o YOLOX

O YOLOX continua a ser uma referência valiosa nos círculos académicos.

  • Referências de pesquisa: A sua estrutura clara e sem âncoras torna-a uma excelente referência para investigadores que estudam estratégias de atribuição de rótulos.
  • Projetos legados: Sistemas já fortemente integrados com o MegEngine ou bifurcações específicas do YOLOX podem considerar dispendiosa uma migração imediata.

Quando usar o YOLO26

O YOLO26 é a escolha recomendada para praticamente todas as novas aplicações comerciais e industriais.

  • Computação de ponta: com CPU até 43% mais rápida, o YOLO26 é ideal para Raspberry Pi, Jetson Nano e dispositivos móveis onde não há GPUs disponíveis.
  • Robótica e sistemas autónomos: O designNMS elimina picos de latência causados por cenas confusas (por exemplo, um robô a navegar num armazém lotado), garantindo tempos de resposta determinísticos.
  • Inspeção de alta precisão: A combinação ProgLoss + STAL torna o YOLO26 superior para tarefas de controlo de qualidade envolvendo defeitos minúsculos.
  • Aplicações multitarefas: Ao contrário do YOLOX, que é principalmente um detetor, o Ultralytics suporta o YOLO26 para segmentação de instâncias, estimativa de pose e caixas delimitadoras orientadas (OBB).

A Vantagem Ultralytics

Escolher o YOLO26 também significa ter acesso ao abrangente Ultralytics . Enquanto o YOLOX fornece um repositório independente, Ultralytics uma estrutura unificada que simplifica todo o ciclo de vida da IA.

  1. Facilidade de uso: uma Python consistente permite alternar entre tarefas (detect, segment, pose) e modelos (YOLO26, YOLO11, RT-DETR) alterando uma única linha de código.
  2. Eficiência do treinamento: Ultralytics são otimizados para eficiência de memória durante o treinamento. Você pode treinar lotes maiores em GPUs de consumo em comparação com arquiteturas mais antigas ou transformadores pesados.
  3. Ultralytics : A Ultralytics oferece uma interface baseada na web para gestão de conjuntos de dados, anotação automática e treinamento de modelos com um clique, simplificando a colaboração entre equipas.
  4. Ecossistema bem mantido: com atualizações frequentes, documentação extensa e suporte ativo da comunidade, os programadores nunca ficam sozinhos na depuração.

Exemplo de Código

Executar o YOLO26 é simples usando o ultralytics pacote. O exemplo a seguir demonstra o carregamento de um modelo pré-treinado e a execução de inferência em uma imagem.

from ultralytics import YOLO

# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")

# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

# Display the results
for result in results:
    result.show()  # Show image in a window

    # Print boxes to console
    for box in result.boxes:
        print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")

Conclusão

Tanto o YOLOX quanto o YOLO26 representam marcos significativos na história da detecção de objetos. O YOLOX desafiou com sucesso o paradigma baseado em âncoras em 2021, provando que modelos sem âncoras poderiam atingir um desempenho de alto nível. No entanto, o YOLO26 redefine o padrão para 2026 ao resolver o problema da «última milha» da inferência: o NMS .

Com a sua arquitetura ponta a ponta, otimizador MuSGD e funções de perda especializadas, o YOLO26 oferece um equilíbrio incomparável entre velocidade, precisão e facilidade de uso. Para desenvolvedores que buscam implementar soluções robustas de visão computacional — seja em servidores em nuvem potentes ou em dispositivos de ponta com recursos limitados —,o YOLO26 é a escolha definitiva.

Para aqueles interessados em explorar outras arquiteturas modernas, considere revisar YOLO11 para deteção de uso geral ou RT-DETR para aplicações baseadas em transformadores.


Comentários