YOLOX vs. YOLO26: A evolução da detecção de objetos sem âncora para a detecção de objetos de ponta a ponta

O campo da visão computacional passou por uma rápida transformação na última meia década, passando de arquiteturas complexas baseadas em âncoras para designs simplificados sem âncoras e, finalmente, chegando a sistemas nativamente ponta a ponta. Esta comparação aprofunda as distinções técnicas entre o YOLOX, um modelo sem âncoras lançado em 2021, e o YOLO26, o detector de ponta (SOTA) lançado pela Ultralytics 2026.

Enquanto o YOLOX estabeleceu um padrão elevado para pesquisa e desempenho na sua época, o YOLO26 introduz otimizações inovadoras, como inferênciaNMS e o otimizador MuSGD, tornando-o a escolha superior para ambientes de produção modernos que exigem baixa latência e alta precisão.

YOLOX: O Pioneiro Sem Anchor

Lançado em julho de 2021 por investigadores da Megvii, o YOLOX marcou um afastamento significativo da lógica baseada em âncoras que dominava YOLO anteriores YOLO (como YOLOv4 e YOLOv5). Ao eliminar as caixas de âncora, os autores pretendiam simplificar o processo de design e reduzir a carga de ajuste de hiperparâmetros associada ao agrupamento de âncoras.

Principais Recursos Técnicos:

Mecanismo sem âncora: elimina a necessidade de caixas de âncora predefinidas, tratando a deteção de objetos como um problema de regressão pontual.
Cabeça desacoplada: separa as tarefas de classificação e localização em diferentes ramos da cabeça da rede, o que ajudou a melhorar a velocidade e a precisão da convergência.
SimOTA: Uma estratégia avançada de atribuição de rótulos chamada Simplified Optimal Transport Assignment (Atribuição Simplificada de Transporte Otimizado), que atribui dinamicamente amostras positivas a verdades fundamentais.

Embora inovador, o YOLOX depende da tradicional supressão não máxima (NMS) para pós-processamento. Esta etapa remove caixas delimitadoras duplicadas, mas introduz variabilidade de latência e sobrecarga computacional, o que pode ser um gargalo em aplicações estritamente em tempo real.

Detalhes do modelo:

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
Organização: Megvii
Data: 2021-07-18
Links:YOLOX Arxiv | YOLOX GitHub

Saiba mais sobre o YOLOX.

YOLO26: O padrão de ponta a ponta

Lançado em janeiro de 2026 pela Ultralytics, o YOLO26 representa o auge da eficiência em visão computacional. Ele abandona completamente o pipeline tradicional NMS , adotando um design nativo de ponta a ponta NMS. Essa arquitetura permite que o modelo produza diretamente o conjunto final de objetos detectados, reduzindo significativamente a latência e simplificando a lógica de implementação.

Principais Recursos Técnicos:

ArquiteturaNMS: elimina o custo computacional de classificar e filtrar milhares de caixas candidatas, resultando em tempos de inferência estáveis e previsíveis.
Otimizador MuSGD: Um otimizador híbrido que combina SGD Muon (inspirado em inovações no treinamento de Modelos de Linguagem de Grande Porte, como o Kimi K2 da Moonshot AI). Isso garante uma dinâmica de treinamento mais estável e uma convergência mais rápida.
Remoção de DFL: A remoção da perda focal de distribuição (DFL) simplifica o cabeçote do modelo, tornando-o mais compatível com dispositivos de ponta e ferramentas de quantização.
ProgLoss + STAL: Funções de perda avançadas (Perda Programática e Perda de Alinhamento Teórico de Escala) que melhoram drasticamente o reconhecimento de pequenos objetos— uma capacidade crítica para imagens de drones e inspeção industrial.

Detalhes do modelo:

Autores: Glenn Jocher e Jing Qiu
Organização: Ultralytics
Data: 2026-01-14
Links:Documentação do YOLO26 | Ultralytics

Saiba mais sobre YOLO26

Por que o End-to-End é Importante

Modelos antigos, como o YOLOX, produzem milhares de caixas redundantes que devem ser filtradas usando a supressão não máxima (NMS). Esse processo CPU e é difícil de otimizar em aceleradores de hardware, como TPUs ou NPUs. O design completo do YOLO26 elimina essa etapa, permitindo que a rede neural produza a resposta final diretamente. Isso possibilita uma inferência até 43% mais rápida nas CPUs em comparação com as gerações anteriores.

Comparação de Desempenho

A tabela a seguir destaca a diferença de desempenho entre as duas arquiteturas. O YOLO26 demonstra precisão (mAP) e eficiência superiores, particularmente nas variantes Nano e Small usadas para aplicações de IA de ponta.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

Nota: as velocidades do YOLOX são geralmente mais lentas em hardware moderno devido à NMS , enquanto as métricas do YOLO26 incluem todo o tempo de pós-processamento.

Análise Arquitetural Detalhada

Coluna vertebral e cabeça

O YOLOX utiliza uma espinha dorsal CSPDarknet modificada com foco na separação do cabeçote de detecção. Embora eficaz, essa separação aumenta significativamente a contagem de parâmetros em comparação com os designs de cabeçote compartilhado dos modelos anteriores.

Em contrapartida, o YOLO26 emprega uma estrutura altamente otimizada, concebida através de conceitos de Pesquisa de Arquitetura Neural (NAS). A sua estrutura principal é simplificada através da remoção do DFL, o que não só reduz o tamanho do modelo, como também se alinha perfeitamente com aceleradores de hardware que têm dificuldade com camadas de saída complexas. Isto facilita a exportação para TensorRT ou ONNX seja perfeita.

Funções de Perda e Treinamento

O YOLOX introduziu o SimOTA para resolver o problema da atribuição de rótulos de forma dinâmica. No entanto, ele ainda depende de funções de perda padrão. O YOLO26 avança nessa questão ao incorporar o ProgLoss (Perda Programática) e o STAL (Perda de Alinhamento Teórico de Escala). Essas perdas ajustam dinamicamente a penalidade por erros de caixa delimitadora com base no tamanho do objeto e no estágio de treinamento, abordando a fraqueza histórica dos YOLO na detecção de objetos pequenos, como pedestres distantes ou defeitos de fabricação.

Além disso, o otimizador MuSGD no YOLO26 traz técnicas de estabilidade do mundo LLM para a visão. Ao normalizar as atualizações entre camadas de forma mais eficaz do que SGD padrão, o YOLO26 alcança maior precisão com menos épocas de treino.

Casos de Uso Ideais

Quando usar o YOLOX

O YOLOX continua a ser uma referência valiosa nos círculos académicos.

Referências de pesquisa: A sua estrutura clara e sem âncoras torna-a uma excelente referência para investigadores que estudam estratégias de atribuição de rótulos.
Projetos legados: Sistemas já fortemente integrados com o MegEngine ou bifurcações específicas do YOLOX podem considerar dispendiosa uma migração imediata.

Quando usar o YOLO26

O YOLO26 é a escolha recomendada para praticamente todas as novas aplicações comerciais e industriais.

Computação de ponta: com CPU até 43% mais rápida, o YOLO26 é ideal para Raspberry Pi, Jetson Nano e dispositivos móveis onde não há GPUs disponíveis.
Robótica e sistemas autónomos: O designNMS elimina picos de latência causados por cenas confusas (por exemplo, um robô a navegar num armazém lotado), garantindo tempos de resposta determinísticos.
Inspeção de alta precisão: A combinação ProgLoss + STAL torna o YOLO26 superior para tarefas de controlo de qualidade envolvendo defeitos minúsculos.
Aplicações multitarefas: Ao contrário do YOLOX, que é principalmente um detetor, o Ultralytics suporta o YOLO26 para segmentação de instâncias, estimativa de pose e caixas delimitadoras orientadas (OBB).

A Vantagem Ultralytics

Escolher o YOLO26 também significa ter acesso ao abrangente Ultralytics . Enquanto o YOLOX fornece um repositório independente, Ultralytics uma estrutura unificada que simplifica todo o ciclo de vida da IA.

Facilidade de uso: uma Python consistente permite alternar entre tarefas (detect, segment, pose) e modelos (YOLO26, YOLO11, RT-DETR) alterando uma única linha de código.
Eficiência do treinamento: Ultralytics são otimizados para eficiência de memória durante o treinamento. Você pode treinar lotes maiores em GPUs de consumo em comparação com arquiteturas mais antigas ou transformadores pesados.
Ultralytics : A Ultralytics oferece uma interface baseada na web para gestão de conjuntos de dados, anotação automática e treinamento de modelos com um clique, simplificando a colaboração entre equipas.
Ecossistema bem mantido: com atualizações frequentes, documentação extensa e suporte ativo da comunidade, os programadores nunca ficam sozinhos na depuração.

Exemplo de Código

Executar o YOLO26 é simples usando o ultralytics pacote. O exemplo a seguir demonstra o carregamento de um modelo pré-treinado e a execução de inferência em uma imagem.

from ultralytics import YOLO

# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")

# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

# Display the results
for result in results:
    result.show()  # Show image in a window

    # Print boxes to console
    for box in result.boxes:
        print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")

Conclusão

Tanto o YOLOX quanto o YOLO26 representam marcos significativos na história da detecção de objetos. O YOLOX desafiou com sucesso o paradigma baseado em âncoras em 2021, provando que modelos sem âncoras poderiam atingir um desempenho de alto nível. No entanto, o YOLO26 redefine o padrão para 2026 ao resolver o problema da «última milha» da inferência: o NMS .

Com a sua arquitetura ponta a ponta, otimizador MuSGD e funções de perda especializadas, o YOLO26 oferece um equilíbrio incomparável entre velocidade, precisão e facilidade de uso. Para desenvolvedores que buscam implementar soluções robustas de visão computacional — seja em servidores em nuvem potentes ou em dispositivos de ponta com recursos limitados —,o YOLO26 é a escolha definitiva.

Para aqueles interessados em explorar outras arquiteturas modernas, considere revisar YOLO11 para deteção de uso geral ou RT-DETR para aplicações baseadas em transformadores.