Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs YOLOX#

O cenário da visão computacional em tempo real está em constante evolução. Dois marcos notáveis nesta jornada são o DAMO-YOLO e o YOLOX, cada um trazendo inovações únicas para o problema de detecção de objetos de alta velocidade e alta precisão. Embora ambos os modelos tenham contribuído significativamente para a comunidade de código aberto, entender suas diferenças arquiteturais, metodologias de treinamento e cenários de implantação ideais é crucial para engenheiros de aprendizado de máquina.

Este guia abrangente explora as nuances técnicas de ambos os modelos e destaca por que alternativas modernas como a plataforma Ultralytics YOLO26 oferecem desempenho superior e facilidade de uso para os ambientes de produção atuais.

Link to this sectionVisão Geral dos Modelos#

Link to this sectionDetalhes do DAMO-YOLO#

Desenvolvido por uma equipe de pesquisadores do Alibaba Group, o DAMO-YOLO foi introduzido como um método de detecção de objetos altamente eficiente que utiliza a descoberta automatizada de arquitetura. Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização: Alibaba Group
Data: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Documentação: Documentação do DAMO-YOLO

Saiba mais sobre o DAMO-YOLO

Link to this sectionDetalhes do YOLOX#

Criado por pesquisadores da Megvii, o YOLOX teve como objetivo preencher a lacuna entre a pesquisa e as comunidades industriais, mudando a série YOLO para um design livre de âncoras (anchor-free), simplificando drasticamente a arquitetura enquanto alcançava um desempenho melhor na época. Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
Organização: Megvii
Data: 18-07-2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Documentação: Documentação do YOLOX

Sabe mais sobre o YOLOX

Link to this sectionAnálise Arquitetural#

Link to this sectionArquitetura do DAMO-YOLO#

O DAMO-YOLO depende fortemente da Neural Architecture Search (NAS). Os principais componentes incluem:

  • Backbones MAE-NAS: Utiliza um algoritmo de busca evolutiva multiobjetivo para descobrir backbones que fornecem o equilíbrio ideal entre velocidade de inferência e precisão.
  • Efficient RepGFPN: Um design de neck robusto adaptado para fusão de recursos, que ajuda o modelo a manter alta precisão em várias escalas de objetos.
  • ZeroHead: Uma head de detecção simplificada e leve que reduz a carga computacional nas camadas finais de predição.

Link to this sectionArquitetura do YOLOX#

O YOLOX adotou uma abordagem diferente, focando na simplicidade estrutural e em um design livre de âncoras (anchor-free):

  • Mecanismo Anchor-Free: Ao prever as coordenadas da BBox diretamente sem âncoras predefinidas, o YOLOX reduz o número de parâmetros de design e o ajuste heurístico necessário.
  • Decoupled Head: Separa as tarefas de classificação e regressão em diferentes ramificações de recursos, o que melhora a velocidade de convergência e a precisão geral.
  • Atribuição de Rótulos SimOTA: Uma estratégia avançada de atribuição de rótulos que aloca dinamicamente amostras positivas para as ground truths, melhorando a eficiência do treinamento.
Filosofias de Design

Enquanto o DAMO-YOLO utiliza buscas NAS orientadas por máquina para encontrar arquiteturas ideais sob restrições rígidas, o YOLOX aproveita simplificações elegantes projetadas por humanos (como heads anchor-free) para otimizar o pipeline de detecção de objetos.

Link to this sectionComparação de Desempenho#

Avaliar esses modelos requer observar a mean Average Precision (mAP), velocidades de inferência e contagem de parâmetros. Abaixo está uma tabela de comparação detalhada de variantes padrão e leves para ambas as arquiteturas.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Embora o YOLOXx alcance o mAP absoluto mais alto em 51,1, o DAMO-YOLOl entrega um mAP altamente competitivo de 50,8 com menos da metade dos parâmetros (42,1M vs 99,1M) e execução de TensorRT significativamente mais rápida.

Link to this sectionMetodologias de Treinamento#

Link to this sectionTreinando o DAMO-YOLO#

O DAMO-YOLO utiliza um aprimoramento de destilação complexo durante o treinamento. Frequentemente, um modelo "professor" grande é treinado primeiro, e seu conhecimento é destilado nos modelos "estudantes" menores. Ele também emprega AlignedOTA para atribuição dinâmica de rótulos. Embora altamente eficaz, este processo de treinamento em vários estágios aumenta drasticamente o tempo de computação GPU e a sobrecarga de memória necessária.

Link to this sectionTreinando o YOLOX#

O YOLOX baseia-se em estratégias robustas de aumento de dados como MixUp e Mosaic. No entanto, os autores descobriram que desativar esses aumentos fortes nas últimas 15 épocas permite que o modelo feche a lacuna da realidade, impulsionando significativamente as métricas finais de precisão.

Link to this sectionCasos de uso ideais#

  • DAMO-YOLO: Mais adequado para implantações industriais de alto risco onde pipelines de destilação do lado do servidor podem ser suportados, e onde o hardware alvo (como GPUs NVIDIA específicas) se beneficia diretamente de sua arquitetura NAS de neck robusto.
  • YOLOX: Excelente para desenvolvedores que buscam uma abordagem puramente livre de âncoras. O YOLOXnano extremamente leve torna-o viável para dispositivos Android legados, edge computing e sensores IoT muito restritos, onde a contagem de parâmetros é o gargalo absoluto.

Link to this sectionA vantagem do Ultralytics: Conheça o YOLO26#

Embora o DAMO-YOLO e o YOLOX representem excelentes marcos, os desenvolvedores hoje exigem soluções mais abrangentes, versáteis e fáceis de usar. É aqui que a Plataforma Ultralytics e o recém-lançado Ultralytics YOLO26 brilham.

Lançado em janeiro de 2026, o YOLO26 é o modelo recomendado definitivo para todas as tarefas de visão computacional. Ele introduz um conjunto de avanços que superam arquiteturas mais antigas:

  • Design End-to-End NMS-Free: O YOLO26 elimina nativamente o pós-processamento de Non-Maximum Suppression (NMS). Isso permite uma implantação significativamente mais simples e rápida, evitando os gargalos de latência inerentes às heads de detecção tradicionais.
  • Inferência de CPU até 43% mais rápida: Ao remover estrategicamente a Distribution Focal Loss (DFL) e otimizar as camadas, o YOLO26 entrega velocidades incomparáveis em CPUs e hardware de borda.
  • Otimizador MuSGD: Inspirado em técnicas de treinamento de modelos de linguagem grandes (LLM), o YOLO26 introduz o otimizador MuSGD (um híbrido de SGD e Muon), resultando em execuções de treinamento altamente estáveis e uma convergência muito mais rápida em comparação com as configurações legadas do YOLOX.
  • ProgLoss + STAL: Estas funções de perda avançadas produzem melhorias notáveis no reconhecimento de objetos pequenos, tornando o YOLO26 vastamente superior para filmagens de drones e robótica.
  • Versatilidade: Ao contrário do DAMO-YOLO, que é estritamente para detecção de objetos, o YOLO26 lida perfeitamente com segmentação de instâncias, estimativa de pose, classificação e Oriented Bounding Boxes (OBB) nativamente dentro do mesmo ecossistema bem mantido.

Saiba mais sobre o YOLO26

Link to this sectionFacilidade de uso com o Ultralytics#

A API Python da Ultralytics simplifica a experiência do desenvolvedor. Treinar um modelo YOLO26 de ponta requer muito menos código boilerplate e evita os complexos pipelines de destilação do DAMO-YOLO. Além disso, os modelos Ultralytics apresentam requisitos de memória CUDA excepcionalmente baixos durante o treinamento em comparação com modelos baseados em transformer pesados.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
Treinamento e Implantação na Nuvem

Você pode anotar, treinar e implantar modelos automaticamente na borda usando a Plataforma Ultralytics, que lida com todo o versionamento de dados e provisionamento de GPU na nuvem para você.

Link to this sectionConclusão#

Escolher entre DAMO-YOLO e YOLOX depende de restrições específicas: o DAMO-YOLO oferece relações velocidade-precisão excepcionais em GPUs específicas via NAS, enquanto o YOLOX fornece um design limpo e livre de âncoras, ideal para cenários de borda leves.

No entanto, para equipes que buscam uma solução moderna e preparada para o futuro com uma comunidade ativa, a arquitetura Ultralytics YOLO26 é a escolha definitiva. Seu design livre de NMS, inferência rápida em CPU e API unificada para tarefas de detecção, segmentação e pose tornam-na inigualável para a transição suave da pesquisa para a produção robusta no mundo real.

Para desenvolvedores interessados em explorar outras arquiteturas modernas, também recomendamos conferir o Ultralytics YOLO11 ou modelos baseados em transformer como o RT-DETR disponíveis na documentação abrangente da Ultralytics.

Contribuidores

Comentários