Ir para o conteúdo

YOLOv5 . YOLOX: Uma comparação técnica das arquiteturas de detecção de objetos

No cenário em rápida evolução da visão computacional, o debate entre detetores baseados em âncoras e detetores sem âncoras tem sido um tema central. Esta comparação explora as distinções técnicas entre YOLOv5, o padrão da indústria em termos de usabilidade e velocidade, e o YOLOX, um detetor sem âncora de alto desempenho.

Origens e Visão Geral do Modelo

YOLOv5
Autor: Glenn Jocher
Organização: Ultralytics
Data: 26/06/2020
GitHub: yolov5

YOLOX
Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
Organização: Megvii
Data: 18/07/2021
GitHub: Megvii-BaseDetection/YOLOX

YOLOv5 revolucionou o campo não apenas por meio de mudanças arquitetónicas, mas também pela criação de uma experiência de usuário perfeita. Ele priorizou a facilidade de treinamento, a exportabilidade e a velocidade de implementação, tornando-se a escolha preferida de empresas e desenvolvedores. O YOLOX, lançado um ano depois, teve como objetivo preencher a lacuna entre a YOLO e a tendência acadêmica de detecção sem âncora, introduzindo um cabeçalho desacoplado e uma nova estratégia de atribuição de rótulos.

Métricas de Desempenho

A tabela a seguir compara o desempenho dos dois modelos. Enquanto o YOLOX alcançou um desempenho ligeiramente superior mAP no momento do seu lançamento, YOLOv5 demonstra velocidades de inferência superiores, particularmente na CPU, e uma complexidade de implementação significativamente menor.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Diferenças Arquiteturais

A principal divergência técnica reside na forma como cada modelo lida com a previsão da caixa delimitadora.

YOLOv5: O Padrão Baseado em Âncoras

YOLOv5 um mecanismo baseado em âncoras. Ele prevê desvios a partir de caixas de âncora predefinidas, o que ajuda a estabilizar o treinamento para objetos de escalas conhecidas.

  • Backbone: Utiliza um CSPDarknet53 modificado, melhorando o fluxo gradiente e reduzindo os gargalos computacionais.
  • Aumento de dados: Foi pioneiro no uso extensivo do aumento Mosaic e MixUp pipeline de treinamento, o que melhorou significativamente a robustez do modelo em relação à oclusão.
  • Foco: A arquitetura é altamente otimizada para implementação no mundo real, garantindo que as camadas sejam mapeadas de forma eficiente para aceleradores de hardware, como o Edge TPU.

YOLOX: O Desafiante Sem Âncora

O YOLOX muda para uma abordagem sem âncora, prevendo diretamente o centro de um objeto.

  • Cabeça desacoplada: Ao contrário YOLO anteriores YOLO , o YOLOX separa as tarefas de classificação e localização em diferentes «cabeças», o que, segundo eles, resolve o conflito entre esses dois objetivos durante a convergência.
  • SimOTA: Uma estratégia avançada de atribuição dinâmica de rótulos que encara o processo de treino como um problema de transporte ótimo.
  • Referência: Para detalhes técnicos aprofundados, consulte o artigo YOLOX arXiv.

A compensação das cabeças desacopladas

Embora o cabeçote desacoplado no YOLOX melhore a velocidade e a precisão da convergência, ele frequentemente introduz uma sobrecarga computacional adicional, resultando em uma inferência ligeiramente mais lenta em comparação com o design de cabeçote acoplado encontrado no YOLOv5 no YOLOv8.

Ecossistema e Facilidade de Uso

Ao avaliar modelos para produção, o ecossistema circundante é tão importante quanto a própria arquitetura. É aqui que entra a Ultralytics oferecem uma vantagem distinta.

YOLOv5 está integrado num ecossistema maduro e bem mantido. Os utilizadores beneficiam da Ultralytics (anteriormente HUB), que simplifica a anotação, o treino e a implementação de conjuntos de dados. A plataforma lida com as complexidades da infraestrutura, permitindo que os programadores se concentrem nos dados e nos resultados.

Em contrapartida, embora o YOLOX ofereça um forte desempenho académico, muitas vezes requer mais configuração manual para implementação. Ultralytics priorizam a eficiência de treino, oferecendo pesos pré-treinados prontamente disponíveis e menor uso de memória durante o treino. Essa eficiência de memória é particularmente notável quando comparada com modelos mais recentes baseados em transformadores, como o RT-DETR, que podem consumir muitos recursos.

Saiba mais sobre o YOLOv5

A evolução: entre no YOLO26

Embora YOLOv5 o YOLOX continuem sendo excelentes opções, o campo avançou. Para os desenvolvedores que iniciam novos projetos em 2026, o YOLO26 representa o auge dessa evolução, combinando a usabilidade do YOLOv5 as inovações sem âncora do YOLOX — e superando ambos.

O YOLO26 foi concebido para ser o equilíbrio de desempenho definitivo para computação de ponta e análise em tempo real.

Por que Atualizar para o YOLO26?

  • NMS de ponta a ponta: Assim como o YOLOX, o YOLO26 se afasta das âncoras, mas vai além, tornando-se nativamente de ponta a ponta. Isso elimina a supressão não máxima (NMS), uma etapa de pós-processamento que muitas vezes complica a implementação em dispositivos como FPGAs ou CoreML.
  • Otimizador MuSGD: Inspirado nas técnicas de treino do Large Language Model (LLM) (especificamente do Kimi K2 da Moonshot AI), este otimizador híbrido garante uma dinâmica de treino estável, trazendo efetivamente a estabilidade do LLM para tarefas de visão.
  • Velocidade: O YOLO26 oferece CPU até 43% mais rápida em comparação com as gerações anteriores, obtida através da remoção da Distribuição Focal Loss (DFL) e da poda arquitetónica.
  • ProgLoss + STAL: Estas funções de perda melhoradas visam especificamente o reconhecimento de pequenos objetos, abordando uma fraqueza comum nos detetores anteriores.

Saiba mais sobre YOLO26

Versatilidade em Diferentes Tarefas

Ao contrário do YOLOX, que se concentra principalmente na detecção, Ultralytics suporta um conjunto completo de tarefas prontas para uso, incluindo estimativa de pose, segmentação de instância e detecção de objetos orientados (OBB).

Aplicações no Mundo Real

A escolha entre esses modelos geralmente depende do cenário de implementação.

  • Inspeção industrial (YOLOv5): Para linhas de produção que exigem alto rendimento, o design de cabeçote acoplado e o TensorRT dos Ultralytics garantem uma latência mínima.
  • Vigilância aérea (YOLO26): Com as novas funções ProgLoss + STAL, o YOLO26 se destaca na detecção de pequenos objetos, como veículos ou gado, em imagens de drones, uma tarefa em que os modelos mais antigos baseados em âncoras às vezes tinham dificuldade.
  • Investigação académica (YOLOX): Os investigadores que estudam estratégias de atribuição de rótulos utilizam frequentemente o YOLOX como referência devido à sua implementação clara do SimOTA.

Exemplo de Código

A transição entre modelos no Ultralytics é perfeita. O código a seguir demonstra como carregar e executar a inferência, apresentando a API unificada que funciona para YOLOv5, YOLO11 e o recomendado YOLO26.

from ultralytics import YOLO

# Load a model (YOLOv5 or the recommended YOLO26)
# The API unifies usage, making it easy to swap models for comparison
model = YOLO("yolo26n.pt")  # Loading the latest Nano model

# Run inference on a local image
results = model("path/to/image.jpg")

# Process the results
for result in results:
    result.show()  # Display prediction
    result.save(filename="result.jpg")  # Save to disk

Conclusão

Tanto YOLOv5 o YOLOX conquistaram o seu lugar na história da visão computacional. YOLOv5 o padrão em termos de facilidade de uso e implementação, enquanto o YOLOX ampliou os limites da detecção sem âncoras.

No entanto, para aplicações modernas que exigem a mais alta eficiência, Ultralytics é a escolha superior. Ao integrar um design NMS, o revolucionário otimizador MuSGD e uma arquitetura otimizada para bordas, ele oferece uma solução robusta e preparada para o futuro, apoiada pela extensa Ultralytics .


Comentários