Saltar para o conteúdo

YOLO vs YOLOX: Uma comparação técnica pormenorizada

Os modelos de deteção de objectos são essenciais para várias aplicações de visão por computador, e a escolha do modelo certo depende das necessidades específicas do projeto. Esta página oferece uma comparação técnica entre o YOLO e o YOLOX, dois modelos de deteção de objectos topo de gama, analisando a sua arquitetura, desempenho e aplicações.

DAMO-YOLO

O YOLO é um modelo de deteção de objectos rápido e preciso desenvolvido pelo Grupo Alibaba. Introduz várias técnicas novas, incluindo backbones NAS e um RepGFPN eficiente, com o objetivo de obter um elevado desempenho em tarefas de deteção de objectos.

Arquitetura e principais caraterísticas

A arquitetura da YOLO incorpora vários componentes inovadores:

  • Backbone NAS: Utiliza um backbone de Pesquisa de Arquitetura Neural (NAS) para uma extração optimizada de caraterísticas.
  • RepGFPN: Utiliza uma rede eficiente de pirâmide de caraterísticas de gradiente reparametrizado (GFPN) para melhorar a fusão de caraterísticas.
  • ZeroHead: Apresenta uma cabeça de deteção leve chamada ZeroHead para reduzir a sobrecarga computacional.
  • AlignedOTA: Utiliza o Aligned Optimal Transport Assignment (OTA) para melhorar a atribuição de etiquetas durante a formação.

Métricas de desempenho

A YOLO demonstra um forte equilíbrio entre velocidade e precisão, oferecendo diferentes tamanhos de modelos para se adaptar a várias necessidades computacionais.

  • mAP: Atinge uma precisão média competitiva (mAP) em conjuntos de dados como o COCO.
  • Velocidade de inferência: Concebido para uma inferência rápida, tornando-o adequado para aplicações em tempo real.
  • Tamanho do modelo: Disponível em diferentes tamanhos (minúsculo, pequeno, médio, grande) com diferentes contagens de parâmetros e FLOPs.

Pontos fortes e pontos fracos

Pontos fortes:

  • Elevada precisão: Obtém excelentes pontuações de mAP, indicando uma precisão de deteção robusta.
  • Arquitetura eficiente: Componentes inovadores como o RepGFPN e o ZeroHead contribuem para a eficiência.
  • Capacidade em tempo real: Concebido para velocidades de inferência rápidas adequadas a sistemas em tempo real.

Pontos fracos:

  • Complexidade: Os componentes arquitectónicos avançados podem introduzir complexidade na personalização e implementação.
  • Comunidade limitada: Em comparação com modelos mais estabelecidos, a comunidade e os recursos podem ser mais pequenos.

Casos de utilização

O YOLO é adequado para aplicações que exigem elevada precisão e desempenho em tempo real, tais como:

  • Robótica avançada: Permitindo a deteção precisa de objectos para tarefas robóticas complexas.
  • Vigilância de alta resolução: Processamento de fluxos de vídeo de alta definição para reconhecimento detalhado de objectos.
  • Controlo de qualidade industrial: Deteção de defeitos finos nos processos de fabrico.

Saber mais sobre YOLO

YOLOX

O YOLOX, desenvolvido pela Megvii, é uma versão sem âncoras do YOLO, que privilegia a simplicidade e o elevado desempenho. O seu design eficiente tem como objetivo colmatar a lacuna entre a investigação e as aplicações industriais.

Arquitetura e principais caraterísticas

O YOLOX destaca-se pela sua abordagem sem âncoras e pela sua arquitetura simplificada:

  • Deteção sem âncora: Simplifica o pipeline de deteção ao eliminar a necessidade de caixas de ancoragem, reduzindo a complexidade e a afinação de hiperparâmetros.
  • Cabeça desacoplada: Separa as cabeças de classificação e regressão para melhorar o desempenho e a eficiência do treinamento.
  • Atribuição de etiquetas SimOTA: Utiliza a estratégia de atribuição de etiquetas SimOTA (Simplified Optimal Transport Assignment) para uma formação mais eficaz.
  • Aumentos fortes: Emprega técnicas avançadas de aumento de dados para melhorar a robustez e a generalização do modelo.

Métricas de desempenho

A YOLOX oferece um forte equilíbrio entre precisão e velocidade, com vários tamanhos de modelos disponíveis.

  • mAP: Obtém pontuações mAP competitivas em conjuntos de dados de referência como o COCO, superando frequentemente as versões anteriores YOLO .
  • Velocidade de inferência: Fornece velocidades de inferência rápidas, adequadas para implantação em tempo real.
  • Tamanho do modelo: Oferece diferentes tamanhos de modelo (Nano, Tiny, s, m, l, x) para acomodar diversas restrições de recursos.

Pontos fortes e pontos fracos

Pontos fortes:

  • Simplicidade: A conceção sem âncoras simplifica o modelo e reduz a necessidade de afinações complexas.
  • Alto desempenho: Atinge uma excelente precisão e velocidade, ultrapassando frequentemente os modelos YOLO baseados em âncoras.
  • Facilidade de implementação: Bem documentado e relativamente fácil de implementar e implantar.

Pontos fracos:

  • Custo computacional: Os modelos YOLOX de maiores dimensões podem ser computacionalmente intensivos, exigindo mais recursos.
  • Otimização para hardware específico: Pode exigir otimização para implementação em dispositivos de borda com recursos muito limitados em comparação com modelos extremamente leves.

Casos de utilização

O YOLOX é versátil e adequado para uma vasta gama de tarefas de deteção de objectos, incluindo:

  • Vigilância por vídeo em tempo real: Processamento eficiente de feeds de vídeo para segurança e monitorização.
  • Condução autónoma: Fornecimento de deteção de objectos robusta e rápida para veículos autónomos.
  • Implantação na borda: Implementação de modelos YOLOX mais pequenos em dispositivos de ponta para aplicações com recursos limitados.

Saber mais sobre YOLOX

Tabela de comparação de modelos

Modelo tamanho
(pixéis)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Tanto o YOLO como o YOLOX são modelos poderosos de deteção de objectos. O YOLO dá ênfase à precisão e à eficiência através de inovações arquitectónicas, enquanto o YOLOX se concentra na simplicidade e no elevado desempenho com o seu design sem âncoras. A escolha entre eles depende dos requisitos específicos da aplicação, tendo em conta factores como as necessidades de precisão, os requisitos de velocidade e o ambiente de implementação.

Os utilizadores interessados em outros modelos de deteção de objectos de alto desempenho também podem considerar Ultralytics YOLOv8, YOLOv10, e YOLO11. Para comparações com estes e outros modelos, consulte os documentos de comparação de modelosUltralytics .

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários