Saltar para o conteúdo

RTDETRv2 vs YOLOX: Uma comparação técnica para a deteção de objectos

A escolha do modelo correto de deteção de objectos é crucial para os projectos de visão por computador. Ultralytics oferece uma gama diversificada de modelos, incluindo a série YOLO e a série RT-DETR , cada uma com pontos fortes únicos. Esta página fornece uma comparação técnica detalhada entre o RTDETRv2 e o YOLOX, dois modelos topo de gama para deteção de objectos, para o ajudar a tomar uma decisão informada com base nos requisitos do seu projeto.

RTDETRv2: Deteção em tempo real de alta precisão

O RTDETRv2(Real-Time Detection Transformer v2) é um modelo avançado de deteção de objectos desenvolvido pela Baidu, conhecido pela sua elevada precisão e desempenho em tempo real. Introduzido em 2023-04-17 e detalhado no seu artigo Arxiv, o RTDETRv2 utiliza uma arquitetura Vision Transformer (ViT) para obter resultados de ponta. A implementação oficial está disponível no GitHub.

Arquitetura e principais caraterísticas

A arquitetura do RTDETRv2 baseia-se em Transformadores de Visão, permitindo-lhe captar o contexto global das imagens através de mecanismos de auto-atenção. Esta abordagem baseada em transformadores permite uma extração robusta de caraterísticas e uma localização precisa de objectos, especialmente em cenas complexas. Ao contrário dos modelos tradicionais baseados em CNN, o RTDETRv2 destaca-se na compreensão das relações entre diferentes partes de uma imagem, o que leva a uma maior precisão de deteção.

Métricas de desempenho

Os modelos RTDETRv2 demonstram pontuações mAP impressionantes, com variantes maiores como RTDETRv2-x alcançando um mAPval50-95 de 54,3. Embora as métricas detalhadas CPU velocidade CPU ONNX não sejam fornecidas na tabela abaixo, as velocidades do TensorRT são competitivas, tornando-o adequado para aplicações em tempo real em hardware capaz, como as GPUs NVIDIA T4. Para obter métricas de desempenho detalhadas, consulte a tabela de comparação de modelos abaixo.

Pontos fortes e pontos fracos

Pontos fortes:

  • Precisão superior: A arquitetura do transformador proporciona uma excelente precisão na deteção de objectos.
  • Capacidade para tempo real: Atinge velocidades de inferência competitivas com aceleração de hardware, adequadas para sistemas em tempo real.
  • Extração eficaz de caraterísticas: Os Transformadores de Visão captam eficazmente o contexto global e os detalhes intrincados.

Pontos fracos:

  • Maior tamanho do modelo: Os modelos RTDETRv2, especialmente as versões maiores, têm um maior número de parâmetros e FLOPs, exigindo mais recursos computacionais.
  • Limitações de velocidade de inferência: Embora em tempo real, pode não ser tão rápido como os modelos altamente optimizados como o YOLOX em dispositivos menos potentes.

Casos de utilização ideais

O RTDETRv2 é mais adequado para aplicações em que a exatidão é fundamental e em que estão disponíveis recursos computacionais suficientes. Os casos de utilização ideais incluem:

Saiba mais sobre RTDETRv2

YOLOX: Deteção de objectos eficiente e versátil

O YOLOX(You Only Look Once X) é um modelo de deteção de objectos sem âncoras desenvolvido pela Megvii, conhecido pelo seu elevado desempenho e eficiência. Introduzido em 2021-07-18 e detalhado no seu artigo Arxiv, o YOLOX baseia-se na série YOLO , oferecendo um design simplificado com resultados de última geração. A documentação oficial fornece pormenores completos.

Arquitetura e principais caraterísticas

O YOLOX adopta uma abordagem sem âncoras, eliminando a necessidade de caixas de âncoras predefinidas, o que simplifica o modelo e reduz os hiperparâmetros. Apresenta uma cabeça desacoplada para classificação e localização, melhorando a eficiência e a precisão do treino. Técnicas avançadas de aumento de dados, como MixUp e Mosaic, são utilizadas para melhorar a robustez. O YOLOX foi concebido para uma elevada velocidade e eficiência, o que o torna adequado para aplicações em tempo real e para implementação em várias plataformas de hardware.

Métricas de desempenho

A YOLOX oferece uma gama de tamanhos de modelos, desde o Nano ao XLarge, para responder a diferentes orçamentos computacionais e necessidades de precisão. Os modelos YOLOX alcançam um bom equilíbrio entre velocidade e precisão. Por exemplo, o YOLOX-s atinge um mAPval50-95 de 40,5 com velocidades de inferência rápidas no TensorRT. Consulte a tabela de comparação de modelos abaixo para obter métricas de desempenho detalhadas em diferentes variantes do YOLOX.

Pontos fortes e pontos fracos

Pontos fortes:

  • Alta eficiência e velocidade: Optimizado para uma inferência rápida, tornando-o ideal para aplicações em tempo real.
  • Design sem âncoras: Simplifica a arquitetura e o processo de formação, melhorando a generalização.
  • Tamanhos versáteis de modelos: Oferece uma gama de tamanhos de modelos para se adaptar a diferentes restrições computacionais.
  • Forte desempenho: Consegue um bom equilíbrio entre velocidade e precisão.

Pontos fracos:

  • Compensação da precisão: Embora eficiente, a sua precisão pode ser ligeiramente inferior à dos modelos baseados em transformadores como o RTDETRv2 em cenários complexos.
  • Desempenho em cenas complexas: Sendo um detetor de uma só fase, pode ser menos robusto em cenas extremamente cheias em comparação com alguns detectores de duas fases, embora o YOLOX atenue significativamente esta lacuna em comparação com as versões anteriores YOLO .

Casos de utilização ideais

O YOLOX é ideal para aplicações que requerem deteção de objectos em tempo real com foco na velocidade e eficiência. Estas incluem:

Saber mais sobre YOLOX

Tabela de comparação de modelos

Modelo tamanho(pixéis) mAPval
50-95
CPU ONNX
(ms)
SpeedT4TensorRT10
(ms)
params(M) FLOPs(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Conclusão

Tanto o RTDETRv2 como o YOLOX são modelos poderosos de deteção de objectos, mas respondem a prioridades diferentes. O RTDETRv2 é a escolha superior quando é necessária a máxima precisão e os recursos computacionais não são um fator limitativo. O YOLOX, por outro lado, destaca-se em cenários em que o desempenho em tempo real, a eficiência e a implementação em hardware menos potente são críticos.

Para os utilizadores que exploram outras opções, Ultralytics oferece uma vasta gama de modelos, incluindo:

A escolha entre RTDETRv2, YOLOX e outros modelos Ultralytics deve ser orientada pelas necessidades específicas do seu projeto de visão computacional, equilibrando cuidadosamente a precisão, a velocidade e os recursos disponíveis. Explore a DocumentaçãoUltralytics e o repositório GitHub para obter informações mais aprofundadas e detalhes de implementação.

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários