Saltar para o conteúdo

YOLOv5 vs RTDETRv2: Comparação técnica detalhada

A escolha do modelo de deteção de objectos ideal é uma decisão crítica para os projectos de visão por computador. Ultralytics oferece uma gama diversificada de modelos para responder às várias necessidades dos projectos. Esta página apresenta uma comparação técnica entre o Ultralytics YOLOv5 e o RTDETRv2, enfatizando suas distinções arquitetônicas, referências de desempenho e adequação a diferentes aplicações.

YOLOv5: optimizado para velocidade e eficiência

Ultralytics YOLOv5 é um detetor de objectos de uma só fase amplamente adotado, célebre pela sua rápida velocidade de inferência e eficiência operacional. A arquitetura do YOLOv5 é composta por:

  • Backbone: CSPDarknet53, responsável pela extração de caraterísticas.
  • Pescoço: PANet, utilizado para a fusão de caraterísticas.
  • Cabeça: cabeça YOLOv5 , concebida para tarefas de deteção.

YOLOv5 está disponível em vários tamanhos (n, s, m, l, x), oferecendo aos utilizadores opções para equilibrar a velocidade e a precisão com base nos seus requisitos específicos.

Pontos fortes:

  • Velocidade de inferência: YOLOv5 destaca-se pela velocidade, o que o torna uma excelente escolha para aplicações em tempo real, como sistemas de alarme de segurança.
  • Eficiência: Os modelos YOLOv5 são compactos, exigindo menos recursos computacionais, adequados para implementação de ponta como Raspberry Pi e NVIDIA Jetson.
  • Versatilidade: Adaptável a vários ambientes de hardware, incluindo dispositivos com recursos limitados.
  • Facilidade de utilização: Bem documentado e fácil de implementar utilizando opacote Ultralytics Python e o Ultralytics HUB.

Pontos fracos:

  • Compromisso de exatidão: Embora atinjam uma exatidão elevada, os modelos maiores, como o RTDETRv2, podem oferecer um mAP superior, particularmente em cenários complexos.

Casos de utilização ideais:

Saiba mais sobre o YOLOv5

RTDETRv2: Transformador de deteção em tempo real de alta precisão

O RTDETRv2(Real-Time Detection Transformer v2) é um modelo de deteção de objectos de última geração que dá prioridade à elevada precisão e ao desempenho em tempo real. Foi apresentado num documento intitulado"RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer" em 2023-04-17 pelos autores Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu do Baidu. Construído sobre uma arquitetura Vision Transformer (ViT), o RTDETRv2 destaca-se em aplicações que exigem localização e classificação precisas de objectos.

Arquitetura e caraterísticas principais:

O RTDETRv2 utiliza uma arquitetura baseada em transformadores, que lhe permite captar o contexto global das imagens através de mecanismos de auto-atenção. Esta abordagem permite que o modelo pondere a importância de diferentes regiões da imagem, conduzindo a uma extração de caraterísticas melhorada e a uma maior precisão, especialmente em cenas complexas.

Pontos fortes:

  • Precisão superior: A arquitetura Transformer proporciona uma precisão de deteção de objectos melhorada, particularmente em ambientes complexos, como demonstrado em cenários como o vision-ai-in-crowd-management.
  • Capacidade em tempo real: Atinge velocidades de inferência competitivas, especialmente ao usar aceleração de hardware como as GPUs NVIDIA T4.
  • Extração robusta de caraterísticas: Os transformadores de visão captam eficazmente o contexto global e os detalhes intrincados, o que é benéfico em aplicações como a utilização da visão por computador para analisar imagens de satélite.

Pontos fracos:

  • Maior dimensão do modelo: Os modelos RTDETRv2, especialmente as variantes maiores, têm um maior número de parâmetros e FLOPs do que YOLOv5, necessitando de mais recursos computacionais.
  • Velocidade de inferência: Embora seja capaz de efetuar inferências em tempo real, a velocidade de inferência pode ser inferior à dos modelos YOLOv5 mais rápidos, especialmente em dispositivos menos potentes.

Casos de utilização ideais:

O RTDETRv2 é ideal para aplicações em que a precisão é fundamental e os recursos computacionais são suficientes. Estas incluem:

Saiba mais sobre RTDETRv2

Tabela de comparação de modelos

Modelo tamanho
(pixéis)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Conclusão

Tanto o RTDETRv2 como YOLOv5 são modelos robustos de deteção de objectos, cada um concebido para prioridades distintas. O RTDETRv2 é preferido quando a precisão é fundamental e os recursos computacionais estão disponíveis. Por outro lado, YOLOv5 destaca-se em cenários que exigem desempenho e eficiência em tempo real, especialmente em plataformas com recursos limitados.

Para os utilizadores que exploram outros modelos, Ultralytics oferece um vasto zoo de modelos, incluindo:

A seleção entre RTDETRv2, YOLOv5 ou outros modelos Ultralytics deve basear-se nas exigências específicas do seu projeto de visão computacional, considerando cuidadosamente o equilíbrio entre precisão, velocidade e disponibilidade de recursos. Consulte a DocumentaçãoUltralytics e o repositório GitHub para obter detalhes abrangentes e guias de implementação.

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários