Saltar para o conteúdo

RTDETRv2 vs YOLO: Uma comparação técnica para a deteção de objectos

A escolha do modelo de deteção de objectos ideal é fundamental para o êxito das aplicações de visão por computador. Ultralytics oferece uma gama diversificada de modelos, e esta página apresenta uma comparação técnica detalhada entre o RTDETRv2 e o YOLO, dois modelos avançados no panorama da deteção de objectos. Esta análise ajudá-lo-á a tomar uma decisão bem informada com base nos requisitos do seu projeto.

RTDETRv2: Deteção de alta precisão baseada em transformadores

O RTDETRv2(Real-Time Detection Transformer v2) é um modelo de deteção de objectos topo de gama desenvolvido pela Baidu, conhecido pela sua elevada precisão e desempenho eficiente em tempo real. Introduzido em 2023-04-17 no artigo"DETRs Beat YOLOs on Real-time Object Detection" por Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu, o RTDETRv2 utiliza uma arquitetura Vision Transformer (ViT) para obter uma extração robusta de caraterísticas e uma compreensão global do contexto.

Arquitetura e caraterísticas

O RTDETRv2 distingue-se pela sua arquitetura baseada em transformadores, que lhe permite captar o contexto global das imagens de forma mais eficaz do que os detectores tradicionais baseados em CNN. Esta arquitetura permite uma precisão superior, especialmente em cenas complexas em que a compreensão do contexto mais amplo é crucial. O modelo é implementado em PyTorch e está disponível no GitHub.

Desempenho

O RTDETRv2 demonstra métricas de desempenho impressionantes, alcançando um mAPval50-95 de 54,3 para a sua maior variante, o RTDETRv2-x. As velocidades de inferência também são competitivas, tornando-o adequado para aplicações em tempo real quando se utiliza hardware capaz.

Pontos fortes e pontos fracos

Pontos fortes:

  • Elevada precisão: A arquitetura do transformador proporciona uma excelente precisão na deteção de objectos.
  • Capacidade em tempo real: Atinge velocidades de inferência rápidas, especialmente com a aceleração TensorRT .
  • Aprendizagem contextual eficaz: Os Transformadores da Visão são excelentes a captar o contexto global em imagens.

Pontos fracos:

  • Maior tamanho do modelo: Os modelos RTDETRv2, particularmente as variantes maiores, têm um número significativo de parâmetros e FLOPs, exigindo mais recursos computacionais.
  • Demanda computacional: Embora optimizado para velocidade, pode não ser tão leve como alguns outros modelos para implementação em dispositivos com recursos muito limitados.

Casos de utilização

O RTDETRv2 é ideal para aplicações que dão prioridade a uma elevada precisão e que têm acesso a recursos computacionais substanciais:

Saiba mais sobre RTDETRv2

YOLO: Deteção de objectos eficiente e rápida

O YOLO(DAMO series YOLO), desenvolvido pelo Alibaba Group e apresentado em 2022-11-23 no artigo"YOLO: Rethinking Scalable and Accurate Object Detection" de Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun, foi concebido para ser rápido e eficiente, mantendo uma precisão competitiva. O YOLO concentra-se no desempenho em tempo real e está disponível no GitHub.

Arquitetura e caraterísticas

O YOLO incorpora várias técnicas inovadoras para aumentar a eficiência, incluindo backbones de Pesquisa de Arquitetura Neural (NAS), um RepGFPN eficiente e um ZeroHead. Estas escolhas arquitectónicas contribuem para a sua velocidade e reduzidas exigências computacionais, tornando-o uma excelente escolha para aplicações em tempo real e implementações de ponta.

Desempenho

O YOLO destaca-se pela velocidade de inferência, oferecendo um desempenho muito rápido em várias plataformas de hardware. Embora a sua exatidão seja ligeiramente inferior à do RTDETRv2, proporciona um equilíbrio atraente entre velocidade e exatidão, particularmente para aplicações que requerem um processamento rápido.

Pontos fortes e pontos fracos

Pontos fortes:

  • Alta velocidade: Optimizado para uma inferência extremamente rápida, ideal para sistemas em tempo real.
  • Eficiência: Os modelos mais pequenos e os requisitos computacionais mais reduzidos tornam-no adequado para dispositivos de ponta.
  • Escalabilidade: Concebido para ser escalável e adaptável a vários cenários de implementação.

Pontos fracos:

  • Precisão: Embora exato, pode não atingir as mesmas pontuações de topo do mAP que o RTDETRv2, especialmente em cenários que exigem a maior precisão.
  • Compreensão contextual: Sendo centrado na CNN, pode não captar o contexto global tão eficazmente como os modelos baseados em transformadores em cenas altamente complexas.

Casos de utilização

A YOLO é adequada para aplicações em que a velocidade e a eficiência são fundamentais e em que é necessária a implementação em hardware menos potente:

  • Vigilância por vídeo em tempo real: Ideal para aplicações como sistemas de alarme de segurança que requerem deteção imediata.
  • Computação de ponta: Perfeito para implantação em dispositivos de ponta, como Raspberry Pi e NVIDIA Jetson.
  • Aplicações de processamento rápido: Adequado para robótica(ROS Quickstart) e outras aplicações que requerem uma tomada de decisão rápida.
  • Implantações móveis: Eficiente o suficiente para aplicações móveis e ambientes com recursos limitados.

Saber mais sobre YOLO

Tabela de comparação de modelos

Modelo tamanho(pixéis) mAPval
50-95
CPU ONNX
(ms)
SpeedT4TensorRT10
(ms)
params(M) FLOPs(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Conclusão

Tanto o RTDETRv2 como o YOLO são modelos poderosos de deteção de objectos, cada um com vantagens distintas. O RTDETRv2 destaca-se quando a prioridade é a precisão máxima e os recursos computacionais estão disponíveis. O YOLO é a escolha preferida para aplicações que requerem processamento em tempo real e implementação eficiente, especialmente em dispositivos periféricos.

Para os utilizadores que consideram outras opções, Ultralytics oferece uma vasta gama de modelos, incluindo:

A seleção entre RTDETRv2, YOLO ou outros modelos Ultralytics deve basear-se nas necessidades específicas do seu projeto de visão computacional, considerando cuidadosamente o equilíbrio entre precisão, velocidade e recursos disponíveis. Para mais pormenores e guias de implementação, consulte a DocumentaçãoUltralytics e o repositórioUltralytics GitHub.

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários