Saltar para o conteúdo

YOLOv10 vs RTDETRv2: Uma comparação técnica para a deteção de objectos

A escolha do modelo de deteção de objectos ideal é uma decisão crítica para projectos de visão por computador. Ultralytics fornece um conjunto de modelos adaptados a diversas necessidades, desde a eficiente série Ultralytics YOLO até à série RT-DETR de elevada precisão. Esta página oferece uma comparação técnica detalhada entre o YOLOv10 e o RTDETRv2, dois modelos de ponta para deteção de objectos, para o ajudar a fazer uma escolha informada.

RTDETRv2: Deteção em tempo real de alta precisão

O RTDETRv2(Real-Time Detection Transformer v2) é um modelo avançado de deteção de objectos que dá prioridade à elevada precisão e ao desempenho em tempo real. Desenvolvido pela Baidu e detalhado no seu artigo Arxiv publicado em julho de 2024, o RTDETRv2 baseia-se numa arquitetura Vision Transformer (ViT) para alcançar resultados de ponta em cenários que exigem localização e classificação precisas de objectos.

Arquitetura e principais caraterísticas

A arquitetura do RTDETRv2 aproveita os pontos fortes dos transformadores, permitindo-lhe captar o contexto global das imagens através de mecanismos de auto-atenção. Esta abordagem baseada em transformadores permite que o modelo pondere a importância de diferentes regiões da imagem, conduzindo a uma extração de caraterísticas melhorada e a uma maior precisão, particularmente em cenas complexas. Ao contrário das Redes Neuronais Convolucionais (CNN) tradicionais, o RTDETRv2 destaca-se por compreender o contexto mais amplo de uma imagem, contribuindo para as suas capacidades de deteção robustas. O repositórioRT-DETR GitHub fornece mais pormenores sobre a sua implementação.

Métricas de desempenho

O RTDETRv2 demonstra pontuações mAP impressionantes, especialmente com variantes maiores, como o RTDETRv2-x, alcançando um mAPval50-95 de 54,3. As velocidades de inferência também são competitivas, tornando-o adequado para aplicações em tempo real ao usar aceleração de hardware como as GPUs NVIDIA T4. A tabela de comparação abaixo fornece uma análise detalhada das métricas de desempenho em diferentes variantes RTDETRv2 e YOLO10.

Pontos fortes e pontos fracos

Pontos fortes:

  • Precisão superior: A arquitetura do transformador permite uma elevada precisão na deteção de objectos.
  • Capacidade em tempo real: Atinge velocidades de inferência competitivas, especialmente com aceleração de hardware de mecanismos de inferência como TensorRT.
  • Extração eficaz de caraterísticas: Os Transformadores de Visão captam habilmente o contexto global e os detalhes intrincados das imagens.

Pontos fracos:

  • Maior tamanho do modelo: Modelos como o RTDETRv2-x têm uma contagem de parâmetros maior e FLOPs mais elevados em comparação com modelos YOLO mais pequenos, exigindo mais recursos computacionais.
  • Limitações da velocidade de inferência: Embora seja capaz de funcionar em tempo real, a velocidade de inferência pode ser mais lenta do que os modelos YOLO mais rápidos, especialmente em dispositivos com recursos limitados.

Casos de utilização ideais

O RTDETRv2 é ideal para aplicações em que a exatidão é fundamental e em que estão disponíveis recursos computacionais suficientes. Estas incluem:

  • Veículos autónomos: Para uma perceção ambiental fiável e precisa, crucial para a segurança e a navegação em IA em veículos autónomos.
  • Robótica: Permitir que os robôs interajam com precisão com objectos em ambientes complexos, melhorando as capacidades no papel da IA na robótica.
  • Imagiologia médica: Para a deteção precisa de anomalias em imagens médicas, ajudando no diagnóstico e melhorando a eficiência da IA nos cuidados de saúde.
  • Análise de imagens de alta resolução: Aplicações que requerem uma análise detalhada de imagens de grandes dimensões, como imagens de satélite ou inspeção industrial, semelhante à utilização da Visão por Computador para analisar imagens de satélite.

Saiba mais sobre RTDETRv2

YOLOv10: Deteção de objectos eficiente e versátil

O YOLOv10(You Only Look Once 10) é a mais recente iteração da série Ultralytics YOLO , conhecida pela sua rapidez e eficiência na deteção de objectos. Introduzido em maio de 2024 por autores da Universidade de Tsinghua, conforme detalhado no seu artigo Arxiv, o YOLOv10 baseia-se nas versões anteriores YOLO , melhorando a precisão e o desempenho, mantendo a sua vantagem em tempo real. O repositório oficial do GitHub fornece a implementação oficial PyTorch .

Arquitetura e principais caraterísticas

O YOLOv10 continua a tradição YOLO de deteção de objectos numa única fase, concentrando-se na eficiência e velocidade simplificadas. Incorpora inovações arquitectónicas e optimizações para reduzir a redundância computacional e melhorar a precisão. Uma caraterística fundamental é a sua abordagem sem NMS, que permite uma implementação de ponta a ponta e uma latência de inferência reduzida. Isto torna o YOLOv10 particularmente vantajoso para aplicações em tempo real e implementação em dispositivos com recursos limitados.

Métricas de desempenho

O YOLOv10 alcança um equilíbrio entre velocidade e precisão, oferecendo vários tamanhos de modelos, do YOLOv10n ao YOLOv10x. Embora ligeiramente atrás do RTDETRv2 em termos de precisão máxima, o YOLOv10 destaca-se pela velocidade e eficiência da inferência. Por exemplo, o YOLOv10n atinge uma velocidade de inferência rápida de 1,56 ms no TensorRT, tornando-o ideal para aplicações sensíveis à latência. O guia de métricas de desempenhoYOLO fornece mais contexto sobre essas métricas.

Pontos fortes e pontos fracos

Pontos fortes:

  • Alta eficiência e velocidade: Optimizado para inferência rápida, crucial para aplicações em tempo real e implementação de ponta.
  • Versatilidade: Disponível em vários tamanhos (n, s, m, b, l, x) oferecendo desempenho escalável e utilização de recursos.
  • Treinamento sem NMS: Permite a implantação de ponta a ponta e reduz a latência da inferência.
  • Tamanho do modelo mais pequeno: Menor número de parâmetros e FLOPs em comparação com o RTDETRv2, tornando-o adequado para ambientes com recursos limitados.

Pontos fracos:

  • Menor precisão em comparação com o RTDETRv2: Embora altamente preciso, pode não atingir a precisão de topo do RTDETRv2 em cenários complexos.
  • Potencial compromisso: Conseguir uma velocidade extrema pode implicar um ligeiro compromisso na precisão em comparação com modelos maiores e mais intensivos em termos de computação.

Casos de utilização ideais

A eficiência e a velocidade do YOLOv10 fazem dele uma excelente escolha para aplicações que requerem deteção de objectos em tempo real, especialmente em dispositivos com recursos limitados. Estes incluem:

Saiba mais sobre o YOLO10

Tabela de comparação de modelos

Modelo tamanho
(pixéis)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Conclusão

Tanto o RTDETRv2 como o YOLOv10 são modelos poderosos de deteção de objectos, cada um concebido para diferentes prioridades. O RTDETRv2 destaca-se quando é necessária uma precisão de topo e os recursos computacionais estão disponíveis, tornando-o adequado para aplicações complexas e críticas. O YOLOv10, por outro lado, é a escolha preferida quando o desempenho em tempo real, a eficiência e a implementação em plataformas com recursos limitados são fundamentais.

Para os utilizadores que exploram outras opções, Ultralytics oferece um zoo de modelos diversificado, incluindo modelos com diferentes compensações entre velocidade e precisão:

Em última análise, a escolha entre RTDETRv2 e YOLOv10, ou outros modelos Ultralytics , depende das necessidades específicas do seu projeto de visão computacional, equilibrando cuidadosamente a precisão, a velocidade e as restrições de recursos. Consulte a documentaçãoUltralytics e o repositório GitHub para obter informações abrangentes e guias de implementação.

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários