Saltar para o conteúdo

RTDETRv2 vs YOLOv9: Uma comparação técnica para a deteção de objectos

A escolha do modelo ideal de deteção de objectos é uma decisão crítica para projectos de visão por computador. Ultralytics oferece uma gama diversificada de modelos, incluindo a série YOLO , conhecida pela sua velocidade e eficiência, e a série RT-DETR , que privilegia a elevada precisão. Esta página apresenta uma comparação técnica detalhada entre o RTDETRv2 e o YOLOv9, dois modelos de deteção de objectos de última geração, para o ajudar a fazer uma escolha informada.

RTDETRv2: Alta precisão alimentada por transformador

O RTDETRv2(Real-Time Detection Transformer v2) é um modelo de deteção de objectos de última geração desenvolvido pela Baidu, conhecido pela sua excecional precisão e desempenho em tempo real. Publicado no arXiv em 2023-04-17, e com código disponível no GitHub, o RTDETRv2 é da autoria de Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu. Aproveita uma arquitetura Vision Transformer (ViT) para obter uma localização e classificação precisas de objectos, tornando-o adequado para aplicações exigentes.

Arquitetura e principais caraterísticas

A arquitetura do RTDETRv2 baseia-se nos Transformadores de Visão, permitindo-lhe captar o contexto global das imagens através de mecanismos de auto-atenção. Isto difere significativamente das Redes Neuronais Convolucionais (CNN) tradicionais e permite que o RTDETRv2 pondere a importância de diferentes regiões da imagem, resultando numa extração de caraterísticas melhorada e numa precisão superior, especialmente em cenas complexas. O design baseado em transformadores permite a deteção sem âncoras, simplificando o processo de deteção e melhorando potencialmente a generalização.

Métricas de desempenho

O RTDETRv2 demonstra um forte desempenho, particularmente no mAP. Conforme detalhado na tabela de comparação, a variante RTDETRv2-x atinge um mAPval50-95 de 54,3. As velocidades de inferência também são competitivas, com o RTDETRv2-s a atingir 5,03 ms no TensorRT, tornando-o viável para aplicações em tempo real quando se utiliza hardware capaz, como as GPUs NVIDIA T4. Para uma compreensão mais profunda da avaliação de desempenho, consulte o nosso guiaYOLO Performance Metrics.

Pontos fortes e pontos fracos

Pontos fortes:

  • Elevada precisão: A arquitetura do transformador proporciona uma excelente precisão na deteção de objectos, crucial para aplicações que requerem precisão.
  • Capacidade para tempo real: Atinge velocidades de inferência competitivas, particularmente quando optimizado com o TensorRT e executado em hardware adequado.
  • Compreensão do contexto global: Os Transformadores de Visão captam eficazmente o contexto global, conduzindo a uma deteção robusta em ambientes complexos.

Pontos fracos:

  • Maior tamanho do modelo: Os modelos RTDETRv2, especialmente as variantes maiores como o RTDETRv2-x, têm um número substancial de parâmetros e FLOPs, exigindo mais recursos computacionais.
  • Limitações na velocidade de inferência: Embora o tempo real seja alcançável, a velocidade de inferência pode ser mais lenta do que os modelos baseados em CNN altamente optimizados como o YOLOv9, especialmente em dispositivos com recursos limitados.

Casos de utilização ideais

O RTDETRv2 é ideal para aplicações em que a exatidão é fundamental e os recursos computacionais estão prontamente disponíveis. Estas incluem:

Saiba mais sobre RTDETRv2

YOLOv9: Informação de gradiente programável para eficiência e precisão

O YOLOv9(You Only Look Once 9) é um modelo de deteção de objectos de ponta da famosa famíliaYOLO Ultralytics . Introduzido no arXiv em 2024-02-21, o YOLOv9 é da autoria de Chien-Yao Wang e Hong-Yuan Mark Liao do Instituto de Ciência da Informação, Academia Sinica, Taiwan, com código disponível no GitHub. O YOLOv9 introduz as técnicas Programmable Gradient Information (PGI) e GELAN, melhorando a precisão e a eficiência do treino em comparação com as versões anteriores YOLO .

Arquitetura e principais caraterísticas

O YOLOv9 baseia-se na eficiência dos modelos YOLO anteriores e incorpora novas melhorias arquitectónicas. Utiliza GELAN (Generalized Efficient Layer Aggregation Network) para otimizar a arquitetura da rede e PGI para manter a integridade da informação do gradiente, abordando a perda de informação durante a propagação da rede profunda. Essas inovações levam a uma precisão aprimorada e a um treinamento mais eficiente. O YOLOv9 mantém uma cabeça de deteção sem âncoras e um design simplificado de fase única, concentrando-se no desempenho em tempo real.

Métricas de desempenho

O YOLOv9 consegue um equilíbrio convincente entre velocidade e precisão. O modelo YOLOv9-e alcança um mAPval50-95 de 55,6, superando até mesmo modelos RTDETRv2 maiores em precisão, mantendo velocidades de inferência competitivas. A variante mais pequena YOLOv9-t é excecionalmente rápida, atingindo uma velocidade de inferência de 2,3 ms no TensorRT, o que a torna adequada para aplicações extremamente sensíveis à latência.

Pontos fortes e pontos fracos

Pontos fortes:

  • Elevada exatidão e eficiência: O PGI e o GELAN contribuem para uma maior precisão e uma utilização eficiente dos parâmetros.
  • Velocidade de inferência rápida: Optimizado para desempenho em tempo real, especialmente variantes mais pequenas adequadas para implementação de ponta.
  • Formação eficiente: O IGP contribui para processos de formação mais estáveis e eficientes.

Pontos fracos:

  • Contexto global inferior: A arquitetura baseada em CNN pode ser menos eficaz na captura de dependências de longo alcance do que os modelos baseados em transformadores em cenas muito complexas.
  • Compensação da precisão pela velocidade: Embora altamente precisos, atingir as velocidades de inferência mais rápidas pode implicar a utilização de modelos mais pequenos com uma precisão ligeiramente reduzida em comparação com os modelos maiores.

Casos de utilização ideais

O YOLOv9 é adequado para aplicações que exigem um equilíbrio entre elevada precisão e desempenho em tempo real, especialmente em ambientes com recursos limitados:

  • Vigilância em tempo real: Para uma monitorização eficiente e precisa em sistemas de segurança. Explore a visão computacional para a prevenção de roubos.
  • Computação de ponta: Implementação em dispositivos periféricos com recursos computacionais limitados. Saiba mais sobre a IA de ponta.
  • Robótica: Para uma perceção rápida e precisa em sistemas robóticos. Ver O papel da IA na robótica.
  • Automação industrial: Para aplicações na indústria transformadora que requerem deteção de objectos em tempo real para controlo de qualidade e otimização de processos. Descubra a IA no fabrico.

Saiba mais sobre o YOLOv9

Tabela de comparação de modelos

Modelo tamanho
(pixéis)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Conclusão

Tanto o RTDETRv2 como o YOLOv9 são modelos poderosos de deteção de objectos, cada um com pontos fortes únicos. O RTDETRv2 destaca-se em cenários que dão prioridade à máxima precisão e aproveitam a arquitetura do transformador para uma extração robusta de caraterísticas, adequada para aplicações com amplos recursos computacionais. O YOLOv9, por outro lado, é ideal quando o desempenho e a eficiência em tempo real são primordiais, oferecendo uma combinação atraente de precisão e velocidade, particularmente benéfica para a implementação em dispositivos de ponta e sistemas sensíveis à latência.

Para os utilizadores interessados em explorar outros modelos, Ultralytics oferece uma vasta gama de opções, incluindo:

  • YOLOv8: A geração anterior Ultralytics YOLOv8 da geração anterior, que oferece um equilíbrio entre velocidade e precisão.
  • YOLO11: Para uma maior eficiência e rapidez, considere YOLO11.
  • FastSAM e MobileSAM: Para tarefas de segmentação de instâncias em tempo real, explore FastSAM e o MobileSAM.

A escolha entre RTDETRv2, YOLOv9 e outros modelos Ultralytics depende das necessidades específicas do seu projeto, considerando cuidadosamente o equilíbrio entre precisão, velocidade e recursos disponíveis. Consulte a DocumentaçãoUltralytics e o repositório doUltralytics no GitHub para obter detalhes abrangentes e guias de implementação.

Comentários

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários