RTDETRv2 vs YOLOv9: Uma comparação técnica para a deteção de objectos
A escolha do modelo ideal de deteção de objectos é uma decisão crítica para projectos de visão por computador. Ultralytics oferece uma gama diversificada de modelos, incluindo a série YOLO , conhecida pela sua velocidade e eficiência, e a série RT-DETR , que privilegia a elevada precisão. Esta página apresenta uma comparação técnica detalhada entre o RTDETRv2 e o YOLOv9, dois modelos de deteção de objectos de última geração, para o ajudar a fazer uma escolha informada.
RTDETRv2: Alta precisão alimentada por transformador
O RTDETRv2(Real-Time Detection Transformer v2) é um modelo de deteção de objectos de última geração desenvolvido pela Baidu, conhecido pela sua excecional precisão e desempenho em tempo real. Publicado no arXiv em 2023-04-17, e com código disponível no GitHub, o RTDETRv2 é da autoria de Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu. Aproveita uma arquitetura Vision Transformer (ViT) para obter uma localização e classificação precisas de objectos, tornando-o adequado para aplicações exigentes.
Arquitetura e principais caraterísticas
A arquitetura do RTDETRv2 baseia-se nos Transformadores de Visão, permitindo-lhe captar o contexto global das imagens através de mecanismos de auto-atenção. Isto difere significativamente das Redes Neuronais Convolucionais (CNN) tradicionais e permite que o RTDETRv2 pondere a importância de diferentes regiões da imagem, resultando numa extração de caraterísticas melhorada e numa precisão superior, especialmente em cenas complexas. O design baseado em transformadores permite a deteção sem âncoras, simplificando o processo de deteção e melhorando potencialmente a generalização.
Métricas de desempenho
O RTDETRv2 demonstra um forte desempenho, particularmente no mAP. Conforme detalhado na tabela de comparação, a variante RTDETRv2-x atinge um mAPval50-95 de 54,3. As velocidades de inferência também são competitivas, com o RTDETRv2-s a atingir 5,03 ms no TensorRT, tornando-o viável para aplicações em tempo real quando se utiliza hardware capaz, como as GPUs NVIDIA T4. Para uma compreensão mais profunda da avaliação de desempenho, consulte o nosso guiaYOLO Performance Metrics.
Pontos fortes e pontos fracos
Pontos fortes:
- Elevada precisão: A arquitetura do transformador proporciona uma excelente precisão na deteção de objectos, crucial para aplicações que requerem precisão.
- Capacidade para tempo real: Atinge velocidades de inferência competitivas, particularmente quando optimizado com o TensorRT e executado em hardware adequado.
- Compreensão do contexto global: Os Transformadores de Visão captam eficazmente o contexto global, conduzindo a uma deteção robusta em ambientes complexos.
Pontos fracos:
- Maior tamanho do modelo: Os modelos RTDETRv2, especialmente as variantes maiores como o RTDETRv2-x, têm um número substancial de parâmetros e FLOPs, exigindo mais recursos computacionais.
- Limitações na velocidade de inferência: Embora o tempo real seja alcançável, a velocidade de inferência pode ser mais lenta do que os modelos baseados em CNN altamente optimizados como o YOLOv9, especialmente em dispositivos com recursos limitados.
Casos de utilização ideais
O RTDETRv2 é ideal para aplicações em que a exatidão é fundamental e os recursos computacionais estão prontamente disponíveis. Estas incluem:
- Veículos autónomos: Para uma perceção ambiental precisa e fiável. Saiba mais sobre a IA em veículos autónomos.
- Imagiologia médica: Para uma deteção precisa de anomalias em imagens médicas, ajudando no diagnóstico. Saiba mais sobre a IA nos cuidados de saúde.
- Robótica: Permitir que os robôs interajam e manipulem objectos em ambientes complexos com precisão. Compreender o papel da IA na robótica.
- Análise de imagens de alta resolução: Para análise detalhada de imagens de grandes dimensões, como imagens de satélite ou inspeção industrial. Veja como analisar imagens de satélite utilizando a Visão por Computador.
YOLOv9: Informação de gradiente programável para eficiência e precisão
O YOLOv9(You Only Look Once 9) é um modelo de deteção de objectos de ponta da famosa famíliaYOLO Ultralytics . Introduzido no arXiv em 2024-02-21, o YOLOv9 é da autoria de Chien-Yao Wang e Hong-Yuan Mark Liao do Instituto de Ciência da Informação, Academia Sinica, Taiwan, com código disponível no GitHub. O YOLOv9 introduz as técnicas Programmable Gradient Information (PGI) e GELAN, melhorando a precisão e a eficiência do treino em comparação com as versões anteriores YOLO .
Arquitetura e principais caraterísticas
O YOLOv9 baseia-se na eficiência dos modelos YOLO anteriores e incorpora novas melhorias arquitectónicas. Utiliza GELAN (Generalized Efficient Layer Aggregation Network) para otimizar a arquitetura da rede e PGI para manter a integridade da informação do gradiente, abordando a perda de informação durante a propagação da rede profunda. Essas inovações levam a uma precisão aprimorada e a um treinamento mais eficiente. O YOLOv9 mantém uma cabeça de deteção sem âncoras e um design simplificado de fase única, concentrando-se no desempenho em tempo real.
Métricas de desempenho
O YOLOv9 consegue um equilíbrio convincente entre velocidade e precisão. O modelo YOLOv9-e alcança um mAPval50-95 de 55,6, superando até mesmo modelos RTDETRv2 maiores em precisão, mantendo velocidades de inferência competitivas. A variante mais pequena YOLOv9-t é excecionalmente rápida, atingindo uma velocidade de inferência de 2,3 ms no TensorRT, o que a torna adequada para aplicações extremamente sensíveis à latência.
Pontos fortes e pontos fracos
Pontos fortes:
- Elevada exatidão e eficiência: O PGI e o GELAN contribuem para uma maior precisão e uma utilização eficiente dos parâmetros.
- Velocidade de inferência rápida: Optimizado para desempenho em tempo real, especialmente variantes mais pequenas adequadas para implementação de ponta.
- Formação eficiente: O IGP contribui para processos de formação mais estáveis e eficientes.
Pontos fracos:
- Contexto global inferior: A arquitetura baseada em CNN pode ser menos eficaz na captura de dependências de longo alcance do que os modelos baseados em transformadores em cenas muito complexas.
- Compensação da precisão pela velocidade: Embora altamente precisos, atingir as velocidades de inferência mais rápidas pode implicar a utilização de modelos mais pequenos com uma precisão ligeiramente reduzida em comparação com os modelos maiores.
Casos de utilização ideais
O YOLOv9 é adequado para aplicações que exigem um equilíbrio entre elevada precisão e desempenho em tempo real, especialmente em ambientes com recursos limitados:
- Vigilância em tempo real: Para uma monitorização eficiente e precisa em sistemas de segurança. Explore a visão computacional para a prevenção de roubos.
- Computação de ponta: Implementação em dispositivos periféricos com recursos computacionais limitados. Saiba mais sobre a IA de ponta.
- Robótica: Para uma perceção rápida e precisa em sistemas robóticos. Ver O papel da IA na robótica.
- Automação industrial: Para aplicações na indústria transformadora que requerem deteção de objectos em tempo real para controlo de qualidade e otimização de processos. Descubra a IA no fabrico.
Tabela de comparação de modelos
Modelo | tamanho (pixéis) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Conclusão
Tanto o RTDETRv2 como o YOLOv9 são modelos poderosos de deteção de objectos, cada um com pontos fortes únicos. O RTDETRv2 destaca-se em cenários que dão prioridade à máxima precisão e aproveitam a arquitetura do transformador para uma extração robusta de caraterísticas, adequada para aplicações com amplos recursos computacionais. O YOLOv9, por outro lado, é ideal quando o desempenho e a eficiência em tempo real são primordiais, oferecendo uma combinação atraente de precisão e velocidade, particularmente benéfica para a implementação em dispositivos de ponta e sistemas sensíveis à latência.
Para os utilizadores interessados em explorar outros modelos, Ultralytics oferece uma vasta gama de opções, incluindo:
- YOLOv8: A geração anterior Ultralytics YOLOv8 da geração anterior, que oferece um equilíbrio entre velocidade e precisão.
- YOLO11: Para uma maior eficiência e rapidez, considere YOLO11.
- FastSAM e MobileSAM: Para tarefas de segmentação de instâncias em tempo real, explore FastSAM e o MobileSAM.
A escolha entre RTDETRv2, YOLOv9 e outros modelos Ultralytics depende das necessidades específicas do seu projeto, considerando cuidadosamente o equilíbrio entre precisão, velocidade e recursos disponíveis. Consulte a DocumentaçãoUltralytics e o repositório doUltralytics no GitHub para obter detalhes abrangentes e guias de implementação.