YOLOv10 vs RTDETRv2: Uma comparação técnica para a deteção de objectos
A escolha do modelo de deteção de objectos ideal é uma decisão crítica para projectos de visão por computador. Ultralytics fornece um conjunto de modelos adaptados a diversas necessidades, desde a eficiente série Ultralytics YOLO até à série RT-DETR de elevada precisão. Esta página oferece uma comparação técnica detalhada entre o YOLOv10 e o RTDETRv2, dois modelos de ponta para deteção de objectos, para o ajudar a fazer uma escolha informada.
RTDETRv2: Deteção em tempo real de alta precisão
O RTDETRv2(Real-Time Detection Transformer v2) é um modelo avançado de deteção de objectos que dá prioridade à elevada precisão e ao desempenho em tempo real. Desenvolvido pela Baidu e detalhado no seu artigo Arxiv publicado em julho de 2024, o RTDETRv2 baseia-se numa arquitetura Vision Transformer (ViT) para alcançar resultados de ponta em cenários que exigem localização e classificação precisas de objectos.
Arquitetura e principais caraterísticas
A arquitetura do RTDETRv2 aproveita os pontos fortes dos transformadores, permitindo-lhe captar o contexto global das imagens através de mecanismos de auto-atenção. Esta abordagem baseada em transformadores permite que o modelo pondere a importância de diferentes regiões da imagem, conduzindo a uma extração de caraterísticas melhorada e a uma maior precisão, particularmente em cenas complexas. Ao contrário das Redes Neuronais Convolucionais (CNN) tradicionais, o RTDETRv2 destaca-se por compreender o contexto mais amplo de uma imagem, contribuindo para as suas capacidades de deteção robustas. O repositórioRT-DETR GitHub fornece mais pormenores sobre a sua implementação.
Métricas de desempenho
O RTDETRv2 demonstra pontuações mAP impressionantes, especialmente com variantes maiores, como o RTDETRv2-x, alcançando um mAPval50-95 de 54,3. As velocidades de inferência também são competitivas, tornando-o adequado para aplicações em tempo real ao usar aceleração de hardware como as GPUs NVIDIA T4. A tabela de comparação abaixo fornece uma análise detalhada das métricas de desempenho em diferentes variantes RTDETRv2 e YOLO10.
Pontos fortes e pontos fracos
Pontos fortes:
- Precisão superior: A arquitetura do transformador permite uma elevada precisão na deteção de objectos.
- Capacidade em tempo real: Atinge velocidades de inferência competitivas, especialmente com aceleração de hardware de mecanismos de inferência como TensorRT.
- Extração eficaz de caraterísticas: Os Transformadores de Visão captam habilmente o contexto global e os detalhes intrincados das imagens.
Pontos fracos:
- Maior tamanho do modelo: Modelos como o RTDETRv2-x têm uma contagem de parâmetros maior e FLOPs mais elevados em comparação com modelos YOLO mais pequenos, exigindo mais recursos computacionais.
- Limitações da velocidade de inferência: Embora seja capaz de funcionar em tempo real, a velocidade de inferência pode ser mais lenta do que os modelos YOLO mais rápidos, especialmente em dispositivos com recursos limitados.
Casos de utilização ideais
O RTDETRv2 é ideal para aplicações em que a exatidão é fundamental e em que estão disponíveis recursos computacionais suficientes. Estas incluem:
- Veículos autónomos: Para uma perceção ambiental fiável e precisa, crucial para a segurança e a navegação em IA em veículos autónomos.
- Robótica: Permitir que os robôs interajam com precisão com objectos em ambientes complexos, melhorando as capacidades no papel da IA na robótica.
- Imagiologia médica: Para a deteção precisa de anomalias em imagens médicas, ajudando no diagnóstico e melhorando a eficiência da IA nos cuidados de saúde.
- Análise de imagens de alta resolução: Aplicações que requerem uma análise detalhada de imagens de grandes dimensões, como imagens de satélite ou inspeção industrial, semelhante à utilização da Visão por Computador para analisar imagens de satélite.
YOLOv10: Deteção de objectos eficiente e versátil
O YOLOv10(You Only Look Once 10) é a mais recente iteração da série Ultralytics YOLO , conhecida pela sua rapidez e eficiência na deteção de objectos. Introduzido em maio de 2024 por autores da Universidade de Tsinghua, conforme detalhado no seu artigo Arxiv, o YOLOv10 baseia-se nas versões anteriores YOLO , melhorando a precisão e o desempenho, mantendo a sua vantagem em tempo real. O repositório oficial do GitHub fornece a implementação oficial PyTorch .
Arquitetura e principais caraterísticas
O YOLOv10 continua a tradição YOLO de deteção de objectos numa única fase, concentrando-se na eficiência e velocidade simplificadas. Incorpora inovações arquitectónicas e optimizações para reduzir a redundância computacional e melhorar a precisão. Uma caraterística fundamental é a sua abordagem sem NMS, que permite uma implementação de ponta a ponta e uma latência de inferência reduzida. Isto torna o YOLOv10 particularmente vantajoso para aplicações em tempo real e implementação em dispositivos com recursos limitados.
Métricas de desempenho
O YOLOv10 alcança um equilíbrio entre velocidade e precisão, oferecendo vários tamanhos de modelos, do YOLOv10n ao YOLOv10x. Embora ligeiramente atrás do RTDETRv2 em termos de precisão máxima, o YOLOv10 destaca-se pela velocidade e eficiência da inferência. Por exemplo, o YOLOv10n atinge uma velocidade de inferência rápida de 1,56 ms no TensorRT, tornando-o ideal para aplicações sensíveis à latência. O guia de métricas de desempenhoYOLO fornece mais contexto sobre essas métricas.
Pontos fortes e pontos fracos
Pontos fortes:
- Alta eficiência e velocidade: Optimizado para inferência rápida, crucial para aplicações em tempo real e implementação de ponta.
- Versatilidade: Disponível em vários tamanhos (n, s, m, b, l, x) oferecendo desempenho escalável e utilização de recursos.
- Treinamento sem NMS: Permite a implantação de ponta a ponta e reduz a latência da inferência.
- Tamanho do modelo mais pequeno: Menor número de parâmetros e FLOPs em comparação com o RTDETRv2, tornando-o adequado para ambientes com recursos limitados.
Pontos fracos:
- Menor precisão em comparação com o RTDETRv2: Embora altamente preciso, pode não atingir a precisão de topo do RTDETRv2 em cenários complexos.
- Potencial compromisso: Conseguir uma velocidade extrema pode implicar um ligeiro compromisso na precisão em comparação com modelos maiores e mais intensivos em termos de computação.
Casos de utilização ideais
A eficiência e a velocidade do YOLOv10 fazem dele uma excelente escolha para aplicações que requerem deteção de objectos em tempo real, especialmente em dispositivos com recursos limitados. Estes incluem:
- Computação de ponta: Implantação em dispositivos de ponta como o NVIDIA Jetson e o Raspberry Pi para processamento no dispositivo.
- Vigilância por vídeo em tempo real: Para uma monitorização eficiente e uma resposta rápida em sistemas de alarme de segurança.
- Robótica e drones: Aplicações em que a baixa latência e o processamento rápido são fundamentais para a navegação e a interação, como as aplicações de visão por computador em operações de drones com IA.
- Automação industrial: Para a deteção rápida de objectos nos processos de fabrico, melhorando a eficiência da IA no fabrico.
Tabela de comparação de modelos
Modelo | tamanho (pixéis) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Conclusão
Tanto o RTDETRv2 como o YOLOv10 são modelos poderosos de deteção de objectos, cada um concebido para diferentes prioridades. O RTDETRv2 destaca-se quando é necessária uma precisão de topo e os recursos computacionais estão disponíveis, tornando-o adequado para aplicações complexas e críticas. O YOLOv10, por outro lado, é a escolha preferida quando o desempenho em tempo real, a eficiência e a implementação em plataformas com recursos limitados são fundamentais.
Para os utilizadores que exploram outras opções, Ultralytics oferece um zoo de modelos diversificado, incluindo modelos com diferentes compensações entre velocidade e precisão:
- YOLOv8 e YOLOv9: Gerações anteriores dos modelos YOLO , que oferecem um equilíbrio entre velocidade e precisão, conforme destacado na documentação Ultralytics YOLOv8 Turns One: A Year of Breakthroughs and Innovations e YOLOv9.
- YOLO: Modelos concebidos com a Pesquisa de Arquitetura Neural para um desempenho ótimo, detalhados na documentaçãoYOLO by Deci AI .
- FastSAM e MobileSAM: Para tarefas de segmentação de instâncias em tempo real, oferecendo soluções eficientes, como se pode ver na documentaçãoFastSAM e na documentaçãoMobileSAM .
Em última análise, a escolha entre RTDETRv2 e YOLOv10, ou outros modelos Ultralytics , depende das necessidades específicas do seu projeto de visão computacional, equilibrando cuidadosamente a precisão, a velocidade e as restrições de recursos. Consulte a documentaçãoUltralytics e o repositório GitHub para obter informações abrangentes e guias de implementação.