YOLOv5 vs RTDETRv2: Comparação técnica detalhada
A escolha do modelo de deteção de objectos ideal é uma decisão crítica para os projectos de visão por computador. Ultralytics oferece uma gama diversificada de modelos para responder às várias necessidades dos projectos. Esta página apresenta uma comparação técnica entre o Ultralytics YOLOv5 e o RTDETRv2, enfatizando suas distinções arquitetônicas, referências de desempenho e adequação a diferentes aplicações.
YOLOv5: optimizado para velocidade e eficiência
Ultralytics YOLOv5 é um detetor de objectos de uma só fase amplamente adotado, célebre pela sua rápida velocidade de inferência e eficiência operacional. A arquitetura do YOLOv5 é composta por:
- Backbone: CSPDarknet53, responsável pela extração de caraterísticas.
- Pescoço: PANet, utilizado para a fusão de caraterísticas.
- Cabeça: cabeça YOLOv5 , concebida para tarefas de deteção.
YOLOv5 está disponível em vários tamanhos (n, s, m, l, x), oferecendo aos utilizadores opções para equilibrar a velocidade e a precisão com base nos seus requisitos específicos.
Pontos fortes:
- Velocidade de inferência: YOLOv5 destaca-se pela velocidade, o que o torna uma excelente escolha para aplicações em tempo real, como sistemas de alarme de segurança.
- Eficiência: Os modelos YOLOv5 são compactos, exigindo menos recursos computacionais, adequados para implementação de ponta como Raspberry Pi e NVIDIA Jetson.
- Versatilidade: Adaptável a vários ambientes de hardware, incluindo dispositivos com recursos limitados.
- Facilidade de utilização: Bem documentado e fácil de implementar utilizando opacote Ultralytics Python e o Ultralytics HUB.
Pontos fracos:
- Compromisso de exatidão: Embora atinjam uma exatidão elevada, os modelos maiores, como o RTDETRv2, podem oferecer um mAP superior, particularmente em cenários complexos.
Casos de utilização ideais:
- Cenários de deteção de objectos em tempo real, incluindo vigilância por vídeo e IA na gestão do tráfego.
- Computação periférica e implementações móveis.
- Aplicações que exigem um processamento rápido, como a robótica(ROS Quickstart) e os veículos autónomos.
RTDETRv2: Transformador de deteção em tempo real de alta precisão
O RTDETRv2(Real-Time Detection Transformer v2) é um modelo de deteção de objectos de última geração que dá prioridade à elevada precisão e ao desempenho em tempo real. Foi apresentado num documento intitulado"RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer" em 2023-04-17 pelos autores Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu do Baidu. Construído sobre uma arquitetura Vision Transformer (ViT), o RTDETRv2 destaca-se em aplicações que exigem localização e classificação precisas de objectos.
Arquitetura e caraterísticas principais:
O RTDETRv2 utiliza uma arquitetura baseada em transformadores, que lhe permite captar o contexto global das imagens através de mecanismos de auto-atenção. Esta abordagem permite que o modelo pondere a importância de diferentes regiões da imagem, conduzindo a uma extração de caraterísticas melhorada e a uma maior precisão, especialmente em cenas complexas.
Pontos fortes:
- Precisão superior: A arquitetura Transformer proporciona uma precisão de deteção de objectos melhorada, particularmente em ambientes complexos, como demonstrado em cenários como o vision-ai-in-crowd-management.
- Capacidade em tempo real: Atinge velocidades de inferência competitivas, especialmente ao usar aceleração de hardware como as GPUs NVIDIA T4.
- Extração robusta de caraterísticas: Os transformadores de visão captam eficazmente o contexto global e os detalhes intrincados, o que é benéfico em aplicações como a utilização da visão por computador para analisar imagens de satélite.
Pontos fracos:
- Maior dimensão do modelo: Os modelos RTDETRv2, especialmente as variantes maiores, têm um maior número de parâmetros e FLOPs do que YOLOv5, necessitando de mais recursos computacionais.
- Velocidade de inferência: Embora seja capaz de efetuar inferências em tempo real, a velocidade de inferência pode ser inferior à dos modelos YOLOv5 mais rápidos, especialmente em dispositivos menos potentes.
Casos de utilização ideais:
O RTDETRv2 é ideal para aplicações em que a precisão é fundamental e os recursos computacionais são suficientes. Estas incluem:
- Condução autónoma: Para uma perceção ambiental fiável e precisa em IA nos veículos de condução autónoma.
- Robótica: Permitir que os robôs interajam com precisão com o ambiente que os rodeia, essencial para as tarefas abordadas em"From Algorithms to Automation: O papel da IA na robótica".
- Imagiologia médica: Para uma deteção precisa de anomalias, ajudando no diagnóstico, como salientado em AI in Healthcare, e potencialmente útil em áreas como a utilização yolo11.
- Análise de imagens de alta resolução: Aplicações que requerem uma análise detalhada de imagens de grandes dimensões, como imagens de satélite ou inspeção industrial, como se vê em improving-manufacturing-with-computer-vision.
Tabela de comparação de modelos
Modelo | tamanho (pixéis) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Conclusão
Tanto o RTDETRv2 como YOLOv5 são modelos robustos de deteção de objectos, cada um concebido para prioridades distintas. O RTDETRv2 é preferido quando a precisão é fundamental e os recursos computacionais estão disponíveis. Por outro lado, YOLOv5 destaca-se em cenários que exigem desempenho e eficiência em tempo real, especialmente em plataformas com recursos limitados.
Para os utilizadores que exploram outros modelos, Ultralytics oferece um vasto zoo de modelos, incluindo:
- YOLOv8 e YOLO11: Sucessores do YOLOv5, proporcionando mais avanços no desempenho e na eficiência, conforme destacado emUltralytics YOLOv8 Turns One: A Year of Breakthroughs and Innovations" eUltralytics YOLO11 Has Arrived: Redefinir o que é possível em IA".
- YOLO: Modelos arquitectados com a Pesquisa de Arquitetura Neural para um desempenho optimizadoYOLO da Deci AI).
- FastSAM e MobileSAM: Para tarefas de segmentação de instâncias em tempo real (FastSAM e MobileSAM).
A seleção entre RTDETRv2, YOLOv5 ou outros modelos Ultralytics deve basear-se nas exigências específicas do seu projeto de visão computacional, considerando cuidadosamente o equilíbrio entre precisão, velocidade e disponibilidade de recursos. Consulte a DocumentaçãoUltralytics e o repositório GitHub para obter detalhes abrangentes e guias de implementação.