YOLOv5 vs RTDETRv2: Uma comparação pormenorizada de modelos
A escolha do modelo correto de deteção de objectos é crucial para os projectos de visão computacional. Ultralytics oferece um conjunto de modelos adaptados a várias necessidades, incluindo o altamente eficiente Ultralytics YOLOv5 e comparando-o com outras arquitecturas como a RTDETRv2. Esta página fornece uma comparação técnica entre YOLOv5 e o RTDETRv2, destacando as suas diferenças arquitectónicas, métricas de desempenho, metodologias de formação e aplicações ideais.
YOLOv5: Velocidade e eficiência
Autor: Glenn Jocher
Organização: Ultralytics
Data: 2020-06-26
GitHub: https:yolov5
Documentos: https:yolov5
Ultralytics YOLOv5 é um detetor de objectos de uma só fase amplamente adotado, célebre pela sua excecional velocidade de inferência e eficiência operacional. Desenvolvido pela Ultralytics, tornou-se uma referência para tarefas de deteção de objectos em tempo real.
Arquitetura
YOLOv5 utiliza uma arquitetura baseada em CNN optimizada para velocidade:
- Backbone: CSPDarknet53 para uma extração eficiente de caraterísticas.
- Pescoço: PANet para uma fusão eficaz de caraterísticas em várias escalas.
- Cabeça: Cabeça de deteção YOLOv5 para previsão e classificação de caixas delimitadoras. Está disponível em vários tamanhos (n, s, m, l, x), permitindo aos utilizadores selecionar a melhor relação entre velocidade e precisão para as suas necessidades específicas.
Pontos fortes
YOLOv5 oferece vantagens significativas, especialmente para os programadores que procuram uma implementação prática:
- Facilidade de uso: Apresenta uma experiência de utilizador simplificada com uma API simples, documentação extensa e vários tutoriais.
- Ecossistema bem mantido: Beneficia do ecossistemaUltralytics integrado, incluindo desenvolvimento ativo, forte apoio da comunidade via GitHub e Discord, actualizações frequentes e plataformas como o Ultralytics HUB para formação e implementação sem código.
- Equilíbrio de desempenho: Atinge um forte equilíbrio entre velocidade de inferência e precisão, tornando-o adequado para diversos cenários do mundo real.
- Requisitos de memória: Normalmente requer menos memória (especialmente memória CUDA durante o treinamento) em comparação com modelos baseados em transformadores como RTDETRv2.
- Eficiência de treinamento: Oferece processos de treinamento eficientes, convergência mais rápida e pesos pré-treinados prontamente disponíveis em conjuntos de dados como COCO.
- Versatilidade: Embora se concentre principalmente na deteção, o repositório YOLOv5 também suporta tarefas de segmentação de instâncias e classificação de imagens.
Pontos fracos
- Precisão: Embora altamente precisos, os modelos maiores e mais complexos, como o RTDETRv2-x, podem atingir um mAP ligeiramente superior em conjuntos de dados difíceis, embora à custa da velocidade e dos recursos.
Casos de utilização ideais
YOLOv5 distingue-se por isso:
- Deteção de objectos em tempo real: Vigilância por vídeo, sistemas de alarme de segurança e IA na gestão do tráfego.
- Computação de ponta: Implementação em dispositivos com recursos limitados, como o Raspberry Pi e oNVIDIA Jetson.
- Aplicações móveis: Modelos ligeiros adequados à utilização móvel.
- Prototipagem rápida: Configuração e formação rápidas para várias tarefas de visão por computador.
RTDETRv2: Deteção em tempo real de alta precisão
Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização: Baidu
Data: 2023-04-17 ( RT-DETR inicial), 2024-07-24 (melhorias RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https:RT-DETR
Documentos: https:RT-DETR
O RTDETRv2 (Real-Time Detection Transformer v2) é um detetor de objectos de última geração que aproveita o poder dos Transformadores de Visão (ViT) para atingir uma elevada precisão, mantendo o desempenho em tempo real.
Arquitetura
O RTDETRv2 utiliza uma abordagem híbrida:
- Backbone: Normalmente, uma CNN (como as variantes da ResNet) para extração inicial de caraterísticas.
- Codificador-Decodificador: Uma estrutura de codificador-descodificador baseada em transformador que utiliza mecanismos de auto-atenção para captar o contexto global dentro das caraterísticas da imagem. Isto permite que o modelo compreenda melhor as relações entre objectos distantes e cenas complexas.
Pontos fortes
- Elevada precisão: A arquitetura do transformador permite ao RTDETRv2 obter excelentes resultados de mAP, particularmente em conjuntos de dados complexos com objectos densos ou pequenos.
- Capacidade em tempo real: Otimizado para fornecer velocidades de inferência competitivas, especialmente quando acelerado usando ferramentas como NVIDIA TensorRT.
- Extração robusta de caraterísticas: Capta eficazmente o contexto global, conduzindo a um melhor desempenho em cenários difíceis como a oclusão.
Pontos fracos
- Custo computacional: Geralmente tem uma contagem de parâmetros e FLOPs mais elevada em comparação com o YOLOv5, exigindo recursos computacionais mais significativosGPU memóriaGPU , capacidade de processamento).
- Complexidade de treinamento: O treino de modelos baseados em transformadores pode exigir mais recursos e ser potencialmente mais lento do que o treino de modelos baseados em CNN, como o YOLOv5.
- Velocidade de inferência: Embora seja capaz de funcionar em tempo real em hardware potente, pode ser mais lento do que as variantes mais rápidas YOLOv5 , especialmente em CPUs ou dispositivos de ponta menos potentes.
- Ecossistema: Falta o ecossistema extenso e unificado, as ferramentas (como o Ultralytics HUB) e o amplo suporte da comunidade fornecido pelo Ultralytics para modelos YOLO .
Casos de utilização ideais
O RTDETRv2 é mais adequado para aplicações em que a exatidão é fundamental e em que estão disponíveis recursos computacionais suficientes:
- Condução autónoma: Perceção precisa para IA em carros autónomos.
- Imagiologia médica: Deteção pormenorizada de anomalias em IA nos cuidados de saúde.
- Análise de imagens de alta resolução: Análise de imagens de satélite ou de dados de inspeção industrial(melhoria do fabrico com visão por computador).
- Compreensão de cenas complexas: Cenários com forte oclusão ou numerosos objectos pequenos.
Comparação de desempenho: YOLOv5 vs RTDETRv2
Modelo | tamanho (pixéis) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
O quadro destaca as soluções de compromisso:
- YOLOv5 (especialmente n/s/m) oferecem velocidades de inferência significativamente mais rápidas tanto na CPU como na GPU TensorRT) com contagens de parâmetros e FLOPs muito inferiores, tornando-os ideais para ambientes com recursos limitados.
- Os modelos RTDETRv2 atingem pontuações de pico de mAP mais elevadas (especialmente as variantes l/x), mas apresentam maior latência e requisitos computacionais. Nomeadamente, os modelos RTDETRv2-s/m oferecem uma precisão competitiva em relação ao YOLOv5l/x com velocidades TensorRT potencialmente mais rápidas, mas não apresentam desempenho CPU .
Formação e ecossistema
Ultralytics YOLOv5 destaca-se pela facilidade de formação e pelo ecossistema abrangente. A formação é simples, utilizando a CLI fornecida ou a API Python , apoiada por uma vasta documentação e tutoriais. O ecossistema Ultralytics oferece ferramentas como o Ultralytics HUB para treinamento e implantação simplificados, suporte ativo da comunidade e integrações perfeitas com ferramentas como Weights & Biases e ClearML. Além disso, a arquitetura CNN do YOLOv5 requer geralmente menos memória GPU e treina mais rapidamente do que os modelos transformadores.
O RTDETRv2, embora poderoso, envolve o treino de uma arquitetura de transformador mais complexa. Isso normalmente exige recursos computacionais mais substanciais (especialmente alta memória GPU ) e tempos de treinamento potencialmente mais longos. Embora o repositório GitHub forneça scripts de treino, o ecossistema circundante e a estrutura de suporte são menos extensos do que os oferecidos pelo Ultralytics.
Conclusão
Tanto YOLOv5 como o RTDETRv2 são modelos de deteção de objectos capazes, mas respondem a prioridades diferentes.
- Ultralytics YOLOv5 é a escolha recomendada para aplicações que exigem elevada velocidade, eficiência, facilidade de utilização e versatilidade de implementação, especialmente em dispositivos periféricos ou onde os recursos computacionais são limitados. O seu ecossistema robusto e os baixos requisitos de formação tornam-no altamente acessível para programadores e investigadores.
- O RTDETRv2 é adequado quando a máxima precisão é a prioridade absoluta e estão disponíveis recursos computacionais suficientes (incluindo GPUs potentes para treino e inferência).
Para a maioria das aplicações práticas, YOLOv5 proporciona um equilíbrio excelente e muitas vezes superior entre desempenho, velocidade e facilidade de utilização, apoiado pelo forte suporte e ferramentas do ecossistema Ultralytics .
Explorar outros modelos
Se estiver a explorar alternativas, considere outros modelos no âmbito do ecossistema Ultralytics :
- YOLOv8: Um sucessor do YOLOv5, que oferece maior precisão e velocidade em várias tarefas, incluindo deteção, segmentação, pose e rastreio.
- YOLOv10: Inclui inovações como a formação sem NMS para mais ganhos de eficiência.
- YOLO11: A última geração da Ultralytics, que ultrapassa os limites do desempenho e da eficiência.
A comparação de modelos como YOLOv8 vs RTDETRv2 ou YOLOv10 vs RTDETRv2 pode fornecer mais informações sobre a melhor opção para o seu projeto.