Saltar para o conteúdo

YOLOv5 vs RTDETRv2: Uma comparação pormenorizada de modelos

A escolha do modelo correto de deteção de objectos é crucial para os projectos de visão computacional. Ultralytics oferece um conjunto de modelos adaptados a várias necessidades, incluindo o altamente eficiente Ultralytics YOLOv5 e comparando-o com outras arquitecturas como a RTDETRv2. Esta página fornece uma comparação técnica entre YOLOv5 e o RTDETRv2, destacando as suas diferenças arquitectónicas, métricas de desempenho, metodologias de formação e aplicações ideais.

YOLOv5: Velocidade e eficiência

Autor: Glenn Jocher
Organização: Ultralytics
Data: 2020-06-26
GitHub: https:yolov5
Documentos: https:yolov5

Ultralytics YOLOv5 é um detetor de objectos de uma só fase amplamente adotado, célebre pela sua excecional velocidade de inferência e eficiência operacional. Desenvolvido pela Ultralytics, tornou-se uma referência para tarefas de deteção de objectos em tempo real.

Arquitetura

YOLOv5 utiliza uma arquitetura baseada em CNN optimizada para velocidade:

  • Backbone: CSPDarknet53 para uma extração eficiente de caraterísticas.
  • Pescoço: PANet para uma fusão eficaz de caraterísticas em várias escalas.
  • Cabeça: Cabeça de deteção YOLOv5 para previsão e classificação de caixas delimitadoras. Está disponível em vários tamanhos (n, s, m, l, x), permitindo aos utilizadores selecionar a melhor relação entre velocidade e precisão para as suas necessidades específicas.

Pontos fortes

YOLOv5 oferece vantagens significativas, especialmente para os programadores que procuram uma implementação prática:

  • Facilidade de uso: Apresenta uma experiência de utilizador simplificada com uma API simples, documentação extensa e vários tutoriais.
  • Ecossistema bem mantido: Beneficia do ecossistemaUltralytics integrado, incluindo desenvolvimento ativo, forte apoio da comunidade via GitHub e Discord, actualizações frequentes e plataformas como o Ultralytics HUB para formação e implementação sem código.
  • Equilíbrio de desempenho: Atinge um forte equilíbrio entre velocidade de inferência e precisão, tornando-o adequado para diversos cenários do mundo real.
  • Requisitos de memória: Normalmente requer menos memória (especialmente memória CUDA durante o treinamento) em comparação com modelos baseados em transformadores como RTDETRv2.
  • Eficiência de treinamento: Oferece processos de treinamento eficientes, convergência mais rápida e pesos pré-treinados prontamente disponíveis em conjuntos de dados como COCO.
  • Versatilidade: Embora se concentre principalmente na deteção, o repositório YOLOv5 também suporta tarefas de segmentação de instâncias e classificação de imagens.

Pontos fracos

  • Precisão: Embora altamente precisos, os modelos maiores e mais complexos, como o RTDETRv2-x, podem atingir um mAP ligeiramente superior em conjuntos de dados difíceis, embora à custa da velocidade e dos recursos.

Casos de utilização ideais

YOLOv5 distingue-se por isso:

Saiba mais sobre o YOLOv5

RTDETRv2: Deteção em tempo real de alta precisão

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização: Baidu
Data: 2023-04-17 ( RT-DETR inicial), 2024-07-24 (melhorias RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https:RT-DETR
Documentos: https:RT-DETR

O RTDETRv2 (Real-Time Detection Transformer v2) é um detetor de objectos de última geração que aproveita o poder dos Transformadores de Visão (ViT) para atingir uma elevada precisão, mantendo o desempenho em tempo real.

Arquitetura

O RTDETRv2 utiliza uma abordagem híbrida:

  • Backbone: Normalmente, uma CNN (como as variantes da ResNet) para extração inicial de caraterísticas.
  • Codificador-Decodificador: Uma estrutura de codificador-descodificador baseada em transformador que utiliza mecanismos de auto-atenção para captar o contexto global dentro das caraterísticas da imagem. Isto permite que o modelo compreenda melhor as relações entre objectos distantes e cenas complexas.

Pontos fortes

  • Elevada precisão: A arquitetura do transformador permite ao RTDETRv2 obter excelentes resultados de mAP, particularmente em conjuntos de dados complexos com objectos densos ou pequenos.
  • Capacidade em tempo real: Otimizado para fornecer velocidades de inferência competitivas, especialmente quando acelerado usando ferramentas como NVIDIA TensorRT.
  • Extração robusta de caraterísticas: Capta eficazmente o contexto global, conduzindo a um melhor desempenho em cenários difíceis como a oclusão.

Pontos fracos

  • Custo computacional: Geralmente tem uma contagem de parâmetros e FLOPs mais elevada em comparação com o YOLOv5, exigindo recursos computacionais mais significativosGPU memóriaGPU , capacidade de processamento).
  • Complexidade de treinamento: O treino de modelos baseados em transformadores pode exigir mais recursos e ser potencialmente mais lento do que o treino de modelos baseados em CNN, como o YOLOv5.
  • Velocidade de inferência: Embora seja capaz de funcionar em tempo real em hardware potente, pode ser mais lento do que as variantes mais rápidas YOLOv5 , especialmente em CPUs ou dispositivos de ponta menos potentes.
  • Ecossistema: Falta o ecossistema extenso e unificado, as ferramentas (como o Ultralytics HUB) e o amplo suporte da comunidade fornecido pelo Ultralytics para modelos YOLO .

Casos de utilização ideais

O RTDETRv2 é mais adequado para aplicações em que a exatidão é fundamental e em que estão disponíveis recursos computacionais suficientes:

Saiba mais sobre RTDETRv2

Comparação de desempenho: YOLOv5 vs RTDETRv2

Modelo tamanho
(pixéis)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

O quadro destaca as soluções de compromisso:

  • YOLOv5 (especialmente n/s/m) oferecem velocidades de inferência significativamente mais rápidas tanto na CPU como na GPU TensorRT) com contagens de parâmetros e FLOPs muito inferiores, tornando-os ideais para ambientes com recursos limitados.
  • Os modelos RTDETRv2 atingem pontuações de pico de mAP mais elevadas (especialmente as variantes l/x), mas apresentam maior latência e requisitos computacionais. Nomeadamente, os modelos RTDETRv2-s/m oferecem uma precisão competitiva em relação ao YOLOv5l/x com velocidades TensorRT potencialmente mais rápidas, mas não apresentam desempenho CPU .

Formação e ecossistema

Ultralytics YOLOv5 destaca-se pela facilidade de formação e pelo ecossistema abrangente. A formação é simples, utilizando a CLI fornecida ou a API Python , apoiada por uma vasta documentação e tutoriais. O ecossistema Ultralytics oferece ferramentas como o Ultralytics HUB para treinamento e implantação simplificados, suporte ativo da comunidade e integrações perfeitas com ferramentas como Weights & Biases e ClearML. Além disso, a arquitetura CNN do YOLOv5 requer geralmente menos memória GPU e treina mais rapidamente do que os modelos transformadores.

O RTDETRv2, embora poderoso, envolve o treino de uma arquitetura de transformador mais complexa. Isso normalmente exige recursos computacionais mais substanciais (especialmente alta memória GPU ) e tempos de treinamento potencialmente mais longos. Embora o repositório GitHub forneça scripts de treino, o ecossistema circundante e a estrutura de suporte são menos extensos do que os oferecidos pelo Ultralytics.

Conclusão

Tanto YOLOv5 como o RTDETRv2 são modelos de deteção de objectos capazes, mas respondem a prioridades diferentes.

  • Ultralytics YOLOv5 é a escolha recomendada para aplicações que exigem elevada velocidade, eficiência, facilidade de utilização e versatilidade de implementação, especialmente em dispositivos periféricos ou onde os recursos computacionais são limitados. O seu ecossistema robusto e os baixos requisitos de formação tornam-no altamente acessível para programadores e investigadores.
  • O RTDETRv2 é adequado quando a máxima precisão é a prioridade absoluta e estão disponíveis recursos computacionais suficientes (incluindo GPUs potentes para treino e inferência).

Para a maioria das aplicações práticas, YOLOv5 proporciona um equilíbrio excelente e muitas vezes superior entre desempenho, velocidade e facilidade de utilização, apoiado pelo forte suporte e ferramentas do ecossistema Ultralytics .

Explorar outros modelos

Se estiver a explorar alternativas, considere outros modelos no âmbito do ecossistema Ultralytics :

  • YOLOv8: Um sucessor do YOLOv5, que oferece maior precisão e velocidade em várias tarefas, incluindo deteção, segmentação, pose e rastreio.
  • YOLOv10: Inclui inovações como a formação sem NMS para mais ganhos de eficiência.
  • YOLO11: A última geração da Ultralytics, que ultrapassa os limites do desempenho e da eficiência.

A comparação de modelos como YOLOv8 vs RTDETRv2 ou YOLOv10 vs RTDETRv2 pode fornecer mais informações sobre a melhor opção para o seu projeto.

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários