Saltar para o conteúdo

YOLOv7 vs RTDETRv2: Uma comparação pormenorizada de modelos

A escolha do modelo de deteção de objectos correto é crucial para os projectos de visão por computador. Esta página fornece uma comparação técnica entre o YOLOv7 e o RTDETRv2, dois modelos de última geração, para o ajudar a tomar uma decisão informada. Analisamos as suas diferenças arquitectónicas, métricas de desempenho e aplicações ideais.

Modelo tamanho
(pixéis)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

YOLOv7: O especialista em eficiência em tempo real

O YOLOv7, introduzido em julho de 2022 pelos autores Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao do Instituto de Ciência da Informação, Academia Sinica, Taiwan, é celebrado pela sua velocidade e eficiência em tarefas de deteção de objectos. Aperfeiçoa a arquitetura dos modelos YOLO anteriores, dando prioridade à inferência rápida sem sacrificar significativamente a precisão.

Arquitetura e principais caraterísticas

A arquitetura do YOLOv7 é construída com base em Redes Neuronais Convolucionais (CNN) e incorpora várias caraterísticas chave para um desempenho optimizado:

  • E-ELAN (Extended Efficient Layer Aggregation Network): Melhora a eficiência da extração de caraterísticas, permitindo que o modelo aprenda mais eficazmente.
  • Escalonamento de modelos: Utiliza técnicas de escalonamento composto para ajustar a profundidade e a largura do modelo, permitindo flexibilidade para diferentes recursos computacionais e necessidades de desempenho.
  • Treinamento de cabeça auxiliar: Utiliza cabeças de perda auxiliares durante a formação para aprofundar a aprendizagem da rede e melhorar a precisão geral.

Estas escolhas arquitectónicas permitem ao YOLOv7 alcançar um forte equilíbrio entre velocidade e precisão, tornando-o adequado para aplicações em tempo real. Para mais pormenores, consulte o artigo sobre o YOLOv7 no Arxiv e o repositório oficial do YOLOv7 no GitHub.

Métricas de desempenho

O YOLOv7 foi concebido para se destacar em cenários em que a baixa latência é fundamental. O seu desempenho é caracterizado por:

  • mAPval50-95: Atinge até 53,1% de mAP no conjunto de dados COCO.
  • Velocidade de inferência (T4 TensorRT10): Tão rápido quanto 6,84 ms, permitindo o processamento em tempo real.
  • Tamanho do modelo (parâmetros): Começa com 36,9M parâmetros, oferecendo um tamanho de modelo compacto para uma implementação eficiente.

Casos de utilização e pontos fortes

O YOLOv7 é particularmente adequado para aplicações que requerem deteção de objectos em tempo real em dispositivos com recursos limitados, incluindo

  • Robótica: Proporcionar uma perceção rápida para a navegação e interação robóticas.
  • Vigilância: Permitindo a monitorização e análise em tempo real em sistemas de segurança. Veja como YOLOv8 pode melhorar os sistemas de alarme de segurança.
  • Dispositivos de ponta: Implantação em dispositivos de ponta com poder computacional limitado, como o NVIDIA Jetson ou o Raspberry Pi.

A sua principal força é a velocidade e o tamanho relativamente pequeno do modelo, tornando-o altamente implementável em várias plataformas de hardware. Explore mais sobre a arquitetura e as capacidades do YOLOv7 nos documentos do YOLOv7.

Saiba mais sobre o YOLOv7

RTDETRv2: Precisão com a eficiência do transformador

O RTDETRv2 (Real-Time Detection Transformer versão 2), introduzido em julho de 2024 pelos autores Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu da Baidu, adopta uma abordagem diferente ao integrar Transformadores de Visão (ViT) para a deteção de objectos. Ao contrário da base CNN do YOLO, o RTDETRv2 tira partido dos transformadores para captar o contexto global da imagem, o que pode levar a uma maior precisão, mantendo o desempenho em tempo real.

Arquitetura e principais caraterísticas

A arquitetura do RTDETRv2 é definida por:

  • Backbone do Vision Transformer (ViT): Utiliza um codificador de transformador para processar toda a imagem, capturando dependências de longo alcance cruciais para a compreensão de cenas complexas.
  • Extração de caraterísticas CNN híbrida: Combina CNNs para extração inicial de caraterísticas com camadas transformadoras para integrar eficazmente o contexto global.
  • Deteção sem âncoras: Simplifica o processo de deteção ao eliminar a necessidade de caixas de ancoragem predefinidas, aumentando a flexibilidade do modelo e reduzindo a complexidade.

Este design baseado em transformador permite que o RTDETRv2 atinja potencialmente uma precisão superior, especialmente em ambientes complexos e desordenados. Saiba mais sobre os Transformadores de Visão na nossa página do glossário Transformador de Visão (ViT). O artigo do RTDETRv2 está disponível no Arxiv e o repositório oficial do GitHub fornece detalhes de implementação.

Métricas de desempenho

O RTDETRv2 dá prioridade à precisão, mantendo uma velocidade competitiva, oferecendo as seguintes métricas de desempenho:

  • mAPval50-95: Atinge até 54,3% de mAPval50-95, demonstrando uma elevada precisão na deteção de objectos.
  • Velocidade de inferência (T4 TensorRT10): Começa a partir de 5,03 ms, garantindo a capacidade em tempo real num hardware adequado.
  • Tamanho do modelo (parâmetros): Começa com parâmetros de 20M, oferecendo uma gama de tamanhos de modelos para diferentes necessidades de implementação.

Casos de utilização e pontos fortes

O RTDETRv2 é ideal para aplicações em que a elevada exatidão é fundamental e os recursos computacionais estão disponíveis:

  • Veículos autónomos: Proporcionar uma perceção ambiental fiável e precisa para uma navegação segura. Explorar a IA em veículos autónomos para aplicações relacionadas.
  • Imagiologia médica: Permite a deteção precisa de anomalias em imagens médicas para ajudar no diagnóstico e no planeamento do tratamento. Saiba mais sobre as aplicações de IA nos cuidados de saúde.
  • Análise de imagens de alta resolução: Tarefas que requerem uma análise detalhada de imagens de grandes dimensões, como a análise de imagens de satélite ou a inspeção industrial.

A força do RTDETRv2 reside na sua arquitetura de transformador, que facilita a extração robusta de caraterísticas e uma maior precisão, tornando-o excelente para tarefas de deteção complexas. Mais detalhes estão disponíveis no README doRT-DETR GitHub.

Saiba mais sobre RTDETRv2

Conclusão

Tanto o YOLOv7 como o RTDETRv2 são modelos poderosos de deteção de objectos, cada um com pontos fortes únicos. O YOLOv7 destaca-se em aplicações em tempo real que requerem velocidade e eficiência, enquanto o RTDETRv2 dá prioridade à precisão através da sua arquitetura baseada em transformadores. A sua escolha deve estar alinhada com os requisitos específicos do seu projeto - velocidade para tarefas sensíveis ao tempo ou precisão para análises detalhadas.

Para outras comparações e modelos, poderá também estar interessado em:

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários