YOLOv7 vs RTDETRv2: Uma comparação pormenorizada de modelos
A escolha do modelo de deteção de objectos correto é crucial para os projectos de visão por computador. Esta página fornece uma comparação técnica entre o YOLOv7 e o RTDETRv2, dois modelos de última geração, para o ajudar a tomar uma decisão informada. Analisamos as suas diferenças arquitectónicas, métricas de desempenho e aplicações ideais.
Modelo | tamanho (pixéis) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7: O especialista em eficiência em tempo real
O YOLOv7, introduzido em julho de 2022 pelos autores Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao do Instituto de Ciência da Informação, Academia Sinica, Taiwan, é celebrado pela sua velocidade e eficiência em tarefas de deteção de objectos. Aperfeiçoa a arquitetura dos modelos YOLO anteriores, dando prioridade à inferência rápida sem sacrificar significativamente a precisão.
Arquitetura e principais caraterísticas
A arquitetura do YOLOv7 é construída com base em Redes Neuronais Convolucionais (CNN) e incorpora várias caraterísticas chave para um desempenho optimizado:
- E-ELAN (Extended Efficient Layer Aggregation Network): Melhora a eficiência da extração de caraterísticas, permitindo que o modelo aprenda mais eficazmente.
- Escalonamento de modelos: Utiliza técnicas de escalonamento composto para ajustar a profundidade e a largura do modelo, permitindo flexibilidade para diferentes recursos computacionais e necessidades de desempenho.
- Treinamento de cabeça auxiliar: Utiliza cabeças de perda auxiliares durante a formação para aprofundar a aprendizagem da rede e melhorar a precisão geral.
Estas escolhas arquitectónicas permitem ao YOLOv7 alcançar um forte equilíbrio entre velocidade e precisão, tornando-o adequado para aplicações em tempo real. Para mais pormenores, consulte o artigo sobre o YOLOv7 no Arxiv e o repositório oficial do YOLOv7 no GitHub.
Métricas de desempenho
O YOLOv7 foi concebido para se destacar em cenários em que a baixa latência é fundamental. O seu desempenho é caracterizado por:
- mAPval50-95: Atinge até 53,1% de mAP no conjunto de dados COCO.
- Velocidade de inferência (T4 TensorRT10): Tão rápido quanto 6,84 ms, permitindo o processamento em tempo real.
- Tamanho do modelo (parâmetros): Começa com 36,9M parâmetros, oferecendo um tamanho de modelo compacto para uma implementação eficiente.
Casos de utilização e pontos fortes
O YOLOv7 é particularmente adequado para aplicações que requerem deteção de objectos em tempo real em dispositivos com recursos limitados, incluindo
- Robótica: Proporcionar uma perceção rápida para a navegação e interação robóticas.
- Vigilância: Permitindo a monitorização e análise em tempo real em sistemas de segurança. Veja como YOLOv8 pode melhorar os sistemas de alarme de segurança.
- Dispositivos de ponta: Implantação em dispositivos de ponta com poder computacional limitado, como o NVIDIA Jetson ou o Raspberry Pi.
A sua principal força é a velocidade e o tamanho relativamente pequeno do modelo, tornando-o altamente implementável em várias plataformas de hardware. Explore mais sobre a arquitetura e as capacidades do YOLOv7 nos documentos do YOLOv7.
RTDETRv2: Precisão com a eficiência do transformador
O RTDETRv2 (Real-Time Detection Transformer versão 2), introduzido em julho de 2024 pelos autores Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu da Baidu, adopta uma abordagem diferente ao integrar Transformadores de Visão (ViT) para a deteção de objectos. Ao contrário da base CNN do YOLO, o RTDETRv2 tira partido dos transformadores para captar o contexto global da imagem, o que pode levar a uma maior precisão, mantendo o desempenho em tempo real.
Arquitetura e principais caraterísticas
A arquitetura do RTDETRv2 é definida por:
- Backbone do Vision Transformer (ViT): Utiliza um codificador de transformador para processar toda a imagem, capturando dependências de longo alcance cruciais para a compreensão de cenas complexas.
- Extração de caraterísticas CNN híbrida: Combina CNNs para extração inicial de caraterísticas com camadas transformadoras para integrar eficazmente o contexto global.
- Deteção sem âncoras: Simplifica o processo de deteção ao eliminar a necessidade de caixas de ancoragem predefinidas, aumentando a flexibilidade do modelo e reduzindo a complexidade.
Este design baseado em transformador permite que o RTDETRv2 atinja potencialmente uma precisão superior, especialmente em ambientes complexos e desordenados. Saiba mais sobre os Transformadores de Visão na nossa página do glossário Transformador de Visão (ViT). O artigo do RTDETRv2 está disponível no Arxiv e o repositório oficial do GitHub fornece detalhes de implementação.
Métricas de desempenho
O RTDETRv2 dá prioridade à precisão, mantendo uma velocidade competitiva, oferecendo as seguintes métricas de desempenho:
- mAPval50-95: Atinge até 54,3% de mAPval50-95, demonstrando uma elevada precisão na deteção de objectos.
- Velocidade de inferência (T4 TensorRT10): Começa a partir de 5,03 ms, garantindo a capacidade em tempo real num hardware adequado.
- Tamanho do modelo (parâmetros): Começa com parâmetros de 20M, oferecendo uma gama de tamanhos de modelos para diferentes necessidades de implementação.
Casos de utilização e pontos fortes
O RTDETRv2 é ideal para aplicações em que a elevada exatidão é fundamental e os recursos computacionais estão disponíveis:
- Veículos autónomos: Proporcionar uma perceção ambiental fiável e precisa para uma navegação segura. Explorar a IA em veículos autónomos para aplicações relacionadas.
- Imagiologia médica: Permite a deteção precisa de anomalias em imagens médicas para ajudar no diagnóstico e no planeamento do tratamento. Saiba mais sobre as aplicações de IA nos cuidados de saúde.
- Análise de imagens de alta resolução: Tarefas que requerem uma análise detalhada de imagens de grandes dimensões, como a análise de imagens de satélite ou a inspeção industrial.
A força do RTDETRv2 reside na sua arquitetura de transformador, que facilita a extração robusta de caraterísticas e uma maior precisão, tornando-o excelente para tarefas de deteção complexas. Mais detalhes estão disponíveis no README doRT-DETR GitHub.
Conclusão
Tanto o YOLOv7 como o RTDETRv2 são modelos poderosos de deteção de objectos, cada um com pontos fortes únicos. O YOLOv7 destaca-se em aplicações em tempo real que requerem velocidade e eficiência, enquanto o RTDETRv2 dá prioridade à precisão através da sua arquitetura baseada em transformadores. A sua escolha deve estar alinhada com os requisitos específicos do seu projeto - velocidade para tarefas sensíveis ao tempo ou precisão para análises detalhadas.
Para outras comparações e modelos, poderá também estar interessado em: