RTDETRv2 vs. YOLOv5: Uma comparação técnica

No cenário em rápida evolução da deteção de objectos, a seleção do modelo certo envolve muitas vezes a navegação num compromisso entre a complexidade arquitetónica, a velocidade de inferência e a usabilidade prática. Este guia fornece uma comparação técnica abrangente entre o RTDETRv2, um detetor em tempo real baseado em transformador da Baidu, e o YOLOv5o lendário modelo baseado em CNN da Ultralytics , conhecido pela sua versatilidade e adoção generalizada.

Análise de Desempenho: Velocidade vs. Precisão

A diferença fundamental entre estes dois modelos reside na sua filosofia arquitetónica. O RTDETRv2 emprega uma abordagem de Transformador de Visão (ViT) para capturar o contexto global, com o objetivo de obter a máxima precisão nos testes de referência. Em contraste, YOLOv5 utiliza um design de Rede Neural Convolucional (CNN) altamente optimizado, dando prioridade a um equilíbrio entre velocidade, eficiência e facilidade de implementação em hardware diverso.

O quadro seguinte ilustra esta distinção. Embora o RTDETRv2 atinja elevadas pontuações mAP no conjunto de dadosCOCO , exige significativamente mais recursos computacionais. YOLOv5, particularmente nas suas variantes mais pequenas (Nano e Small), oferece velocidades de inferência drasticamente mais rápidas - especialmente em CPUs - e um espaço de memória muito menor, tornando-o a escolha prática para aplicações do mundo real.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Eficiência da memória

YOLOv5 requer significativamente menos memória CUDA para treinamento em comparação com modelos baseados em transformadores como o RTDETRv2. Essa menor barreira de entrada permite que os desenvolvedores treinem modelos personalizados em GPUs de consumo padrão ou até mesmo em ambientes baseados em nuvem, como o Google Colab, sem erros de memória ociosa (OOM).

RTDETRv2: O Desafiador de Transformadores

O RTDETRv2 (Real-Time Detection Transformer v2) representa um esforço para trazer os benefícios de precisão dos transformadores para cenários em tempo real. Ao utilizar uma arquitetura híbrida, tenta atenuar os elevados custos computacionais normalmente associados aos transformadores de visão.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização: Baidu
Data: 2023-04-17
Arxiv:2304.08069
GitHub:RepositórioRT-DETR
Documentos:Documentação RTDETRv2

Arquitetura e pontos fortes

O RTDETRv2 combina um backbone CNN para extração eficiente de caraterísticas com um codificador-descodificador transformador. Esta conceção permite que o modelo utilize mecanismos de auto-atenção para compreender as relações globais entre objectos, o que pode ser benéfico em cenas complexas com oclusão ou aglomeração. O seu principal ponto forte é a sua elevada precisão em benchmarks académicos, onde muitas vezes supera os modelos baseados em CNN de escala semelhante em métricas mAP puras.

Fraquezas

Apesar da sua exatidão, o RTDETRv2 enfrenta desafios em termos de versatilidade e facilidade de utilização. A arquitetura do transformador é inerentemente mais pesada, o que leva a tempos de treino mais lentos e a um maior consumo de memória. Além disso, o seu ecossistema está essencialmente centrado na investigação, não possuindo as ferramentas extensivas, o suporte de implementação e os recursos da comunidade encontrados em estruturas mais maduras. Também está limitado principalmente à deteção de objectos, enquanto os projectos modernos requerem frequentemente segmentação ou classificação no mesmo pipeline.

Saiba mais sobre o RTDETRv2.

Ultralytics YOLOv5: O padrão versátil

YOLOv5 é amplamente considerado como um dos modelos de visão computacional mais práticos e fáceis de utilizar disponíveis. Criado pela Ultralytics, dá prioridade a uma experiência simplificada de "formação, implementação e conclusão", tornando a IA avançada acessível a todos, desde amadores a engenheiros empresariais.

Autores: Glenn Jocher
Organização:Ultralytics
Data: 2020-06-26
GitHub:RepositórioYOLOv5
Documentos:DocumentaçãoYOLOv5

Porque é que YOLOv5 se destaca

YOLOv5 destaca-se pela sua abordagem holística às operações de aprendizagem automática (MLOps). Não se trata apenas de uma arquitetura de modelo, mas de um ecossistema completo.

Facilidade de utilização: Com uma API Python simples e uma interface de linha de comandos, os utilizadores podem começar a treinar em dados personalizados em minutos.
Equilíbrio de desempenho: A família de modelos (do Nano ao X-Large) oferece um gradiente perfeito de velocidade e precisão, permitindo aos utilizadores adaptar a sua escolha a hardware específico, como o NVIDIA Jetson ou o Raspberry Pi.
Versatilidade: Ao contrário do RTDETRv2, YOLOv5 suporta nativamente várias tarefas, incluindo a classificação de imagens e a segmentação de instâncias, reduzindo a necessidade de manter bases de código separadas para diferentes tarefas de visão.
Exportabilidade: Ultralytics oferece suporte integrado para exportação para ONNXTensorRT, CoreML e TFLite, garantindo que os modelos possam ser implantados em qualquer lugar, desde aplicativos móveis até servidores em nuvem.

Saiba mais sobre o YOLOv5.

Exemplo de Uso

YOLOv5 foi concebido para ser simples. Abaixo está um exemplo de como carregar um modelo pré-treinado e executar a inferência usando o PyTorch Hub, demonstrando a API intuitiva pela qual Ultralytics é conhecido.

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Define an image URL
img = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img)

# Print results to the console
results.print()

# Show the image with bounding boxes
results.show()

Comparação entre formação e ecossistema

A experiência do programador é muitas vezes tão importante como o desempenho bruto do modelo. Aqui, as diferenças são gritantes.

Eficiência da formação

YOLOv5 utiliza detectores baseados em âncoras que são computacionalmente eficientes para treinar. A estrutura Ultralytics inclui "bag-of-freebies", como o aumento do mosaico e a evolução da âncora automática, que ajudam os modelos a convergir mais rapidamente e a generalizar melhor com menos dados. Por outro lado, o treino do RTDETRv2 consome mais recursos devido à complexidade quadrática das camadas de atenção do transformador, exigindo frequentemente GPUs topo de gama com VRAM substancial.

Apoio ao ecossistema

O EcossistemaUltralytics oferece uma vantagem distinta. Os utilizadores beneficiam de:

Desenvolvimento ativo: Actualizações frequentes garantem a compatibilidade com as versões mais recentes do PyTorch e CUDA.
Suporte da comunidade: Uma comunidade enorme no GitHub e no Discord ajuda a solucionar problemas rapidamente.
Ferramentas integradas: A integração perfeita com ferramentas como o Ultralytics HUB permite o treinamento de modelos sem código, o gerenciamento de conjuntos de dados e a implantação com um clique.

O RTDETRv2, embora tecnicamente impressionante, não possui este nível de infraestrutura envolvente, o que torna mais difícil a sua integração em condutas de produção.

Casos de Uso Ideais

A escolha do modelo certo depende das suas limitações e objectivos específicos.

Quando escolher RTDETRv2

Investigação académica: Se o seu objetivo é aumentar os números mAP topo de gama em conjuntos de dados como o COCO e tem acesso a GPUs emblemáticas (por exemplo, A100s).
Contexto complexo: Em cenários em que a compreensão da relação entre objectos distantes é mais importante do que a velocidade de inferência ou o custo do hardware.

Quando escolher YOLOv5

Implantação na borda: Para aplicações em dispositivos móveis, drones ou sistemas incorporados em que a velocidade CPU e a eficiência energética são fundamentais.
Produção em tempo real: Alimentação de sistemas de alarme de segurança ou monitorização de tráfego em que a baixa latência não é negociável.
Desenvolvimento rápido: As startups e as equipas empresariais que precisam de iterar rapidamente, desde a recolha de dados até ao modelo implementado, vão achar o fluxo de trabalho do YOLOv5 significativamente mais rápido.
Requisitos de várias tarefas: Os projectos que necessitam tanto de deteção como de segmentação podem utilizar uma única estrutura, simplificando a pilha tecnológica.

Procura a tecnologia mais recente?

Embora YOLOv5 continue a ser uma ferramenta poderosa, os programadores que procuram as últimas novidades em termos de desempenho e arquitetura devem consultar o YOLO11. YOLO11 baseia-se no legado do YOLOv5, oferecendo uma precisão ainda maior, velocidades mais rápidas e capacidades alargadas, como a estimativa de pose e a deteção orientada de objectos (OBB).

Conclusão

Tanto o RTDETRv2 como YOLOv5 são ferramentas formidáveis no arsenal do engenheiro de visão computacional. O RTDETRv2 mostra o potencial dos transformadores para deteção de alta precisão, tornando-o um forte concorrente para aplicações de pesquisa pesada com amplos recursos de computação.

No entanto, para a grande maioria das implementações práticas do mundo real, Ultralytics YOLOv5 continua sendo a melhor escolha. Sua incomparável facilidade de uso, maturidade do ecossistema e versatilidade fazem dele a solução ideal para desenvolvedores que precisam de resultados confiáveis e de alta velocidade. Quer esteja a implementar na nuvem ou na periferia, a eficiência e o suporte fornecidos pelo Ultralytics garantem um caminho mais suave do conceito à produção.

Explore Outras Comparações de Modelos

Para o ajudar a tomar a decisão mais informada, explore a comparação destes modelos com outras arquitecturas no terreno: