RTDETRv2 vs. YOLOv5: Uma Comparação Técnica
Selecionar a arquitetura certa para detecção de objetos é uma decisão crucial que afeta tudo, desde os custos de implementação até a experiência do utilizador. Nesta comparação detalhada, exploramos as vantagens e desvantagens entre o RTDETRv2, um transformador em tempo real de última geração da Baidu, e o Ultralytics YOLOv5, o lendário modelo baseado em CNN que estabeleceu o padrão de facilidade de uso e confiabilidade em visão computacional.
Embora o RTDETRv2 introduza inovações empolgantes baseadas em transformadores, YOLOv5 seus sucessores (como o YOLO26, que é o que há de mais moderno) continuam sendo os padrões da indústria em termos de versatilidade, velocidade de implementação e experiência do programador.
Resumo Executivo
RTDETRv2 (Real-Time Detection Transformer v2) é uma evolução da arquitetura DETR, projetada para eliminar a supressão não máxima (NMS) e, ao mesmo tempo, alcançar alta precisão em GPU . É ideal para ambientes de pesquisa e implementações de servidores de ponta, onde a VRAM é abundante.
YOLOv5 (You Only Look Once v5) é uma arquitetura CNN madura e pronta para produção. Conhecida pela sua simplicidade de "instalar e executar", ela se destaca em computação de ponta, treinamento rápido e ampla compatibilidade de hardware. Para desenvolvedores que buscam o que há de mais moderno em velocidade e precisão, Ultralytics recomenda o YOLO26, que combina os benefícios dos transformadores NMS com a velocidade do YOLO.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Arquitetura e Design
A diferença fundamental reside na forma como estes modelos processam a informação visual: Transformadores vs. Redes Neurais Convolucionais (CNNs).
RTDETRv2: A Abordagem Transformer
Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização:Baidu
Data: 17/04/2023 ( RT-DETR original), 2024 (v2)
Links:ArXiv | GitHub
O RTDETRv2 emprega uma arquitetura híbrida de codificador-decodificador. Ele usa uma espinha dorsal CNN (geralmente ResNet ou HGNetv2) para extrair recursos, que são então processados por um codificador transformador eficiente. A principal inovação é o Codificador Híbrido, que separa a interação intraescala e a fusão entre escalas para reduzir os custos computacionais.
A característica mais notável é a sua previsãoNMS. Ao utilizar correspondência bipartida durante o treino, o modelo aprende a produzir exatamente uma caixa por objeto, eliminando a necessidade de etapas de pós-processamento, como a supressão não máxima (NMS). No entanto, isso tem o custo de um maior consumo de memória e uma convergência de treino mais lenta em comparação com as CNNs puras.
YOLOv5: O padrão CNN
Autor: Glenn Jocher
Organização:Ultralytics
Data: 26/06/2020
Links:Documentos | GitHub
YOLOv5 uma arquitetura CNN altamente otimizada baseada na espinha dorsal CSPNet e um pescoço PANet. Este design prioriza o fluxo de gradiente e a reutilização de recursos, resultando num modelo excepcionalmente leve e rápido. Ao contrário dos transformadores, que requerem conjuntos de dados massivos para aprender o contexto global, o viés indutivo YOLOv5 permite que ele aprenda efetivamente a partir de conjuntos de dados menores com significativamente menos computação.
A evolução: YOLO26
Enquanto YOLOv5 do NMS, o novo Ultralytics adota um design End-to-End NMS semelhante ao RTDETRv2, mas mantém a velocidade e a eficiência de treino da YOLO . Ele também introduz o MuSGD Optimizer, acelerando significativamente a convergência.
Análise de Desempenho
Velocidade de inferência e latência
Ao implementar em produção, a latência costuma ser o gargalo. YOLOv5 em ambientes CPU e dispositivos de ponta. A simplicidade arquitetónica das CNNs mapeia-se eficientemente para processadores padrão e NPUs móveis.
O RTDETRv2 destaca-se em GPUs modernas (como a NVIDIA ou A100), onde as suas operações de multiplicação de matrizes são paralelizadas de forma eficaz. No entanto, em dispositivos de ponta como o Raspberry Pi, as operações do transformador podem ser excessivamente pesadas, levando a um FPS mais baixo em comparação com o YOLOv5n ou o YOLOv5s.
Precisão (mAP)
O RTDETRv2 geralmente alcança uma precisão média (mAP) mais elevada no COCO em comparação com YOLOv5, particularmente para objetos grandes e cenas complexas, onde o contexto global é crucial. Por exemplo, o RTDETRv2-L alcança um mAP 53,4%, superando o YOLOv5x (50,7%) enquanto utiliza menos parâmetros.
No entanto, a precisão não é a única métrica. Em cenários reais envolvendo objetos pequenos ou feeds de vídeo com desfoque de movimento, a diferença diminui. Além disso, Ultralytics mais recentes Ultralytics , como o YOLO11 e YOLO26, reduziram essa diferença, oferecendo precisão comparável ou superior com melhor eficiência.
Eficiência e Ecossistema de Treinamento
É aqui que o Ultralytics oferece uma vantagem distinta.
Ultralytics YOLOv5 YOLO26:
- Convergência rápida: as CNNs normalmente convergem mais rapidamente do que os transformadores. É possível treinar um YOLOv5 utilizável em poucas horas numa única GPU.
- Baixo consumo de memória: O treinamento YOLO significativamente menos VRAM, tornando-o acessível a pesquisadores que utilizam placas de nível consumidor (por exemplo, RTX 3060).
- Aumento de dados: O Ultralytics inclui estratégias de aumento de dados de última geração (Mosaic, MixUp) ativadas por predefinição.
- Integração da plataforma: conecte-se perfeitamente à Ultralytics para gerenciamento de conjuntos de dados, treinamento em nuvem e implementação com um clique.
RTDETRv2:
- Intensivo em recursos: os transformadores são notoriamente ávidos por dados e intensivos em computação durante o treinamento. Estabilizar o mecanismo de atenção geralmente requer cronogramas de treinamento mais longos (muitas vezes mais de 72 épocas para igualar o que YOLO em menos).
- Configuração complexa: como um repositório focado em pesquisa, configurar o RTDETRv2 para conjuntos de dados personalizados geralmente envolve modificar ficheiros de configuração e adaptar carregadores de dados manualmente.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Casos de Uso no Mundo Real
Cenários ideais para YOLOv5 YOLO26
A Ultralytics é o "canivete suíço" da visão computacional, adequado para 90% das aplicações comerciais.
- Edge AI e IoT: Perfeito para NVIDIA ou aplicações móveis onde o consumo de energia e os limites térmicos são restrições rigorosas.
- Fabricação: Utilizado no controlo de qualidade da linha de montagem, onde a inferência deve ocorrer em milésimos de segundo para acompanhar as velocidades de produção.
- Tarefas diversas: Além da detecção, Ultralytics suportam nativamente segmentação de instâncias, estimativa de poses, OBB e classificação.
- Agricultura: Modelos leves como o YOLOv5n são ideais para monitoramento de culturas com drones, funcionando diretamente no hardware do drone.
Cenários Ideais para RTDETRv2
- Vigilância de ponta: câmaras de segurança fixas conectadas a servidores potentes, onde a precisão máxima é preferível à latência de ponta.
- Investigação académica: Exploração de mecanismos de atenção e transformadores de visão.
- Cenas lotadas: O mecanismo de atenção global às vezes consegue lidar melhor com oclusões pesadas do que as CNNs puras, desde que o hardware suporte a carga computacional.
Conclusão
Tanto o RTDETRv2 quanto YOLOv5 marcos significativos na história da detecção de objetos. O RTDETRv2 prova que os transformadores podem operar em tempo real em GPUs de ponta, oferecendo alta precisão e uma arquitetura elegante NMS.
No entanto, para a grande maioria dos desenvolvedores e aplicações comerciais, Ultralytics continuam sendo a escolha superior. A combinação do maduro YOLOv5 e as inovações de ponta do YOLO26 garantem que você tenha a ferramenta certa para qualquer restrição.
Porquê atualizar para o YOLO26? Se estiver a comparar estes modelos para um novo projeto em 2026, recomendamos vivamente o YOLO26. Ele incorpora o melhor dos dois mundos:
- Nativamente ponta a ponta: tal como o RTDETRv2, elimina NMS uma implementação mais simples.
- CPU até 43% mais rápida: otimizada especificamente para a borda, ao contrário dos transformadores pesados.
- Versatilidade de tarefas: suporta deteção, segmentação, pose e OBB numa única estrutura.
Para ler mais sobre outras arquiteturas, explore as nossas comparações entre RT-DETR YOLO11 e YOLOv8 EfficientDet.