Ir para o conteúdo

RTDETRv2 vs. YOLOv5: Uma Comparação Técnica

Selecionar a arquitetura certa para detecção de objetos é uma decisão crucial que afeta tudo, desde os custos de implementação até a experiência do utilizador. Nesta comparação detalhada, exploramos as vantagens e desvantagens entre o RTDETRv2, um transformador em tempo real de última geração da Baidu, e o Ultralytics YOLOv5, o lendário modelo baseado em CNN que estabeleceu o padrão de facilidade de uso e confiabilidade em visão computacional.

Embora o RTDETRv2 introduza inovações empolgantes baseadas em transformadores, YOLOv5 seus sucessores (como o YOLO26, que é o que há de mais moderno) continuam sendo os padrões da indústria em termos de versatilidade, velocidade de implementação e experiência do programador.

Resumo Executivo

RTDETRv2 (Real-Time Detection Transformer v2) é uma evolução da arquitetura DETR, projetada para eliminar a supressão não máxima (NMS) e, ao mesmo tempo, alcançar alta precisão em GPU . É ideal para ambientes de pesquisa e implementações de servidores de ponta, onde a VRAM é abundante.

YOLOv5 (You Only Look Once v5) é uma arquitetura CNN madura e pronta para produção. Conhecida pela sua simplicidade de "instalar e executar", ela se destaca em computação de ponta, treinamento rápido e ampla compatibilidade de hardware. Para desenvolvedores que buscam o que há de mais moderno em velocidade e precisão, Ultralytics recomenda o YOLO26, que combina os benefícios dos transformadores NMS com a velocidade do YOLO.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Arquitetura e Design

A diferença fundamental reside na forma como estes modelos processam a informação visual: Transformadores vs. Redes Neurais Convolucionais (CNNs).

RTDETRv2: A Abordagem Transformer

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização:Baidu
Data: 17/04/2023 ( RT-DETR original), 2024 (v2)
Links:ArXiv | GitHub

O RTDETRv2 emprega uma arquitetura híbrida de codificador-decodificador. Ele usa uma espinha dorsal CNN (geralmente ResNet ou HGNetv2) para extrair recursos, que são então processados por um codificador transformador eficiente. A principal inovação é o Codificador Híbrido, que separa a interação intraescala e a fusão entre escalas para reduzir os custos computacionais.

A característica mais notável é a sua previsãoNMS. Ao utilizar correspondência bipartida durante o treino, o modelo aprende a produzir exatamente uma caixa por objeto, eliminando a necessidade de etapas de pós-processamento, como a supressão não máxima (NMS). No entanto, isso tem o custo de um maior consumo de memória e uma convergência de treino mais lenta em comparação com as CNNs puras.

YOLOv5: O padrão CNN

Autor: Glenn Jocher
Organização:Ultralytics
Data: 26/06/2020
Links:Documentos | GitHub

YOLOv5 uma arquitetura CNN altamente otimizada baseada na espinha dorsal CSPNet e um pescoço PANet. Este design prioriza o fluxo de gradiente e a reutilização de recursos, resultando num modelo excepcionalmente leve e rápido. Ao contrário dos transformadores, que requerem conjuntos de dados massivos para aprender o contexto global, o viés indutivo YOLOv5 permite que ele aprenda efetivamente a partir de conjuntos de dados menores com significativamente menos computação.

Saiba mais sobre o YOLOv5

A evolução: YOLO26

Enquanto YOLOv5 do NMS, o novo Ultralytics adota um design End-to-End NMS semelhante ao RTDETRv2, mas mantém a velocidade e a eficiência de treino da YOLO . Ele também introduz o MuSGD Optimizer, acelerando significativamente a convergência.

Análise de Desempenho

Velocidade de inferência e latência

Ao implementar em produção, a latência costuma ser o gargalo. YOLOv5 em ambientes CPU e dispositivos de ponta. A simplicidade arquitetónica das CNNs mapeia-se eficientemente para processadores padrão e NPUs móveis.

O RTDETRv2 destaca-se em GPUs modernas (como a NVIDIA ou A100), onde as suas operações de multiplicação de matrizes são paralelizadas de forma eficaz. No entanto, em dispositivos de ponta como o Raspberry Pi, as operações do transformador podem ser excessivamente pesadas, levando a um FPS mais baixo em comparação com o YOLOv5n ou o YOLOv5s.

Precisão (mAP)

O RTDETRv2 geralmente alcança uma precisão média (mAP) mais elevada no COCO em comparação com YOLOv5, particularmente para objetos grandes e cenas complexas, onde o contexto global é crucial. Por exemplo, o RTDETRv2-L alcança um mAP 53,4%, superando o YOLOv5x (50,7%) enquanto utiliza menos parâmetros.

No entanto, a precisão não é a única métrica. Em cenários reais envolvendo objetos pequenos ou feeds de vídeo com desfoque de movimento, a diferença diminui. Além disso, Ultralytics mais recentes Ultralytics , como o YOLO11 e YOLO26, reduziram essa diferença, oferecendo precisão comparável ou superior com melhor eficiência.

Eficiência e Ecossistema de Treinamento

É aqui que o Ultralytics oferece uma vantagem distinta.

Ultralytics YOLOv5 YOLO26:

  • Convergência rápida: as CNNs normalmente convergem mais rapidamente do que os transformadores. É possível treinar um YOLOv5 utilizável em poucas horas numa única GPU.
  • Baixo consumo de memória: O treinamento YOLO significativamente menos VRAM, tornando-o acessível a pesquisadores que utilizam placas de nível consumidor (por exemplo, RTX 3060).
  • Aumento de dados: O Ultralytics inclui estratégias de aumento de dados de última geração (Mosaic, MixUp) ativadas por predefinição.
  • Integração da plataforma: conecte-se perfeitamente à Ultralytics para gerenciamento de conjuntos de dados, treinamento em nuvem e implementação com um clique.

RTDETRv2:

  • Intensivo em recursos: os transformadores são notoriamente ávidos por dados e intensivos em computação durante o treinamento. Estabilizar o mecanismo de atenção geralmente requer cronogramas de treinamento mais longos (muitas vezes mais de 72 épocas para igualar o que YOLO em menos).
  • Configuração complexa: como um repositório focado em pesquisa, configurar o RTDETRv2 para conjuntos de dados personalizados geralmente envolve modificar ficheiros de configuração e adaptar carregadores de dados manualmente.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Casos de Uso no Mundo Real

Cenários ideais para YOLOv5 YOLO26

A Ultralytics é o "canivete suíço" da visão computacional, adequado para 90% das aplicações comerciais.

Cenários Ideais para RTDETRv2

  • Vigilância de ponta: câmaras de segurança fixas conectadas a servidores potentes, onde a precisão máxima é preferível à latência de ponta.
  • Investigação académica: Exploração de mecanismos de atenção e transformadores de visão.
  • Cenas lotadas: O mecanismo de atenção global às vezes consegue lidar melhor com oclusões pesadas do que as CNNs puras, desde que o hardware suporte a carga computacional.

Conclusão

Tanto o RTDETRv2 quanto YOLOv5 marcos significativos na história da detecção de objetos. O RTDETRv2 prova que os transformadores podem operar em tempo real em GPUs de ponta, oferecendo alta precisão e uma arquitetura elegante NMS.

No entanto, para a grande maioria dos desenvolvedores e aplicações comerciais, Ultralytics continuam sendo a escolha superior. A combinação do maduro YOLOv5 e as inovações de ponta do YOLO26 garantem que você tenha a ferramenta certa para qualquer restrição.

Porquê atualizar para o YOLO26? Se estiver a comparar estes modelos para um novo projeto em 2026, recomendamos vivamente o YOLO26. Ele incorpora o melhor dos dois mundos:

  1. Nativamente ponta a ponta: tal como o RTDETRv2, elimina NMS uma implementação mais simples.
  2. CPU até 43% mais rápida: otimizada especificamente para a borda, ao contrário dos transformadores pesados.
  3. Versatilidade de tarefas: suporta deteção, segmentação, pose e OBB numa única estrutura.

Saiba mais sobre YOLO26

Para ler mais sobre outras arquiteturas, explore as nossas comparações entre RT-DETR YOLO11 e YOLOv8 EfficientDet.


Comentários