Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 vs RTDETRv2#

O panorama da visão computacional expandiu-se significativamente nos últimos anos, oferecendo aos desenvolvedores uma ampla variedade de arquiteturas para lidar com tarefas visuais complexas. Entre os paradigmas mais populares estão as Redes Neurais Convolucionais (CNNs) e os Detection Transformers (DETRs).

Este guia fornece uma comparação técnica detalhada entre dois modelos fundamentais nessas categorias: Ultralytics YOLOv5, um modelo baseado em CNN altamente eficiente e amplamente adotado, e RTDETRv2, um detector de objetos em tempo real baseado em transformer de última geração.

Link to this sectionUltralytics YOLOv5: O Padrão da Indústria para Eficiência#

Desde o seu lançamento, o Ultralytics YOLOv5 tornou-se uma pedra angular da comunidade de IA, impulsionando milhares de aplicações comerciais e projetos de pesquisa globalmente. Construído inteiramente na estrutura PyTorch, ele prioriza uma experiência intuitiva para o desenvolvedor sem comprometer o desempenho em tempo real.

Principais Características:

Link to this sectionArquitetura e Pontos Fortes#

O YOLOv5 utiliza uma arquitetura CNN simplificada, projetada para maximizar a eficiência da extração de características enquanto mantém um uso de memória extremamente baixo. Ele emprega um backbone CSPDarknet e um neck PANet, criando uma combinação poderosa para fusão de características em múltiplas escalas.

Uma das principais vantagens do YOLOv5 é o seu Equilíbrio de Desempenho. Ele atinge uma relação excepcional entre velocidade e precisão, tornando-o uma escolha ideal para implantação de modelos em hardware com recursos limitados, como dispositivos NVIDIA Jetson e smartphones.

Além disso, o YOLOv5 possui uma Versatilidade inigualável. Ao contrário de modelos estritamente limitados a previsões de caixas delimitadoras, o YOLOv5 oferece suporte nativo a classificação de imagens e segmentação de instâncias, fornecendo uma estrutura unificada para tarefas visuais variadas. Sua eficiência de treinamento também é notável, exigindo significativamente menos memória CUDA durante o treinamento em comparação com arquiteturas baseadas em transformer.

Link to this sectionFraquezas#

Por depender de uma estrutura CNN mais antiga, o YOLOv5 depende inerentemente da Supressão Não Máxima (NMS) durante o pós-processamento para eliminar caixas delimitadoras duplicadas. Embora altamente otimizado dentro da estrutura Ultralytics, o NMS pode ocasionalmente introduzir gargalos de latência em NPUs de borda especializadas.

Saiba mais sobre o YOLOv5

Link to this sectionRTDETRv2: Transformers de Tempo Real da Baidu#

O RTDETRv2 (Real-Time Detection Transformer v2) representa um salto substancial na aplicação de arquiteturas transformer para detecção de objetos em tempo real, abordando as ineficiências computacionais que historicamente afetavam os DETRs padrão.

Principais Características:

Link to this sectionArquitetura e Pontos Fortes#

O RTDETRv2 baseia-se em seu antecessor utilizando um encoder híbrido e um design de decoder flexível para processar imagens. O mecanismo de self-attention do transformer fornece ao modelo uma compreensão global do contexto da imagem, permitindo que ele tenha um desempenho excepcionalmente bom em cenas complexas com oclusão severa de objetos.

Uma característica definidora do RTDETRv2 é o seu design end-to-end e sem NMS. Ao prever queries de objetos diretamente sem precisar de anchor boxes ou pós-processamento de NMS, ele simplifica o pipeline de inferência. Essa arquitetura atinge um impressionante mAP (mean Average Precision) em datasets de referência como o COCO.

Link to this sectionFraquezas#

Apesar de suas capacidades em tempo real, o RTDETRv2 possui requisitos de memória notavelmente mais altos em comparação com os modelos YOLO. Os mecanismos de atenção em transformers escalam quadraticamente com o comprimento da sequência, o que pode levar a erros de falta de memória durante o treinamento em alta resolução, a menos que sejam usados clusters massivos de GPU. Além disso, falta-lhe a versatilidade pronta para uso do ecossistema Ultralytics, focando principalmente apenas na detecção de objetos 2D, sem suporte nativo para segmentação ou estimativa de pose.

Sabe mais sobre o RTDETR

Link to this sectionTabela de Comparação de Desempenho#

Para avaliar objetivamente essas arquiteturas, compilamos suas métricas de desempenho. Os valores destacados em negrito representam as métricas mais eficientes ou de maior desempenho nas escalas testadas.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Contexto de Desempenho

Embora o RTDETRv2-x alcance o mAP absoluto mais alto, ele requer quase 30 vezes mais parâmetros que o YOLOv5n. Para aplicações de alta velocidade executadas em hardware limitado, os modelos Ultralytics oferecem consistentemente a melhor eficiência computacional.

Link to this sectionA Vantagem do Ecossistema Ultralytics#

Ao mover um modelo de um notebook de pesquisa para um ambiente de produção, o software que envolve o modelo é tão importante quanto a arquitetura da rede neural. O Ecossistema Bem Mantido fornecido pela Ultralytics acelera drasticamente o ciclo de vida de desenvolvimento.

Link to this sectionFacilidade de Uso Inigualável#

Os modelos Ultralytics priorizam uma experiência de usuário incrivelmente simplificada. Quer você queira treinar um modelo personalizado, executar validação ou exportar para formatos específicos de hardware, como TensorRT ou ONNX, a API Python da Ultralytics torna isso possível com apenas algumas linhas de código.

Aqui está um exemplo de código prático que demonstra como é simples treinar e executar a inferência com um modelo Ultralytics:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

Esta API simples e unificada oferece suporte nativo a integrações de rastreamento de experimentos com ferramentas como Weights & Biases e Comet, permitindo que os desenvolvedores registrem métricas perfeitamente sem escrever código boilerplate complexo.

Link to this sectionCasos de uso e recomendações#

Escolher entre o YOLOv5 e o RT-DETR depende dos requisitos específicos do seu projeto, das restrições de implantação e das preferências de ecossistema.

Link to this sectionQuando escolher o YOLOv5#

O YOLOv5 é uma escolha forte para:

  • Sistemas de Produção Comprovados: Implantações existentes onde o longo histórico de estabilidade, documentação extensa e enorme suporte da comunidade do YOLOv5 são valorizados.
  • Treinamento com Recursos Limitados: Ambientes com recursos de GPU limitados onde o pipeline de treinamento eficiente e os menores requisitos de memória do YOLOv5 são vantajosos.
  • Amplo Suporte a Formatos de Exportação: Projetos que exigem implantação em muitos formatos, incluindo ONNX, TensorRT, CoreML e TFLite.

Link to this sectionQuando escolher o RT-DETR#

O RT-DETR é recomendado para:

  • Pesquisa de detecção baseada em Transformer: Projetos que exploram mecanismos de atenção e arquiteturas de transformer para detecção de objetos ponta a ponta sem NMS.
  • Cenários de alta precisão com latência flexível: Aplicações onde a precisão da detecção é a prioridade máxima e uma latência de inferência ligeiramente maior é aceitável.
  • Detecção de objetos grandes: Cenas com objetos predominantemente de médios a grandes onde o mecanismo de atenção global dos transformers oferece uma vantagem natural.

Link to this sectionQuando escolher a Ultralytics (YOLO26)#

Para a maioria dos novos projetos, o Ultralytics YOLO26 oferece a melhor combinação de desempenho e experiência para o desenvolvedor:

  • Implantação de borda sem NMS: Aplicações que requerem inferência consistente e de baixa latência sem a complexidade do pós-processamento de Supressão de Não-Máximos.
  • Ambientes apenas com CPU: Dispositivos sem aceleração de GPU dedicada, onde a inferência em CPU até 43% mais rápida do YOLO26 oferece uma vantagem decisiva.
  • Detecção de objetos pequenos: Cenários desafiadores como imagens de drone aéreo ou análise de sensores IoT onde ProgLoss e STAL aumentam significativamente a precisão em objetos minúsculos.

Link to this sectionOlhando para o Futuro: YOLO11 e YOLO26#

Se você está começando um novo projeto de visão hoje, é altamente recomendável explorar as gerações mais recentes dos modelos Ultralytics.

Embora o YOLOv5 permaneça incrivelmente confiável, o YOLO11 oferece precisão aprimorada e um conjunto expandido de tarefas, incluindo detecção de Caixa Delimitadora Orientada (OBB).

Ainda mais significativamente, o YOLO26 de ponta combina o melhor dos dois mundos. Ele implementa um Design End-to-End Sem NMS (pioneiro no YOLOv10), eliminando a sobrecarga de pós-processamento enquanto mantém a eficiência de uma CNN. O YOLO26 também introduz o Otimizador MuSGD, inspirado em inovações de treinamento de LLMs, para uma convergência mais rápida. Com a Remoção de DFL (Distribution Focal Loss removida para exportação simplificada e melhor compatibilidade com dispositivos de borda/baixa potência), o YOLO26 oferece Inferência de CPU até 43% mais rápida, tornando-o a melhor escolha absoluta para IA de borda. Além disso, o ProgLoss + STAL fornece funções de perda aprimoradas com melhorias notáveis no reconhecimento de pequenos objetos, crítico para IoT, robótica e imagens aéreas.

Link to this sectionConclusão#

Escolher entre o YOLOv5 e o RTDETRv2 depende muito das suas restrições de implantação. O RTDETRv2 estende os limites do mAP utilizando poderosos mecanismos de atenção transformer, mas vem com um custo alto em memória e sobrecarga computacional.

Por outro lado, o Ultralytics YOLOv5 oferece uma solução comprovada, altamente otimizada e versátil que roda perfeitamente em qualquer lugar—desde servidores em nuvem até microcontroladores. Para equipes que buscam a maior precisão possível juntamente com ferramentas de implantação perfeitas, atualizar dentro do ecossistema Ultralytics para o YOLO26 fornece a solução definitiva de última geração para aplicações modernas de IA de visão.

Comentários