YOLOv5 vs. RTDETRv2: Equilíbrio entre velocidade em tempo real e precisão do transformador

No cenário em rápida evolução da visão computacional, a seleção do modelo correto de deteção de objectos é fundamental para o sucesso do projeto. Esta comparação técnica abrangente examina duas abordagens distintas: YOLOv5o lendário detetor baseado em CNN conhecido pela sua versatilidade e velocidade, e o RTDETRv2, um modelo moderno baseado em transformadores que se concentra na elevada precisão.

Enquanto o RTDETRv2 utiliza os Transformadores de Visão (ViT) para captar o contexto global, Ultralytics YOLOv5 continua a ser a melhor escolha para os programadores que necessitam de uma solução robusta, pronta a ser implementada e com poucos recursos.

Especificações e origens do modelo

Antes de nos debruçarmos sobre as métricas de desempenho, é essencial compreender os antecedentes e a filosofia arquitetónica de cada modelo.

Caraterística	Ultralytics YOLOv5	RTDETRv2
Arquitetura	Baseado na CNN (Baseado na âncora)	Híbrido (Backbone CNN + Transformador)
Foco principal	Velocidade em tempo real, versatilidade, facilidade de utilização	Elevada precisão, contexto global
Autores	Glenn Jocher	Wenyu Lv, Yian Zhao, et al.
Organização	Ultralytics	Baidu
Data de lançamento	2020-06-26	2023-04-17
Tarefas	Detetar, segmentar, classificar	Detecção

Saiba mais sobre o YOLOv5.

Filosofia da arquitetura e do design

A diferença fundamental entre estes modelos reside na forma como processam os dados visuais.

Ultralytics YOLOv5

YOLOv5 utiliza uma arquitetura de Rede Neural Convolucional (CNN) altamente optimizada. Utiliza um backbone CSPDarknet modificado e um pescoço Path Aggregation Network (PANet) para extrair mapas de caraterísticas.

Baseado em âncoras: Baseia-se em caixas de ancoragem predefinidas para prever localizações de objectos, o que simplifica o processo de aprendizagem para formas de objectos comuns.
Eficiência: Projetado para velocidade máxima de inferência em uma ampla variedade de hardware, desde dispositivos de ponta como o NVIDIA Jetson até CPUs padrão.
Versatilidade: Suporta várias tarefas, incluindo a segmentação de instâncias e a classificação de imagens numa única estrutura unificada.

RTDETRv2

O RTDETRv2 (Real-Time Detection Transformer v2) representa uma mudança para arquitecturas de transformadores.

Conceção híbrida: Combina um backbone CNN com um codificador-descodificador transformador, utilizando mecanismos de auto-atenção para processar relações entre objectos.
Contexto global: O componente transformador permite que o modelo "veja" toda a imagem de uma só vez, melhorando o desempenho em cenas complexas com oclusão.
Custo computacional: Esta arquitetura sofisticada exige normalmente muito mais memória GPU e potência computacional (FLOPs) em comparação com soluções puramente baseadas em CNN.

Análise de Desempenho

A tabela abaixo fornece uma comparação direta das principais métricas de desempenho. Embora o RTDETRv2 mostre uma precisão impressionantemAP) no conjunto de dadosCOCO , YOLOv5 demonstra velocidades de inferência superiores, particularmente no hardware CPU , onde os transformadores têm frequentemente dificuldades.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Interpretação dos dados

Embora o RTDETRv2 atinja números mAP mais elevados, repare nas colunas Velocidade e FLOPs. O YOLOv5n é executado a 73,6 ms numa CPU, o que o torna viável para aplicações em tempo real em hardware não acelerado. Os modelos RTDETRv2 são significativamente mais pesados, exigindo GPUs poderosas para manter as taxas de quadros em tempo real.

Eficiência de treino e utilização de memória

Uma vantagem crucial do YOLOv5 é a sua eficiência de treino. Os modelos baseados em transformadores, como o RTDETRv2, são conhecidos pelo seu elevado consumo de VRAM e taxas de convergência lentas.

Menor consumo de memória: YOLOv5 pode ser treinado em GPUs de nível de consumidor com memória CUDA modesta, democratizando o acesso ao desenvolvimento de IA.
Convergência mais rápida: Os utilizadores podem frequentemente obter resultados utilizáveis em menos épocas, poupando tempo valioso e custos de computação na nuvem.

Principais pontos fortes do Ultralytics YOLOv5

Para a maioria dos programadores e aplicações comerciais, YOLOv5 oferece um conjunto de vantagens mais equilibrado e prático:

Facilidade de uso incomparável: AAPIPython Ultralytics é o padrão do setor em termos de simplicidade. O carregamento de um modelo, a execução de inferência e o treinamento em dados personalizados podem ser feitos com apenas algumas linhas de código.
Ecossistema rico: Apoiado por uma enorme comunidade de código aberto, YOLOv5 integra-se perfeitamente com o Ultralytics HUB para treinamento sem código, ferramentas MLOps para rastreamento e diversos formatos de exportação, como ONNX e TensorRT.
Flexibilidade de implantação: Desde aplicações móveis iOS e Android até Raspberry Pi e servidores na nuvem, a arquitetura leve do YOLOv5 permite-lhe funcionar onde os modelos de transformadores mais pesados não conseguem.
Versatilidade de tarefas: Ao contrário do RTDETRv2, que é principalmente um detetor de objectos, YOLOv5 suporta classificação e segmentação, reduzindo a necessidade de manter várias bases de código para diferentes tarefas de visão.

Caminho de atualização

Se necessitar de uma precisão ainda maior do que YOLOv5 , mantendo estas vantagens do ecossistema, considere o novo YOLO11. Este incorpora melhorias arquitectónicas modernas para rivalizar ou superar a precisão do transformador com a eficiência que se espera do YOLO.

Comparação de códigos: facilidade de utilização

O exemplo seguinte demonstra a simplicidade da utilização do YOLOv5 com o pacote Ultralytics .

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
for result in results:
    result.show()  # show to screen
    result.save(filename="result.jpg")  # save to disk

Casos de Uso Ideais

Quando escolher o Ultralytics YOLOv5

Computação de ponta: Implementação em dispositivos alimentados por bateria ou com recursos limitados (drones, telemóveis, IoT).
Análise de vídeo em tempo real: Processamento de vários fluxos de vídeo em simultâneo para gestão de tráfego ou segurança.
Prototipagem rápida: Quando é necessário passar do conjunto de dados para o modelo implementado em horas, não em dias.
Requisitos multi-tarefa: Projectos que necessitam tanto de deteção de objectos como de segmentação de imagens.

Quando escolher RTDETRv2

Investigação académica: Comparação com o estado da arte absoluto em conjuntos de dados estáticos em que a velocidade é secundária.
Disponibilidade de GPU de ponta: Ambientes onde GPUs dedicadas de nível de servidor (como NVIDIA A100s) estão disponíveis para treinamento e inferência.
Cenários estáticos complexos: Cenários com oclusão densa em que o mecanismo de auto-atenção proporciona uma vantagem crítica em termos de precisão.

Conclusão

Embora o RTDETRv2 mostre o potencial dos transformadores na visão por computador com valores de precisão impressionantes, tem custos significativos em termos de recursos de hardware e complexidade de formação. Para a grande maioria das aplicações do mundo real, Ultralytics YOLOv5 continua a ser a escolha superior. A sua combinação perfeita de velocidade, precisão e baixa utilização de memória - combinada com um ecossistema de apoio e uma extensa documentação - garanteque os programadores podem criar soluções de IA escaláveis, eficientes e eficazes.

Para quem procura o que há de mais moderno em termos de desempenho sem sacrificar a facilidade de utilização da estrutura Ultralytics , recomendamos vivamente que explore o YOLO11que preenche a lacuna entre a eficiência da CNN e a precisão ao nível do transformador.