RTDETRv2 vs. YOLO: Um mergulho profundo na deteção de objectos em tempo real

O panorama da visão computacional está a evoluir rapidamente, com os investigadores a ultrapassarem constantemente os limites entre a velocidade de inferência e a precisão da deteção. Dois concorrentes proeminentes nesta área são o RTDETRv2, um modelo baseado em transformadores do Baidu, e o YOLO, uma rede convolucional altamente optimizada do Alibaba. Esta comparação técnica explora as filosofias arquitectónicas distintas destes modelos, as suas métricas de desempenho e os cenários de aplicação ideais.

Referências de desempenho: Velocidade vs. Precisão

Ao selecionar um modelo de deteção de objectos, o principal compromisso reside normalmente entre a precisão médiamAP) e a latência. Os dados seguintes destacam as diferenças de desempenho entre RTDETRv2 e YOLO no conjunto de dados de validação COCO .

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Os dados revelam uma clara distinção na filosofia de design. O YOLO dá prioridade à velocidade e eficiência brutas, com a variante 'Tiny' a atingir uma latência excecionalmente baixa, adequada para ambientes de computação de ponta com restrições. Por outro lado, o RTDETRv2 procura a máxima precisão, com a sua maior variante a atingir uns notáveis 54,3 mAP, o que o torna superior para tarefas em que a precisão é fundamental.

RTDETRv2: A potência do transformador

O RTDETRv2 baseia-se no sucesso da arquitetura do Transformador de Deteção (DETR), abordando o elevado custo computacional tipicamente associado aos transformadores de visão, mantendo a sua capacidade de captar o contexto global.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização:Baidu
Data: 2023-04-17 (Inicial), 2024-07-24 (Atualização da v2)
Arxiv:RT-DETRv2: Melhoria da linha de base com Bag-of-Freebies
GitHub:RepositórioRT-DETRv2

Arquitetura e capacidades

O RTDETRv2 utiliza um codificador híbrido que processa eficazmente caraterísticas multi-escala. Ao contrário dos modelos YOLO tradicionais baseados em CNN, o RTDETR elimina a necessidade de pós-processamento de Supressão Não Máxima (NMS). Essa abordagem de ponta a ponta simplifica o pipeline de implantação e reduz a variabilidade de latência em cenas lotadas.

O modelo utiliza um codificador híbrido eficiente que dissocia a interação intra-escala e a fusão inter-escala, reduzindo significativamente a sobrecarga computacional em comparação com os modelos DETR padrão. Esta conceção permite-lhe ser excelente na identificação de objectos em ambientes complexos onde a oclusão pode confundir os detectores convolucionais normais.

Utilização da memória do transformador

Embora o RTDETRv2 ofereça uma elevada precisão, é importante notar que as arquitecturas Transformer geralmente consomem significativamente mais memória CUDA durante o treino em comparação com as CNNs. Os utilizadores com VRAM de GPU limitada podem considerar o treino destes modelos um desafio em comparação com alternativas eficientes como o YOLO11.

Saiba mais sobre o RTDETR

YOLO: Optimizado para a eficiência

O YOLO representa uma abordagem rigorosa à otimização da arquitetura, tirando partido da Pesquisa de Arquitetura Neural (NAS) para encontrar as estruturas mais eficientes para a extração e fusão de caraterísticas.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Grupo Alibaba
Data: 2022-11-23
Arxiv:YOLO: Um relatório sobre o projeto de deteção de objectos em tempo real
GitHub:Repositório YOLO

Principais inovações arquitectónicas

A YOLO integra várias tecnologias avançadas para maximizar a relação velocidade-precisão:

Backbone MAE-NAS: Utiliza um backbone descoberto através da Pesquisa de Arquitetura Neural Eficiente Consciente de Métodos, assegurando que cada parâmetro contribui eficazmente para a extração de caraterísticas.
RepGFPN: Um design de pescoço especializado que funde caraterísticas em várias escalas com um custo computacional mínimo, melhorando a deteção de pequenos objectos sem prejudicar as velocidades de inferência.
ZeroHead: Uma cabeça de deteção simplificada que reduz a complexidade das camadas de previsão finais.

Este modelo é particularmente forte em cenários que exigem um elevado rendimento, como as linhas de montagem industriais ou a monitorização do tráfego a alta velocidade, onde os milissegundos contam.

Saiba mais sobre o DAMO-YOLO.

Cenários de aplicação no mundo real

A escolha entre estes dois modelos depende frequentemente dos condicionalismos específicos do ambiente de implementação.

Quando escolher RTDETRv2

O RTDETRv2 é a escolha preferida para aplicações em que a precisão não é negociável e os recursos de hardware são amplos.

Imagiologia médica: Na análise de imagens médicas, falhar uma deteção (falso negativo) pode ter consequências graves. O elevado mAP do RTDETRv2 torna-o adequado para a deteção de anomalias em radiografias ou exames de ressonância magnética.
Vigilância pormenorizada: Para sistemas de segurança que requerem reconhecimento facial ou identificação de pequenos detalhes à distância, as capacidades de contexto global da arquitetura do transformador proporcionam uma vantagem distinta.

Quando escolher YOLO

O YOLO destaca-se em ambientes com recursos limitados ou em aplicações que requerem uma latência ultra-baixa.

Robótica: Para robôs móveis autónomos que processam dados visuais em dispositivos incorporados alimentados por bateria, a eficiência da YOLO garante uma capacidade de resposta em tempo real.
Fabrico a alta velocidade: Na automatização do fabrico, a deteção de defeitos em correias transportadoras de movimento rápido requer as rápidas velocidades de inferência proporcionadas pelas variantes YOLO e small.

A vantagem Ultralytics : Porque é que YOLO11 é a escolha ideal

Embora o RTDETRv2 e o YOLO ofereçam caraterísticas interessantes, Ultralytics YOLO11 fornece uma solução holística que equilibra desempenho, usabilidade e suporte de ecossistema, tornando-o a escolha superior para a maioria dos programadores e investigadores.

Ecossistema e usabilidade inigualáveis

Uma das barreiras mais significativas à adoção de modelos de investigação é a complexidade da sua base de código. Ultralytics elimina esse atrito com uma API Python unificada e fácil de usar. Quer esteja a realizar segmentação de instâncias, estimativa de pose ou classificação, o fluxo de trabalho permanece consistente e intuitivo.

from ultralytics import YOLO

# Load a model (YOLO11 offers various sizes: n, s, m, l, x)
model = YOLO("yolo11n.pt")

# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Versatilidade em todas as tarefas

Ao contrário do YOLO, que se centra principalmente na deteção, YOLO11 é uma plataforma versátil. Suporta uma vasta gama de tarefas de visão computacional, incluindo a deteção de Oriented Bounding Box (OBB), que é crucial para imagens aéreas e análise de documentos. Esta versatilidade permite às equipas padronizar uma única estrutura para vários requisitos de projeto.

Eficiência de treino e gestão de memória

YOLO11 foi concebido para ser eficiente. Normalmente, requer menos memória GPU (VRAM) para treinamento em comparação com modelos baseados em transformadores, como o RTDETRv2. Essa eficiência reduz a barreira de hardware, permitindo que os desenvolvedores treinem modelos de última geração em GPUs de nível de consumidor ou utilizem efetivamente recursos de nuvem por meio do ecossistemaUltralytics . Além disso, a extensa biblioteca de pesos pré-treinados garante que a aprendizagem por transferência seja rápida e eficaz, reduzindo significativamente o tempo de colocação no mercado das soluções de IA.

Para quem procura uma solução robusta, bem mantida e de elevado desempenho que evolui com a indústria, Ultralytics YOLO11 continua a ser o padrão recomendado.

Explore Outras Comparações

Para compreender melhor como estes modelos se enquadram no panorama mais vasto da visão por computador, explore estas comparações relacionadas: