YOLO11 vs RTDETRv2: Uma Comparação Técnica de Detectores em Tempo Real

A seleção da arquitetura ideal de deteção de objectos exige a navegação num cenário complexo de compromissos entre a velocidade de inferência, a precisão da deteção e a eficiência dos recursos computacionais. Esta análise fornece uma comparação técnica exaustiva entre Ultralytics YOLO11a última iteração do detetor baseado em CNN, padrão da indústria, e o RTDETRv2, um transformador de deteção em tempo real de alto desempenho.

Enquanto o RTDETRv2 demonstra o potencial das arquitecturas de transformadores para tarefas de elevada precisão, YOLO11 oferece normalmente um equilíbrio superior para a implementação prática, proporcionando velocidades de inferência mais rápidas, uma pegada de memória significativamente menor e um ecossistema de programadores mais robusto.

Ultralytics YOLO11: O padrão para visão computacional em tempo real

Ultralytics YOLO11 representa o culminar de anos de investigação em Redes Neuronais Convolucionais (CNNs) eficientes. Concebida para ser a ferramenta definitiva para aplicações de visão computacional do mundo real, dá prioridade à eficiência sem comprometer a precisão do estado da arte.

Autores: Glenn Jocher, Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11

Arquitetura e pontos fortes

YOLO11 utiliza uma arquitetura refinada de fase única e sem âncoras. Integra módulos avançados de extração de caraterísticas, incluindo blocos C3k2 optimizados e módulos SPPF (Spatial Pyramid Pooling - Fast), para captar caraterísticas a várias escalas.

Versatilidade: Ao contrário de muitos modelos especializados, YOLO11 suporta uma vasta gama de tarefas de visão computacional numa única estrutura, incluindo deteção de objectos, segmentação de instâncias, estimativa de pose, caixas delimitadoras orientadas (OBB) e classificação de imagens.
Eficiência de memória: YOLO11 foi concebido para funcionar eficientemente em hardware que vai desde dispositivos de ponta incorporados a servidores de nível empresarial. Ele requer significativamente menos memória CUDA durante o treinamento em comparação com alternativas baseadas em transformadores.
Integração do ecossistema: O modelo é apoiado pelo ecossistemaUltralytics , fornecendo acesso contínuo a ferramentas como o Ultralytics HUB para gestão de modelos e o Ultralytics Explorer para análise de conjuntos de dados.

Saiba mais sobre o YOLO11.

RTDETRv2: Precisão alimentada por transformador

O RTDETRv2 é um Transformador de Deteção em Tempo RealRT-DETR) que aproveita o poder dos Transformadores de Visão (ViT) para alcançar uma elevada precisão em conjuntos de dados de referência. O seu objetivo é resolver os problemas de latência tradicionalmente associados aos modelos do tipo DETR.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização: Baidu
Data: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
DocsRT-DETR

Arquitetura e caraterísticas

O RTDETRv2 utiliza uma arquitetura híbrida que combina um backbone CNN com um codificador-descodificador transformador eficiente. O mecanismo de auto-atenção permite que o modelo capture o contexto global, o que é benéfico para cenas com relações complexas entre objectos.

Contexto global: A arquitetura do transformador é excelente para distinguir objectos em ambientes com muita gente, onde as caraterísticas locais podem ser ambíguas.
Intensidade de recursos: Embora optimizadas para velocidade, as camadas transformadoras requerem inerentemente mais computação e memória, particularmente para entradas de alta resolução.
Foco: O RTDETRv2 é essencialmente uma arquitetura centrada na deteção, não possuindo o suporte nativo de multitarefas encontrado na família YOLO .

Saiba mais sobre o RTDETRv2.

Análise de Desempenho: Velocidade, Precisão e Eficiência

Ao comparar YOLO11 e o RTDETRv2, a distinção reside no compromisso arquitetónico entre métricas de precisão pura e eficiência operacional.

Considerações sobre o hardware

Os modelos baseados em transformadores, como o RTDETRv2, requerem frequentemente GPUs potentes para uma formação e inferência eficazes. Em contrapartida, os modelos baseados em CNN, como o YOLO11 , são altamente optimizados para uma gama mais vasta de hardware, incluindo CPUs e dispositivos de IA de ponta, como o Raspberry Pi.

Comparação quantitativa

A tabela abaixo ilustra as métricas de desempenho no conjunto de dadosCOCO . Enquanto o RTDETRv2 apresenta fortes pontuações mAP , YOLO11 fornece precisão competitiva com velocidades de inferência significativamente mais rápidas, especialmente na CPU.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Análise dos resultados

Velocidade de inferência: YOLO11 domina em termos de velocidade. Por exemplo, o YOLO11x alcança uma maior precisão (54,7 mAP) do que o RTDETRv2-x (54,3 mAP), sendo executado cerca de 25% mais rápido numa GPU T4 (11,3ms vs 15,03ms).
Eficiência de parâmetros: Os modelos YOLO11 geralmente requerem menos parâmetros e FLOPs para atingir níveis de precisão semelhantes. O YOLO11l atinge os mesmos 53,4 mAP que o RTDETRv2-l, mas fá-lo com quase metade dos FLOPs (86,9B vs 136B).
DesempenhoCPU : As operações de transformação no RTDETRv2 são computacionalmente caras em CPUs. YOLO11 continua a ser a escolha preferida para implementações GPU GPU, oferecendo taxas de quadros viáveis em processadores padrão.

Fluxo de trabalho e usabilidade

Para os criadores, o "custo" de um modelo inclui o tempo de integração, a estabilidade da formação e a facilidade de implementação.

Facilidade de utilização e ecossistema

A APIPython Ultralytics abstrai loops de treino complexos em poucas linhas de código.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Em contrapartida, embora o RTDETRv2 seja uma poderosa ferramenta de investigação, requer frequentemente uma configuração manual e um conhecimento mais profundo da base de código subjacente para se adaptar a conjuntos de dados personalizados ou exportar para formatos específicos como ONNX ou TensorRT.

Eficiência da formação

Os modelos de transformadores de treino exigem normalmente uma memória GPU (VRAM) significativamente maior. Isto pode obrigar os programadores a utilizar tamanhos de lote mais pequenos ou a alugar hardware de nuvem mais caro. A arquitetura CNN do YOLO11 é eficiente em termos de memória, permitindo tamanhos de lote maiores e uma convergência mais rápida em GPUs de consumo.

Casos de Uso Ideais

Quando escolher YOLO11

Implantação de borda em tempo real: Ao implantar em dispositivos como NVIDIA Jetson, Raspberry Pi ou telefones celulares onde os recursos de computação são limitados.
Diversas tarefas de visão: Se o seu projeto requer segmentação ou estimativa de pose juntamente com a deteção.
Desenvolvimento rápido: Quando o tempo de colocação no mercado é crítico, a extensa documentação e o suporte da comunidade do Ultralytics aceleram o ciclo de vida.
Análise de vídeo: Para processamento de elevado FPS em aplicações como a monitorização de tráfego ou a análise de desporto.

Quando escolher RTDETRv2

Investigação académica: Para estudar as propriedades dos transformadores da visão e os mecanismos de atenção.
Processamento no lado do servidor: Quando a potência ilimitada GPU está disponível e a maior precisão absoluta em benchmarks específicos - independentemente da latência - é a única métrica.
Análise estática de imagens: Cenários em que o tempo de processamento não é uma restrição, como a análise de imagens médicas offline.

Conclusão

Enquanto o RTDETRv2 apresenta o progresso académico das arquitecturas de transformadores em visão, Ultralytics YOLO11 continua a ser a escolha pragmática para a grande maioria das aplicações do mundo real. A sua relação superior entre velocidade e precisão, os requisitos de memória mais baixos e a capacidade de lidar com múltiplas tarefas de visão fazem dele uma ferramenta versátil e poderosa. Juntamente com um ecossistema maduro e bem mantido, YOLO11 permite que os programadores passem do conceito à produção com o mínimo de fricção.

Explore Outros Modelos

A comparação de modelos ajuda a selecionar a ferramenta certa para as suas limitações específicas. Explore mais comparações na documentação Ultralytics :