YOLO vs. RTDETRv2: Equilíbrio entre Velocidade e Precisão do Transformador

A seleção da arquitetura ideal para a deteção de objectos envolve frequentemente a navegação no compromisso entre a latência da inferência e a precisão da deteção. Esta comparação técnica examina o YOLO, um detetor de alta velocidade optimizado pelo Alibaba Group, e o RTDETRv2, a segunda geração do Real-Time Detection Transformer da Baidu. Analisamos suas inovações arquitetônicas, benchmarks de desempenho e adequação de implantação para ajudá-lo a tomar decisões informadas para suas aplicações de visão computacional.

YOLO: Otimização para baixa latência

YOLO representa um passo significativo na evolução da YOLO concentrando-se fortemente na maximização da velocidade sem comprometer seriamente a precisão. Desenvolvida pelo Grupo Alibaba, utiliza técnicas avançadas de Pesquisa de Arquitetura Neural (NAS) para adaptar a estrutura da rede para obter eficiência.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Grupo Alibaba
Data: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Documentos:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

Destaques arquitectónicos

A YOLO integra várias tecnologias inovadoras para simplificar a cadeia de deteção:

Backbone alimentado por NAS: O modelo utiliza a Pesquisa de Arquitetura Neural (NAS) para descobrir automaticamente uma estrutura de backbone eficiente (MAE-NAS). Essa abordagem garante que a profundidade e a largura da rede sejam otimizadas para restrições específicas de hardware.
RepGFPN Neck: Apresenta uma versão eficiente da Generalized Feature Pyramid Network (GFPN) conhecida como RepGFPN. Este componente melhora a fusão de caraterísticas em diferentes escalas, mantendo o controlo de baixa latência.
ZeroHead: Um design simplificado da cabeça, denominado "ZeroHead", separa as tarefas de classificação e regressão, reduzindo a carga computacional das camadas de previsão finais.
AlignedOTA: Para estabilidade do treino, o YOLO utiliza o AlignedOTA (Optimal Transport Assignment), uma estratégia de atribuição de etiquetas que alinha os objectivos de classificação e regressão para melhorar a convergência.

Saiba mais sobre o DAMO-YOLO.

RTDETRv2: A evolução dos transformadores em tempo real

O RTDETRv2 baseia-se no sucesso do RT-DETR original, o primeiro detetor de objectos baseado em transformadores a atingir um desempenho em tempo real. Desenvolvido pela Baidu, o RTDETRv2 introduz um "saco de brindes" para melhorar a estabilidade e a precisão do treino sem incorrer em custos de inferência adicionais.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização:Baidu
Data: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Documentos:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Destaques arquitectónicos

O RTDETRv2 aproveita os pontos fortes dos transformadores de visão, atenuando os seus tradicionais estrangulamentos de velocidade:

Codificador híbrido: A arquitetura utiliza um codificador híbrido que processa caraterísticas multi-escala de forma eficiente, dissociando a interação intra-escala e a fusão multi-escala para poupar custos computacionais.
Seleção de consultasIoU: Este mecanismo seleciona consultas de objectos iniciais de alta qualidade com base nas pontuações de Intersecção sobre UniãoIoU), levando a uma convergência mais rápida do treino.
Configuração adaptável: O RTDETRv2 oferece configurações flexíveis para o descodificador e seleção de consultas, permitindo aos utilizadores ajustar o modelo para requisitos específicos de velocidade/precisão.
Design sem âncoras: Tal como o seu antecessor, é totalmente livre de âncoras, eliminando a necessidade de afinação heurística da caixa de âncoras e Supressão Não MáximaNMS) durante o pós-processamento.

Saiba mais sobre o RTDETRv2.

Comparação técnica: Desempenho e eficiência

A principal distinção entre estes dois modelos reside nas suas raízes arquitectónicas - CNN versus Transformer - e na forma como isso afecta o seu perfil de desempenho.

Análise métrica

A tabela abaixo descreve as principais métricas do conjunto de dadosCOCO . Enquanto o RTDETRv2 domina em termos de precisão médiamAP), o YOLO demonstra um rendimento superior (FPS) e contagens de parâmetros mais baixas para as suas variantes mais pequenas.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Analisar as soluções de compromisso

O YOLO destaca-se em ambientes onde cada milissegundo conta, como a triagem industrial de alta frequência. A sua variante "Tiny" (t) é excecionalmente leve. Por outro lado, o RTDETRv2 oferece um limite máximo de precisão mais elevado, o que o torna preferível para cenas complexas em que a ausência de um objeto é crítica, como na navegação autónoma ou na vigilância detalhada.

Arquitetura vs. Aplicação no mundo real

Contexto global vs. caraterísticas locais: O mecanismo de atenção transformador do RTDETRv2 permite-lhe compreender melhor o contexto global do que o YOLO baseado na CNN. Isto resulta num melhor desempenho em cenas com muita gente ou quando os objectos estão ocultos. No entanto, esta atenção global tem o custo de um maior consumo de memória e de tempos de treino mais lentos.
Otimização de hardware: O backbone baseado em NAS do YOLO é altamente optimizado para inferência GPU , alcançando uma latência muito baixa. O RTDETRv2, embora em tempo real, geralmente requer um hardware mais potente para corresponder às taxas de quadros dos detectores YOLO.

A Vantagem Ultralytics: Por que escolher YOLO11?

Enquanto o YOLO e o RTDETRv2 oferecem benefícios especializados, Ultralytics YOLO11 destaca-se como a solução mais equilibrada e fácil de desenvolver para a grande maioria das aplicações do mundo real.

Experiência e ecossistema de desenvolvimento superiores

Um dos desafios mais significativos dos modelos académicos como o YOLO ou o RTDETRv2 é a integração. Ultralytics resolve este problema com um ecossistema robusto:

Facilidade de uso: Com uma API Python e CLI unificadas, pode treinar, validar e implementar modelos com apenas algumas linhas de código.
Ecossistema bem mantido: Os modelos Ultralytics são suportados por um desenvolvimento ativo, documentação extensa e uma grande comunidade. Isto assegura a compatibilidade com as bibliotecas de hardware e software mais recentes.
Eficiência de treinamento: YOLO11 foi concebido para treinar mais rapidamente e requer significativamente menos memória GPU (VRAM) do que os modelos baseados em transformadores como o RTDETRv2. Isto torna a IA de alto desempenho acessível mesmo em hardware de nível de consumidor.

Versatilidade inigualável

Ao contrário do YOLO e do RTDETRv2, que se centram principalmente na deteção de caixas delimitadoras, YOLO11 suporta nativamente uma vasta gama de tarefas de visão computacional:

Equilíbrio de desempenho

YOLO11 atinge uma exatidão de ponta que rivaliza ou excede o RTDETRv2 em muitos parâmetros de referência, mantendo a velocidade de inferência e a eficiência caraterísticas da família YOLO .

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Saiba mais sobre o YOLO11.

Conclusão

A escolha entre YOLO e RTDETRv2 depende dos seus condicionalismos específicos:

Escolha YOLO se a sua principal restrição for a latência e se estiver a implementar em dispositivos de extremidade em que a contagem mínima de parâmetros é fundamental.
Escolha o RTDETRv2 se necessitar da maior precisão possível em cenas complexas e tiver o orçamento computacional para suportar uma arquitetura de transformador.

No entanto, para uma solução holística que combina alto desempenho, facilidade de utilização e capacidade multitarefa, Ultralytics YOLO11 continua a ser a escolha recomendada. O seu menor consumo de memória durante a formação, combinado com um ecossistema maduro, acelera a passagem do protótipo à produção.

Explore Outros Modelos

Para compreender melhor o panorama da deteção de objectos, explore estas comparações:

YOLO vs. RTDETRv2: Equilíbrio entre Velocidade e Precisão do Transformador

YOLO: Otimização para baixa latência

Destaques arquitectónicos

RTDETRv2: A evolução dos transformadores em tempo real

Destaques arquitectónicos

Comparação técnica: Desempenho e eficiência

Análise métrica

Arquitetura vs. Aplicação no mundo real

A Vantagem Ultralytics: Por que escolher YOLO11?

Experiência e ecossistema de desenvolvimento superiores

Versatilidade inigualável

Equilíbrio de desempenho

Conclusão

Explore Outros Modelos

Comentários