Ir para o conteúdo

YOLO vs. RTDETRv2: Equilíbrio entre Velocidade e Precisão do Transformador

A seleção da arquitetura ideal para a deteção de objectos envolve frequentemente a navegação no compromisso entre a latência da inferência e a precisão da deteção. Esta comparação técnica examina o YOLO, um detetor de alta velocidade optimizado pelo Alibaba Group, e o RTDETRv2, a segunda geração do Real-Time Detection Transformer da Baidu. Analisamos suas inovações arquitetônicas, benchmarks de desempenho e adequação de implantação para ajudá-lo a tomar decisões informadas para suas aplicações de visão computacional.

YOLO: Otimização para baixa latência

YOLO representa um passo significativo na evolução da YOLO concentrando-se fortemente na maximização da velocidade sem comprometer seriamente a precisão. Desenvolvida pelo Grupo Alibaba, utiliza técnicas avançadas de Pesquisa de Arquitetura Neural (NAS) para adaptar a estrutura da rede para obter eficiência.

Destaques arquitectónicos

A YOLO integra várias tecnologias inovadoras para simplificar a cadeia de deteção:

  • Backbone alimentado por NAS: O modelo utiliza a Pesquisa de Arquitetura Neural (NAS) para descobrir automaticamente uma estrutura de backbone eficiente (MAE-NAS). Essa abordagem garante que a profundidade e a largura da rede sejam otimizadas para restrições específicas de hardware.
  • RepGFPN Neck: Apresenta uma versão eficiente da Generalized Feature Pyramid Network (GFPN) conhecida como RepGFPN. Este componente melhora a fusão de caraterísticas em diferentes escalas, mantendo o controlo de baixa latência.
  • ZeroHead: Um design simplificado da cabeça, denominado "ZeroHead", separa as tarefas de classificação e regressão, reduzindo a carga computacional das camadas de previsão finais.
  • AlignedOTA: Para estabilidade do treino, o YOLO utiliza o AlignedOTA (Optimal Transport Assignment), uma estratégia de atribuição de etiquetas que alinha os objectivos de classificação e regressão para melhorar a convergência.

Saiba mais sobre o DAMO-YOLO.

RTDETRv2: A evolução dos transformadores em tempo real

O RTDETRv2 baseia-se no sucesso do RT-DETR original, o primeiro detetor de objectos baseado em transformadores a atingir um desempenho em tempo real. Desenvolvido pela Baidu, o RTDETRv2 introduz um "saco de brindes" para melhorar a estabilidade e a precisão do treino sem incorrer em custos de inferência adicionais.

Destaques arquitectónicos

O RTDETRv2 aproveita os pontos fortes dos transformadores de visão, atenuando os seus tradicionais estrangulamentos de velocidade:

  • Codificador híbrido: A arquitetura utiliza um codificador híbrido que processa caraterísticas multi-escala de forma eficiente, dissociando a interação intra-escala e a fusão multi-escala para poupar custos computacionais.
  • Seleção de consultasIoU: Este mecanismo seleciona consultas de objectos iniciais de alta qualidade com base nas pontuações de Intersecção sobre UniãoIoU), levando a uma convergência mais rápida do treino.
  • Configuração adaptável: O RTDETRv2 oferece configurações flexíveis para o descodificador e seleção de consultas, permitindo aos utilizadores ajustar o modelo para requisitos específicos de velocidade/precisão.
  • Design sem âncoras: Tal como o seu antecessor, é totalmente livre de âncoras, eliminando a necessidade de afinação heurística da caixa de âncoras e Supressão Não MáximaNMS) durante o pós-processamento.

Saiba mais sobre o RTDETRv2.

Comparação técnica: Desempenho e eficiência

A principal distinção entre estes dois modelos reside nas suas raízes arquitectónicas - CNN versus Transformer - e na forma como isso afecta o seu perfil de desempenho.

Análise métrica

A tabela abaixo descreve as principais métricas do conjunto de dadosCOCO . Enquanto o RTDETRv2 domina em termos de precisão médiamAP), o YOLO demonstra um rendimento superior (FPS) e contagens de parâmetros mais baixas para as suas variantes mais pequenas.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Analisar as soluções de compromisso

O YOLO destaca-se em ambientes onde cada milissegundo conta, como a triagem industrial de alta frequência. A sua variante "Tiny" (t) é excecionalmente leve. Por outro lado, o RTDETRv2 oferece um limite máximo de precisão mais elevado, o que o torna preferível para cenas complexas em que a ausência de um objeto é crítica, como na navegação autónoma ou na vigilância detalhada.

Arquitetura vs. Aplicação no mundo real

  1. Contexto global vs. caraterísticas locais: O mecanismo de atenção transformador do RTDETRv2 permite-lhe compreender melhor o contexto global do que o YOLO baseado na CNN. Isto resulta num melhor desempenho em cenas com muita gente ou quando os objectos estão ocultos. No entanto, esta atenção global tem o custo de um maior consumo de memória e de tempos de treino mais lentos.

  2. Otimização de hardware: O backbone baseado em NAS do YOLO é altamente optimizado para inferência GPU , alcançando uma latência muito baixa. O RTDETRv2, embora em tempo real, geralmente requer um hardware mais potente para corresponder às taxas de quadros dos detectores YOLO.

A Vantagem Ultralytics: Por que escolher YOLO11?

Enquanto o YOLO e o RTDETRv2 oferecem benefícios especializados, Ultralytics YOLO11 destaca-se como a solução mais equilibrada e fácil de desenvolver para a grande maioria das aplicações do mundo real.

Experiência e ecossistema de desenvolvimento superiores

Um dos desafios mais significativos dos modelos académicos como o YOLO ou o RTDETRv2 é a integração. Ultralytics resolve este problema com um ecossistema robusto:

  • Facilidade de uso: Com uma API Python e CLI unificadas, pode treinar, validar e implementar modelos com apenas algumas linhas de código.
  • Ecossistema bem mantido: Os modelos Ultralytics são suportados por um desenvolvimento ativo, documentação extensa e uma grande comunidade. Isto assegura a compatibilidade com as bibliotecas de hardware e software mais recentes.
  • Eficiência de treinamento: YOLO11 foi concebido para treinar mais rapidamente e requer significativamente menos memória GPU (VRAM) do que os modelos baseados em transformadores como o RTDETRv2. Isto torna a IA de alto desempenho acessível mesmo em hardware de nível de consumidor.

Versatilidade inigualável

Ao contrário do YOLO e do RTDETRv2, que se centram principalmente na deteção de caixas delimitadoras, YOLO11 suporta nativamente uma vasta gama de tarefas de visão computacional:

Equilíbrio de desempenho

YOLO11 atinge uma exatidão de ponta que rivaliza ou excede o RTDETRv2 em muitos parâmetros de referência, mantendo a velocidade de inferência e a eficiência caraterísticas da família YOLO .

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Saiba mais sobre o YOLO11.

Conclusão

A escolha entre YOLO e RTDETRv2 depende dos seus condicionalismos específicos:

  • Escolha YOLO se a sua principal restrição for a latência e se estiver a implementar em dispositivos de extremidade em que a contagem mínima de parâmetros é fundamental.
  • Escolha o RTDETRv2 se necessitar da maior precisão possível em cenas complexas e tiver o orçamento computacional para suportar uma arquitetura de transformador.

No entanto, para uma solução holística que combina alto desempenho, facilidade de utilização e capacidade multitarefa, Ultralytics YOLO11 continua a ser a escolha recomendada. O seu menor consumo de memória durante a formação, combinado com um ecossistema maduro, acelera a passagem do protótipo à produção.

Explore Outros Modelos

Para compreender melhor o panorama da deteção de objectos, explore estas comparações:


Comentários