Ir para o conteúdo

YOLOX vs. RTDETRv2: Uma comparação técnica para a deteção de objectos

No panorama em rápida evolução da visão computacional, a seleção da arquitetura certa para o seu projeto envolve frequentemente a navegação num complexo compromisso entre a velocidade de inferência, a precisão e a eficiência dos recursos computacionais. Esta comparação explora duas abordagens distintas à deteção de objectos: YOLOX, uma CNN sem âncoras de alto desempenho, e RTDETRv2, um transformador de deteção em tempo real de ponta.

Enquanto o YOLOX representou uma mudança significativa para metodologias sem âncoras na família YOLO , o RTDETRv2 aproveita o poder dos Transformadores de Visão (ViTs) para captar o contexto global, desafiando as Redes Neuronais Convolucionais (CNNs) tradicionais. Este guia analisa as suas arquitecturas, métricas de desempenho e casos de utilização ideais para o ajudar a tomar uma decisão informada.

Análise de Desempenho: Velocidade vs. Precisão

As métricas de desempenho abaixo ilustram as filosofias fundamentais de conceção destes dois modelos. O RTDETRv2 atinge geralmente uma precisão média média (mAP) mais elevada, utilizando mecanismos de atenção para compreender cenas complexas. No entanto, esta precisão é frequentemente acompanhada por um aumento do custo computacional. O YOLOX, particularmente nas suas variantes mais pequenas, dá prioridade a uma baixa latência de inferência e a uma execução eficiente em hardware padrão.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Como mostra a tabela, o RTDETRv2-x atinge a maior precisão com um mAP de 54,3, superando a maior variante YOLOX. Por outro lado, o YOLOX-s demonstra uma velocidade superior no hardware GPU , tornando-o altamente eficaz para aplicações sensíveis à latência.

YOLOX: Eficiência sem âncora

O YOLOX aperfeiçoa a série YOLO , mudando para um mecanismo sem âncoras e desacoplando a cabeça de deteção. Ao eliminar a necessidade de caixas de ancoragem pré-definidas, o YOLOX simplifica o processo de formação e melhora a generalização em diferentes formas de objectos.

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, e Jian Sun
Organização:Megvii
Data: 2021-07-18
Arxiv:YOLOX: Exceder a série YOLO em 2021

Principais pontos fortes

  • Design sem âncora: Elimina o ajuste manual dos hiperparâmetros de ancoragem, reduzindo a complexidade do design.
  • Cabeça desacoplada: Separa as tarefas de classificação e regressão, o que ajuda o modelo a convergir mais rapidamente e a obter uma melhor precisão.
  • SimOTA: Uma estratégia avançada de atribuição de etiquetas que atribui dinamicamente amostras positivas, melhorando a estabilidade da formação.

Fraquezas

  • Arquitetura envelhecida: Lançado em 2021, carece de algumas das optimizações modernas encontradas em iterações mais recentes como o YOLO11.
  • Suporte limitado a tarefas: Principalmente focado na deteção, sem suporte nativo para segmentação ou estimativa de pose dentro da mesma estrutura.

Saiba mais sobre o YOLOX.

RTDETRv2: A potência do transformador

O RTDETRv2 (Transformador de Deteção em Tempo Real versão 2) representa um salto na aplicação de arquitecturas de Transformadores à deteção de objectos em tempo real. Aborda o elevado custo computacional tipicamente associado aos Transformadores, introduzindo um codificador híbrido eficiente.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organização:Baidu
Data: 2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2: Linha de base melhorada com Bag-of-Freebies

Principais pontos fortes

  • Contexto global: O mecanismo de auto-atenção permite que o modelo compreenda as relações entre objectos distantes numa imagem, reduzindo os falsos positivos em cenas complexas.
  • Elevada precisão: Obtém consistentemente pontuações mAP mais elevadas em comparação com modelos baseados em CNN de escala semelhante.
  • Não é necessário NMS : A arquitetura do transformador elimina naturalmente as detecções duplicadas, eliminando a necessidade de pós-processamento de Supressão Não Máxima (NMS).

Fraquezas

  • Intensidade da memória: Requer significativamente mais VRAM GPU durante o treino em comparação com as CNNs, o que dificulta o treino em hardware de consumo.
  • LatênciaCPU : Embora optimizadas para GPU, as operações do Transformer podem ser mais lentas em dispositivos de ponta CPU, em comparação com CNNs leves como o YOLOX-Nano.

Saiba mais sobre o RTDETRv2.

Casos de Uso Ideais

A escolha entre estes modelos depende frequentemente dos condicionalismos específicos do ambiente de implantação.

  • Escolha o YOLOX se: Está a ser implementado em dispositivos de ponta com recursos limitados, como o Raspberry Pi ou telemóveis, onde cada milissegundo de latência conta. Também é excelente para linhas de inspeção industrial em que os objectos são rígidos e previsíveis.
  • Escolha o RTDETRv2 se: Tem acesso a GPUs potentes (como NVIDIA T4 ou A100) e a precisão é fundamental. É excelente em cenas com muita gente, condução autónoma ou vigilância aérea, em que o contexto e as relações entre objectos são fundamentais.

Otimização da implementação

Independentemente do modelo escolhido, a utilização de estruturas de otimização como o TensorRT ou OpenVINO é essencial para atingir velocidades em tempo real em ambientes de produção. Ambos os modelos beneficiam significativamente da quantização para FP16 ou INT8.

Porque é que os modelosYOLO Ultralytics são a melhor escolha

Embora o YOLOX e o RTDETRv2 sejam impressionantes, o ecossistemaUltralytics YOLO , liderado pelo YOLO11oferece uma solução mais holística para programadores e investigadores. Ultralytics dá prioridade à experiência do utilizador, garantindo que a IA de ponta é acessível, eficiente e versátil.

1. Versatilidade e ecossistema inigualáveis

Ao contrário do YOLOX, que é essencialmente um modelo de deteção, Ultralytics YOLO11 suporta nativamente uma vasta gama de tarefas de visão computacional, incluindo Segmentação de Instâncias, Estimativa de Pose, Classificação e Deteção de Caixa Limite Orientada (OBB). Isto permite-lhe resolver vários problemas com uma API única e unificada.

2. Facilidade de utilização e manutenção

O pacote Ultralytics simplifica o complexo mundo dos MLOps. Com uma base de código bem mantida, actualizações frequentes e documentação extensa, os utilizadores podem passar da instalação à formação em minutos.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
train_results = model.train(
    data="coco8.yaml",  # path to dataset YAML
    epochs=100,  # number of training epochs
    imgsz=640,  # training image size
    device="cpu",  # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)

# Evaluate model performance on the validation set
metrics = model.val()

3. Eficiência de treino e memória

Uma das principais vantagens dos modelos Ultralytics YOLO é a sua eficiência. Os modelos baseados em transformadores, como o RTDETRv2, são conhecidos por consumirem muitos dados e muita memória, exigindo muitas vezes GPUs topo de gama com VRAM maciço para o treino. Em contraste, os modelos Ultralytics YOLO são optimizados para treinar eficazmente numa gama mais vasta de hardware, incluindo GPUs de consumo, utilizando menos memória CUDA . Essa eficiência de treinamento democratiza o acesso à IA de alto desempenho.

4. Balanço de desempenho

Os modelos Ultralytics são projectados para atingir o "ponto ideal" entre velocidade e precisão. Para a maioria das aplicações do mundo real - desde a análise de retalho até à monitorização da segurança - o YOLO11 proporciona uma precisão comparável à dos Transformers, mantendo as velocidades de inferência extremamente rápidas necessárias para as transmissões de vídeo em direto.

Conclusão

Tanto o YOLOX como o RTDETRv2 contribuíram significativamente para o domínio da visão por computador. O YOLOX continua a ser uma escolha sólida para sistemas incorporados legados estritamente limitados, enquanto o RTDETRv2 ultrapassa os limites da precisão para hardware topo de gama.

No entanto, para a maioria dos programadores que procuram uma solução preparada para o futuro, versátil e fácil de utilizar, Ultralytics YOLO11 destaca-se como a principal escolha. A sua combinação de baixos requisitos de memória, suporte extensivo de tarefas e uma comunidade próspera garante que o seu projeto é construído sobre uma base de fiabilidade e desempenho.

Explore Outras Comparações

Para aperfeiçoar ainda mais a sua seleção de modelos, considere explorar estas comparações técnicas relacionadas:


Comentários