YOLOX vs. RTDETRv2: Uma comparação técnica para a deteção de objectos
No panorama em rápida evolução da visão computacional, a seleção da arquitetura certa para o seu projeto envolve frequentemente a navegação num complexo compromisso entre a velocidade de inferência, a precisão e a eficiência dos recursos computacionais. Esta comparação explora duas abordagens distintas à deteção de objectos: YOLOX, uma CNN sem âncoras de alto desempenho, e RTDETRv2, um transformador de deteção em tempo real de ponta.
Enquanto o YOLOX representou uma mudança significativa para metodologias sem âncoras na família YOLO , o RTDETRv2 aproveita o poder dos Transformadores de Visão (ViTs) para captar o contexto global, desafiando as Redes Neuronais Convolucionais (CNNs) tradicionais. Este guia analisa as suas arquitecturas, métricas de desempenho e casos de utilização ideais para o ajudar a tomar uma decisão informada.
Análise de Desempenho: Velocidade vs. Precisão
As métricas de desempenho abaixo ilustram as filosofias fundamentais de conceção destes dois modelos. O RTDETRv2 atinge geralmente uma precisão média média (mAP) mais elevada, utilizando mecanismos de atenção para compreender cenas complexas. No entanto, esta precisão é frequentemente acompanhada por um aumento do custo computacional. O YOLOX, particularmente nas suas variantes mais pequenas, dá prioridade a uma baixa latência de inferência e a uma execução eficiente em hardware padrão.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Como mostra a tabela, o RTDETRv2-x atinge a maior precisão com um mAP de 54,3, superando a maior variante YOLOX. Por outro lado, o YOLOX-s demonstra uma velocidade superior no hardware GPU , tornando-o altamente eficaz para aplicações sensíveis à latência.
YOLOX: Eficiência sem âncora
O YOLOX aperfeiçoa a série YOLO , mudando para um mecanismo sem âncoras e desacoplando a cabeça de deteção. Ao eliminar a necessidade de caixas de ancoragem pré-definidas, o YOLOX simplifica o processo de formação e melhora a generalização em diferentes formas de objectos.
Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, e Jian Sun
Organização:Megvii
Data: 2021-07-18
Arxiv:YOLOX: Exceder a série YOLO em 2021
Principais pontos fortes
- Design sem âncora: Elimina o ajuste manual dos hiperparâmetros de ancoragem, reduzindo a complexidade do design.
- Cabeça desacoplada: Separa as tarefas de classificação e regressão, o que ajuda o modelo a convergir mais rapidamente e a obter uma melhor precisão.
- SimOTA: Uma estratégia avançada de atribuição de etiquetas que atribui dinamicamente amostras positivas, melhorando a estabilidade da formação.
Fraquezas
- Arquitetura envelhecida: Lançado em 2021, carece de algumas das optimizações modernas encontradas em iterações mais recentes como o YOLO11.
- Suporte limitado a tarefas: Principalmente focado na deteção, sem suporte nativo para segmentação ou estimativa de pose dentro da mesma estrutura.
RTDETRv2: A potência do transformador
O RTDETRv2 (Transformador de Deteção em Tempo Real versão 2) representa um salto na aplicação de arquitecturas de Transformadores à deteção de objectos em tempo real. Aborda o elevado custo computacional tipicamente associado aos Transformadores, introduzindo um codificador híbrido eficiente.
Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organização:Baidu
Data: 2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2: Linha de base melhorada com Bag-of-Freebies
Principais pontos fortes
- Contexto global: O mecanismo de auto-atenção permite que o modelo compreenda as relações entre objectos distantes numa imagem, reduzindo os falsos positivos em cenas complexas.
- Elevada precisão: Obtém consistentemente pontuações mAP mais elevadas em comparação com modelos baseados em CNN de escala semelhante.
- Não é necessário NMS : A arquitetura do transformador elimina naturalmente as detecções duplicadas, eliminando a necessidade de pós-processamento de Supressão Não Máxima (NMS).
Fraquezas
- Intensidade da memória: Requer significativamente mais VRAM GPU durante o treino em comparação com as CNNs, o que dificulta o treino em hardware de consumo.
- LatênciaCPU : Embora optimizadas para GPU, as operações do Transformer podem ser mais lentas em dispositivos de ponta CPU, em comparação com CNNs leves como o YOLOX-Nano.
Casos de Uso Ideais
A escolha entre estes modelos depende frequentemente dos condicionalismos específicos do ambiente de implantação.
- Escolha o YOLOX se: Está a ser implementado em dispositivos de ponta com recursos limitados, como o Raspberry Pi ou telemóveis, onde cada milissegundo de latência conta. Também é excelente para linhas de inspeção industrial em que os objectos são rígidos e previsíveis.
- Escolha o RTDETRv2 se: Tem acesso a GPUs potentes (como NVIDIA T4 ou A100) e a precisão é fundamental. É excelente em cenas com muita gente, condução autónoma ou vigilância aérea, em que o contexto e as relações entre objectos são fundamentais.
Otimização da implementação
Independentemente do modelo escolhido, a utilização de estruturas de otimização como o TensorRT ou OpenVINO é essencial para atingir velocidades em tempo real em ambientes de produção. Ambos os modelos beneficiam significativamente da quantização para FP16 ou INT8.
Porque é que os modelosYOLO Ultralytics são a melhor escolha
Embora o YOLOX e o RTDETRv2 sejam impressionantes, o ecossistemaUltralytics YOLO , liderado pelo YOLO11oferece uma solução mais holística para programadores e investigadores. Ultralytics dá prioridade à experiência do utilizador, garantindo que a IA de ponta é acessível, eficiente e versátil.
1. Versatilidade e ecossistema inigualáveis
Ao contrário do YOLOX, que é essencialmente um modelo de deteção, Ultralytics YOLO11 suporta nativamente uma vasta gama de tarefas de visão computacional, incluindo Segmentação de Instâncias, Estimativa de Pose, Classificação e Deteção de Caixa Limite Orientada (OBB). Isto permite-lhe resolver vários problemas com uma API única e unificada.
2. Facilidade de utilização e manutenção
O pacote Ultralytics simplifica o complexo mundo dos MLOps. Com uma base de código bem mantida, actualizações frequentes e documentação extensa, os utilizadores podem passar da instalação à formação em minutos.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
train_results = model.train(
data="coco8.yaml", # path to dataset YAML
epochs=100, # number of training epochs
imgsz=640, # training image size
device="cpu", # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)
# Evaluate model performance on the validation set
metrics = model.val()
3. Eficiência de treino e memória
Uma das principais vantagens dos modelos Ultralytics YOLO é a sua eficiência. Os modelos baseados em transformadores, como o RTDETRv2, são conhecidos por consumirem muitos dados e muita memória, exigindo muitas vezes GPUs topo de gama com VRAM maciço para o treino. Em contraste, os modelos Ultralytics YOLO são optimizados para treinar eficazmente numa gama mais vasta de hardware, incluindo GPUs de consumo, utilizando menos memória CUDA . Essa eficiência de treinamento democratiza o acesso à IA de alto desempenho.
4. Balanço de desempenho
Os modelos Ultralytics são projectados para atingir o "ponto ideal" entre velocidade e precisão. Para a maioria das aplicações do mundo real - desde a análise de retalho até à monitorização da segurança - o YOLO11 proporciona uma precisão comparável à dos Transformers, mantendo as velocidades de inferência extremamente rápidas necessárias para as transmissões de vídeo em direto.
Conclusão
Tanto o YOLOX como o RTDETRv2 contribuíram significativamente para o domínio da visão por computador. O YOLOX continua a ser uma escolha sólida para sistemas incorporados legados estritamente limitados, enquanto o RTDETRv2 ultrapassa os limites da precisão para hardware topo de gama.
No entanto, para a maioria dos programadores que procuram uma solução preparada para o futuro, versátil e fácil de utilizar, Ultralytics YOLO11 destaca-se como a principal escolha. A sua combinação de baixos requisitos de memória, suporte extensivo de tarefas e uma comunidade próspera garante que o seu projeto é construído sobre uma base de fiabilidade e desempenho.
Explore Outras Comparações
Para aperfeiçoar ainda mais a sua seleção de modelos, considere explorar estas comparações técnicas relacionadas: