RTDETRv2 vs YOLOX: Uma comparação técnica para a deteção de objectos
A escolha do modelo correto de deteção de objectos é crucial para os projectos de visão por computador. Ultralytics oferece uma gama diversificada de modelos, incluindo a série YOLO e a série RT-DETR , cada uma com pontos fortes únicos. Esta página fornece uma comparação técnica detalhada entre o RTDETRv2 e o YOLOX, dois modelos topo de gama para deteção de objectos, para o ajudar a tomar uma decisão informada com base nos requisitos do seu projeto.
RTDETRv2: Deteção em tempo real de alta precisão
O RTDETRv2(Real-Time Detection Transformer v2) é um modelo avançado de deteção de objectos desenvolvido pela Baidu, conhecido pela sua elevada precisão e desempenho em tempo real. Introduzido em 2023-04-17 e detalhado no seu artigo Arxiv, o RTDETRv2 utiliza uma arquitetura Vision Transformer (ViT) para obter resultados de ponta. A implementação oficial está disponível no GitHub.
Arquitetura e principais caraterísticas
A arquitetura do RTDETRv2 baseia-se em Transformadores de Visão, permitindo-lhe captar o contexto global das imagens através de mecanismos de auto-atenção. Esta abordagem baseada em transformadores permite uma extração robusta de caraterísticas e uma localização precisa de objectos, especialmente em cenas complexas. Ao contrário dos modelos tradicionais baseados em CNN, o RTDETRv2 destaca-se na compreensão das relações entre diferentes partes de uma imagem, o que leva a uma maior precisão de deteção.
Métricas de desempenho
Os modelos RTDETRv2 demonstram pontuações mAP impressionantes, com variantes maiores como RTDETRv2-x alcançando um mAPval50-95 de 54,3. Embora as métricas detalhadas CPU velocidade CPU ONNX não sejam fornecidas na tabela abaixo, as velocidades do TensorRT são competitivas, tornando-o adequado para aplicações em tempo real em hardware capaz, como as GPUs NVIDIA T4. Para obter métricas de desempenho detalhadas, consulte a tabela de comparação de modelos abaixo.
Pontos fortes e pontos fracos
Pontos fortes:
- Precisão superior: A arquitetura do transformador proporciona uma excelente precisão na deteção de objectos.
- Capacidade para tempo real: Atinge velocidades de inferência competitivas com aceleração de hardware, adequadas para sistemas em tempo real.
- Extração eficaz de caraterísticas: Os Transformadores de Visão captam eficazmente o contexto global e os detalhes intrincados.
Pontos fracos:
- Maior tamanho do modelo: Os modelos RTDETRv2, especialmente as versões maiores, têm um maior número de parâmetros e FLOPs, exigindo mais recursos computacionais.
- Limitações de velocidade de inferência: Embora em tempo real, pode não ser tão rápido como os modelos altamente optimizados como o YOLOX em dispositivos menos potentes.
Casos de utilização ideais
O RTDETRv2 é mais adequado para aplicações em que a exatidão é fundamental e em que estão disponíveis recursos computacionais suficientes. Os casos de utilização ideais incluem:
- Veículos autónomos: Para uma perceção ambiental fiável e precisa em sistemas de condução autónoma. IA em veículos autónomos
- Robótica: Permitir que os robôs percebam e interajam com precisão com objectos em ambientes complexos. Dos algoritmos à automatização: O papel da IA na robótica
- Imagiologia médica: Para a deteção de alta precisão de anomalias em imagens médicas, ajudando no diagnóstico. IA nos cuidados de saúde
- Análise de imagens de alta resolução: Aplicações que requerem uma análise detalhada de imagens de grandes dimensões, como imagens de satélite ou aéreas. Utilização da visão computacional para analisar imagens de satélite
YOLOX: Deteção de objectos eficiente e versátil
O YOLOX(You Only Look Once X) é um modelo de deteção de objectos sem âncoras desenvolvido pela Megvii, conhecido pelo seu elevado desempenho e eficiência. Introduzido em 2021-07-18 e detalhado no seu artigo Arxiv, o YOLOX baseia-se na série YOLO , oferecendo um design simplificado com resultados de última geração. A documentação oficial fornece pormenores completos.
Arquitetura e principais caraterísticas
O YOLOX adopta uma abordagem sem âncoras, eliminando a necessidade de caixas de âncoras predefinidas, o que simplifica o modelo e reduz os hiperparâmetros. Apresenta uma cabeça desacoplada para classificação e localização, melhorando a eficiência e a precisão do treino. Técnicas avançadas de aumento de dados, como MixUp e Mosaic, são utilizadas para melhorar a robustez. O YOLOX foi concebido para uma elevada velocidade e eficiência, o que o torna adequado para aplicações em tempo real e para implementação em várias plataformas de hardware.
Métricas de desempenho
A YOLOX oferece uma gama de tamanhos de modelos, desde o Nano ao XLarge, para responder a diferentes orçamentos computacionais e necessidades de precisão. Os modelos YOLOX alcançam um bom equilíbrio entre velocidade e precisão. Por exemplo, o YOLOX-s atinge um mAPval50-95 de 40,5 com velocidades de inferência rápidas no TensorRT. Consulte a tabela de comparação de modelos abaixo para obter métricas de desempenho detalhadas em diferentes variantes do YOLOX.
Pontos fortes e pontos fracos
Pontos fortes:
- Alta eficiência e velocidade: Optimizado para uma inferência rápida, tornando-o ideal para aplicações em tempo real.
- Design sem âncoras: Simplifica a arquitetura e o processo de formação, melhorando a generalização.
- Tamanhos versáteis de modelos: Oferece uma gama de tamanhos de modelos para se adaptar a diferentes restrições computacionais.
- Forte desempenho: Consegue um bom equilíbrio entre velocidade e precisão.
Pontos fracos:
- Compensação da precisão: Embora eficiente, a sua precisão pode ser ligeiramente inferior à dos modelos baseados em transformadores como o RTDETRv2 em cenários complexos.
- Desempenho em cenas complexas: Sendo um detetor de uma só fase, pode ser menos robusto em cenas extremamente cheias em comparação com alguns detectores de duas fases, embora o YOLOX atenue significativamente esta lacuna em comparação com as versões anteriores YOLO .
Casos de utilização ideais
O YOLOX é ideal para aplicações que requerem deteção de objectos em tempo real com foco na velocidade e eficiência. Estas incluem:
- Robótica: Perceção em tempo real para navegação e interação de robôs em ambientes dinâmicos. IA em robótica
- Sistemas de vigilância: Deteção eficiente de objectos em fluxos de vídeo para aplicações de segurança e monitorização. Visão computacional para prevenção de roubos: Reforço da segurança
- Inspeção industrial: Inspeção visual automatizada em linhas de produção para deteção de defeitos e controlo de qualidade. Melhorar o fabrico com visão por computador
- Dispositivos de borda: Implementação em dispositivos com recursos limitados, onde a eficiência computacional é fundamental. Capacitar a IA de ponta com a Sony IMX500 e a Aitrios
Tabela de comparação de modelos
Modelo | tamanho(pixéis) | mAPval 50-95 |
CPU ONNX (ms) |
SpeedT4TensorRT10 (ms) |
params(M) | FLOPs(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Conclusão
Tanto o RTDETRv2 como o YOLOX são modelos poderosos de deteção de objectos, mas respondem a prioridades diferentes. O RTDETRv2 é a escolha superior quando é necessária a máxima precisão e os recursos computacionais não são um fator limitativo. O YOLOX, por outro lado, destaca-se em cenários em que o desempenho em tempo real, a eficiência e a implementação em hardware menos potente são críticos.
Para os utilizadores que exploram outras opções, Ultralytics oferece uma vasta gama de modelos, incluindo:
- YOLOv8 e YOLOv9: Sucessores da série YOLO , oferecendo um espetro de soluções de velocidade e precisão. Ultralytics YOLOv8 faz um ano: Um ano de avanços e inovações, Documentação do YOLOv9
- YOLO: Modelos concebidos utilizando a Pesquisa de Arquitetura Neural para um desempenho ótimo. YOLO by Deci AI - um modelo de deteção de objectos de última geração
- FastSAM e MobileSAM: Para tarefas de segmentação de instâncias em tempo real. DocumentaçãoFastSAM , DocumentaçãoMobileSAM
A escolha entre RTDETRv2, YOLOX e outros modelos Ultralytics deve ser orientada pelas necessidades específicas do seu projeto de visão computacional, equilibrando cuidadosamente a precisão, a velocidade e os recursos disponíveis. Explore a DocumentaçãoUltralytics e o repositório GitHub para obter informações mais aprofundadas e detalhes de implementação.