RTDETRv2 vs YOLO: Uma comparação técnica para a deteção de objectos
A escolha do modelo de deteção de objectos ideal é fundamental para o êxito das aplicações de visão por computador. Ultralytics oferece uma gama diversificada de modelos, e esta página apresenta uma comparação técnica detalhada entre o RTDETRv2 e o YOLO, dois modelos avançados no panorama da deteção de objectos. Esta análise ajudá-lo-á a tomar uma decisão bem informada com base nos requisitos do seu projeto.
RTDETRv2: Deteção de alta precisão baseada em transformadores
O RTDETRv2(Real-Time Detection Transformer v2) é um modelo de deteção de objectos topo de gama desenvolvido pela Baidu, conhecido pela sua elevada precisão e desempenho eficiente em tempo real. Introduzido em 2023-04-17 no artigo"DETRs Beat YOLOs on Real-time Object Detection" por Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu, o RTDETRv2 utiliza uma arquitetura Vision Transformer (ViT) para obter uma extração robusta de caraterísticas e uma compreensão global do contexto.
Arquitetura e caraterísticas
O RTDETRv2 distingue-se pela sua arquitetura baseada em transformadores, que lhe permite captar o contexto global das imagens de forma mais eficaz do que os detectores tradicionais baseados em CNN. Esta arquitetura permite uma precisão superior, especialmente em cenas complexas em que a compreensão do contexto mais amplo é crucial. O modelo é implementado em PyTorch e está disponível no GitHub.
Desempenho
O RTDETRv2 demonstra métricas de desempenho impressionantes, alcançando um mAPval50-95 de 54,3 para a sua maior variante, o RTDETRv2-x. As velocidades de inferência também são competitivas, tornando-o adequado para aplicações em tempo real quando se utiliza hardware capaz.
Pontos fortes e pontos fracos
Pontos fortes:
- Elevada precisão: A arquitetura do transformador proporciona uma excelente precisão na deteção de objectos.
- Capacidade em tempo real: Atinge velocidades de inferência rápidas, especialmente com a aceleração TensorRT .
- Aprendizagem contextual eficaz: Os Transformadores da Visão são excelentes a captar o contexto global em imagens.
Pontos fracos:
- Maior tamanho do modelo: Os modelos RTDETRv2, particularmente as variantes maiores, têm um número significativo de parâmetros e FLOPs, exigindo mais recursos computacionais.
- Demanda computacional: Embora optimizado para velocidade, pode não ser tão leve como alguns outros modelos para implementação em dispositivos com recursos muito limitados.
Casos de utilização
O RTDETRv2 é ideal para aplicações que dão prioridade a uma elevada precisão e que têm acesso a recursos computacionais substanciais:
- Veículos autónomos: Para uma perceção ambiental fiável e precisa, crucial para a IA em veículos autónomos.
- Robótica: Permite que os robôs percebam e interajam com precisão com objectos em ambientes complexos, melhorando as aplicações dos Algoritmos à Automação: O papel da IA na robótica.
- Imagiologia médica: Para a deteção precisa de anomalias em imagens médicas, ajudando no diagnóstico, como explorado em IA nos cuidados de saúde.
- Análise pormenorizada de imagens: Adequado para análise de imagens de alta resolução, como a utilização da visão por computador para analisar imagens de satélite ou inspeção industrial.
YOLO: Deteção de objectos eficiente e rápida
O YOLO(DAMO series YOLO), desenvolvido pelo Alibaba Group e apresentado em 2022-11-23 no artigo"YOLO: Rethinking Scalable and Accurate Object Detection" de Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun, foi concebido para ser rápido e eficiente, mantendo uma precisão competitiva. O YOLO concentra-se no desempenho em tempo real e está disponível no GitHub.
Arquitetura e caraterísticas
O YOLO incorpora várias técnicas inovadoras para aumentar a eficiência, incluindo backbones de Pesquisa de Arquitetura Neural (NAS), um RepGFPN eficiente e um ZeroHead. Estas escolhas arquitectónicas contribuem para a sua velocidade e reduzidas exigências computacionais, tornando-o uma excelente escolha para aplicações em tempo real e implementações de ponta.
Desempenho
O YOLO destaca-se pela velocidade de inferência, oferecendo um desempenho muito rápido em várias plataformas de hardware. Embora a sua exatidão seja ligeiramente inferior à do RTDETRv2, proporciona um equilíbrio atraente entre velocidade e exatidão, particularmente para aplicações que requerem um processamento rápido.
Pontos fortes e pontos fracos
Pontos fortes:
- Alta velocidade: Optimizado para uma inferência extremamente rápida, ideal para sistemas em tempo real.
- Eficiência: Os modelos mais pequenos e os requisitos computacionais mais reduzidos tornam-no adequado para dispositivos de ponta.
- Escalabilidade: Concebido para ser escalável e adaptável a vários cenários de implementação.
Pontos fracos:
- Precisão: Embora exato, pode não atingir as mesmas pontuações de topo do mAP que o RTDETRv2, especialmente em cenários que exigem a maior precisão.
- Compreensão contextual: Sendo centrado na CNN, pode não captar o contexto global tão eficazmente como os modelos baseados em transformadores em cenas altamente complexas.
Casos de utilização
A YOLO é adequada para aplicações em que a velocidade e a eficiência são fundamentais e em que é necessária a implementação em hardware menos potente:
- Vigilância por vídeo em tempo real: Ideal para aplicações como sistemas de alarme de segurança que requerem deteção imediata.
- Computação de ponta: Perfeito para implantação em dispositivos de ponta, como Raspberry Pi e NVIDIA Jetson.
- Aplicações de processamento rápido: Adequado para robótica(ROS Quickstart) e outras aplicações que requerem uma tomada de decisão rápida.
- Implantações móveis: Eficiente o suficiente para aplicações móveis e ambientes com recursos limitados.
Tabela de comparação de modelos
Modelo | tamanho(pixéis) | mAPval 50-95 |
CPU ONNX (ms) |
SpeedT4TensorRT10 (ms) |
params(M) | FLOPs(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Conclusão
Tanto o RTDETRv2 como o YOLO são modelos poderosos de deteção de objectos, cada um com vantagens distintas. O RTDETRv2 destaca-se quando a prioridade é a precisão máxima e os recursos computacionais estão disponíveis. O YOLO é a escolha preferida para aplicações que requerem processamento em tempo real e implementação eficiente, especialmente em dispositivos periféricos.
Para os utilizadores que consideram outras opções, Ultralytics oferece uma vasta gama de modelos, incluindo:
- YOLO11: O mais recente da série YOLO , equilibrando velocidade e precisão. Saiba mais sobre o YOLO11.
- YOLOv8 e YOLOv9: Gerações anteriores que oferecem várias soluções de compromisso entre velocidade e precisão, descritas emUltralytics YOLOv8 Turns One: A Year of Breakthroughs and Innovations" e YOLOv9.
- YOLO: Modelos concebidos através da Pesquisa de Arquitetura Neural para um desempenho ótimo. Ver YOLO by Deci AI - um modelo de deteção de objectos de última geração.
- FastSAM e MobileSAM: Para segmentação de instâncias em tempo real, consulte FastSAM e o MobileSAM.
A seleção entre RTDETRv2, YOLO ou outros modelos Ultralytics deve basear-se nas necessidades específicas do seu projeto de visão computacional, considerando cuidadosamente o equilíbrio entre precisão, velocidade e recursos disponíveis. Para mais pormenores e guias de implementação, consulte a DocumentaçãoUltralytics e o repositórioUltralytics GitHub.