Ir para o conteúdo

YOLOv8 vs RTDETRv2: Uma comparação técnica exaustiva

No panorama em rápida evolução da visão por computador, a seleção do modelo de deteção de objectos correto é fundamental para o sucesso do projeto. Esta comparação analisa as distinções técnicas entre YOLOv8o versátil modelo baseado em CNN da Ultralytics, e o RTDETRv2, um sofisticado modelo baseado em transformadores da Baidu. Ao analisar as suas arquitecturas, métricas de desempenho e requisitos de recursos, pretendemos orientar os programadores e investigadores para a solução ideal para as suas necessidades específicas.

Visualização das diferenças de desempenho

O gráfico abaixo ilustra os compromissos entre velocidade e precisão para vários tamanhos de modelos, destacando como YOLOv8 mantém uma eficiência superior em toda a linha.

Análise de Desempenho: Velocidade vs. Precisão

A tabela seguinte apresenta uma comparação direta das principais métricas. Embora o RTDETRv2 atinja uma elevada exatidão com os seus modelos maiores, YOLOv8 demonstra uma vantagem significativa na velocidade de inferência e na eficiência dos parâmetros, particularmente no hardware CPU , onde os modelos de transformador enfrentam frequentemente estrangulamentos de latência.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Ultralytics YOLOv8: O padrão para versatilidade e velocidade

Lançado no início de 2023, YOLOv8 representa um salto significativo na família YOLO , introduzindo uma estrutura unificada para várias tarefas de visão computacional. Foi concebido para proporcionar o melhor compromisso possível entre velocidade e precisão, tornando-o altamente adequado para aplicações em tempo real que vão desde a automação industrial à infraestrutura de cidades inteligentes.

Principais caraterísticas arquitectónicas

YOLOv8 utiliza uma cabeça de deteção sem âncoras, o que simplifica o processo de formação e melhora a generalização em diferentes formas de objectos. A sua arquitetura apresenta um backbone Darknet Cross-Stage Partial (CSP) para uma extração eficiente de caraterísticas e um pescoço Path Aggregation Network (PAN)-FPN para uma fusão robusta em várias escalas. Ao contrário de muitos concorrentes, YOLOv8 suporta nativamente a classificação de imagens, a segmentação de instâncias, a estimativa de pose e a deteção orientada de objectos (OBB) numa única API de fácil utilização.

Pontos Fortes

  • Eficiência excecional: Optimiza a utilização da memória e a carga computacional, permitindo a implementação em dispositivos de ponta como o NVIDIA Jetson e o Raspberry Pi.
  • Velocidade de treinamento: Requer significativamente menos memória CUDA e tempo para treinar em comparação com as arquitecturas baseadas em transformadores.
  • Ecossistema rico: Apoiado por documentação abrangente, suporte ativo da comunidade e integrações perfeitas com ferramentas como TensorRT e OpenVINO.
  • Facilidade de utilização: A experiência "pip install ultralytics" permite que os programadores comecem a treinar e a fazer previsões em minutos.

Saiba mais sobre o YOLOv8.

RTDETRv2: Precisão do transformador de pressão

O RTDETRv2 é uma evolução do Transformador de Deteção em Tempo RealRT-DETR), desenvolvido para aproveitar as capacidades de contexto global dos Transformadores de Visão (ViTs), ao mesmo tempo que tenta atenuar os seus problemas de latência inerentes. O seu objetivo é superar os modelos YOLO em termos de precisão, tirando partido dos mecanismos de auto-atenção.

  • Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
  • Organização:Baidu
  • Data: 2024-07-24 (lançamento da v2)
  • Arxiv:DocumentoRT-DETRv2
  • GitHub:RT-DETR

Visão Geral da Arquitetura

O RTDETRv2 emprega uma abordagem híbrida, utilizando um backbone CNN (tipicamente ResNet) para extrair caraterísticas que são depois processadas por um codificador-descodificador transformador. O mecanismo de auto-atenção permite que o modelo compreenda as relações entre partes distantes de uma imagem, o que ajuda em cenas complexas com oclusão. A versão 2 introduz um operador de amostragem discreta e melhora a estabilidade do treino dinâmico.

Forças e Fraquezas

  • Forças:
    • Contexto global: Excelente para lidar com relações complexas de objectos e oclusões devido à sua natureza transformadora.
    • Elevada precisão: Os modelos maiores atingem pontuaçõesmAP ligeiramente superiores no conjunto de dados COCO em comparação com o YOLOv8x.
    • Sem âncora: Tal como YOLOv8, elimina a necessidade de afinação manual da caixa de ancoragem.
  • Fraquezas:
    • Intensivo em termos de recursos: FLOPs e contagens de parâmetros elevados tornam-no mais lento nas CPUs e requerem GPUs dispendiosas para o treino.
    • Suporte limitado de tarefas: Principalmente centrado na deteção de objectos, sem a versatilidade multitarefa nativa (segmentação, pose, etc.) da estrutura Ultralytics .
    • Implementação complexa: A arquitetura do transformador pode ser mais difícil de otimizar para alvos móveis e incorporados do que as CNNs puras.

Saiba mais sobre o RTDETRv2.

Comparação pormenorizada: Arquitetura e usabilidade

Eficiência de treino e memória

Uma das diferenças mais marcantes reside no processo de formação. Os modelos baseados em transformadores, como o RTDETRv2, são notoriamente ávidos por dados e consomem muita memória. Eles geralmente exigem muito mais memóriaCUDA e períodos de treinamento mais longos para convergir em comparação com CNNs como YOLOv8. Para pesquisadores ou startups com recursos limitados GPU , Ultralytics YOLOv8 oferece uma barreira de entrada muito mais acessível, permitindo um treinamento personalizado eficiente em hardware de nível de consumidor.

Versatilidade e ecossistema

Embora o RTDETRv2 seja um forte concorrente académico para tarefas de deteção puras, falta-lhe o ecossistema holístico que rodeia os modelos Ultralytics . YOLOv8 não é apenas um modelo; faz parte de uma plataforma que o suporta:

Considerações sobre o hardware

Se o seu alvo de implantação envolve inferênciaCPU (por exemplo, servidores padrão, laptops) ou dispositivos de borda de baixa potência, YOLOv8 é esmagadoramente a melhor escolha devido à sua arquitetura CNN optimizada. O RTDETRv2 é melhor reservado para cenários com aceleração dedicada de GPU de ponta.

Casos de Uso Ideais

Quando escolher YOLOv8

YOLOv8 é a escolha preferida para a grande maioria das implementações no mundo real. O seu equilíbrio entre velocidade, precisão e facilidade de utilização torna-o ideal para:

  • Análise em tempo real: Monitorização de tráfego, análise de retalho e análise desportiva em que é crucial um FPS elevado.
  • Computação de ponta: Executar IA em drones, robôs ou aplicações móveis onde a potência e a computação são limitadas.
  • Aplicações multi-tarefa: Projectos que requerem seguimento, segmentação e classificação de objectos em simultâneo.

Quando escolher RTDETRv2

O RTDETRv2 destaca-se em nichos específicos em que o custo computacional é secundário em relação aos ganhos marginais de precisão:

  • Investigação académica: Estudo das propriedades dos transformadores de visão.
  • Processamento baseado na nuvem: Processamento em lote de imagens em poderosos parques de servidores onde a latência é menos crítica do que a deteção de objectos difíceis e ocluídos.

Exemplo de código: Começar a utilizar o YOLOv8

A API Ultralytics foi concebida para ser simples. É possível carregar um modelo pré-treinado, executar previsões ou iniciar o treinamento com apenas algumas linhas de código Python .

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

Conclusão

Enquanto o RTDETRv2 demonstra o potencial das arquitecturas de transformadores para alcançar uma elevada precisão, Ultralytics YOLOv8 continua a ser a escolha superior para visão computacional prática e de nível de produção. A eficiência arquitetónica do YOLOv8 resulta numa inferência mais rápida, em custos de formação mais baixos e numa compatibilidade de hardware mais ampla. Além disso, o robusto ecossistema Ultralytics garante que os programadores têm as ferramentas, a documentação e o apoio da comunidade necessários para dar vida às suas soluções de IA de forma eficiente.

Para quem procura o que há de mais moderno em termos de desempenho e eficiência, recomendamos também que explore o YOLO11que aperfeiçoa ainda mais o legado YOLO com uma relação precisão-velocidade ainda melhor.

Explore Outros Modelos

Se estiver interessado em explorar mais opções no ecossistema Ultralytics ou em comparar outros modelos SOTA, consulte estes recursos:

  • YOLO11: O mais recente modelo YOLO de última geração.
  • YOLOv10: Um detetor de objectos de ponta a ponta em tempo real.
  • RT-DETR: O transformador de deteção em tempo real original.
  • YOLOv9: centra-se na informação de gradiente programável.

Comentários