Saltar para o conteúdo

Comparação técnica: YOLOX vs YOLOv6-3.0 para deteção de objectos

A escolha do modelo de deteção de objectos correto é crucial para os projectos de visão por computador. Esta página fornece uma comparação técnica entre dois modelos populares e eficientes: YOLOX e YOLOv6-3.0. Iremos explorar as suas diferenças arquitectónicas, referências de desempenho e aplicações adequadas para o ajudar a tomar uma decisão informada.

Antes de nos debruçarmos sobre os pormenores, vejamos uma panorâmica do desempenho de ambos os modelos em conjunto com outros:

YOLOX: A excelência sem âncora

O YOLOX, apresentado por Megvii(Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun - 2021-07-18), destaca-se pelo seu design sem âncoras, simplificando a complexidade associada aos modelos YOLO tradicionais. O seu objetivo é colmatar a lacuna entre a investigação e as aplicações industriais com as suas capacidades de deteção de objectos eficientes e precisas.

Arquitetura e principais caraterísticas

O YOLOX adopta uma abordagem simplificada, eliminando as caixas de ancoragem, o que simplifica o processo de formação e reduz o número de hiperparâmetros. As principais inovações arquitectónicas incluem:

  • Deteção sem âncoras: Elimina a necessidade de âncoras predefinidas, reduzindo a complexidade do design e melhorando a generalização, tornando-o adaptável a vários tamanhos de objectos e rácios de aspeto.
  • Cabeça desacoplada: Separa as tarefas de classificação e localização em ramos distintos, levando a um melhor desempenho, especialmente em termos de precisão.
  • Atribuição de rótulos SimOTA: Utiliza a estratégia avançada de atribuição de etiquetas SimOTA, que atribui dinamicamente alvos com base nos próprios resultados previstos, melhorando a eficiência e a precisão da formação.
  • Treinamento de precisão mista: Aproveita a precisão mista para acelerar tanto o treinamento quanto a inferência, otimizando a eficiência computacional.

Métricas de desempenho

Os modelos YOLOX alcançam a precisão mais avançada entre os detectores de objectos em tempo real, mantendo velocidades de inferência competitivas. Consulte a tabela de comparação abaixo para obter métricas detalhadas.

Casos de utilização

  • Aplicações exigentes de elevada exatidão: Ideal para cenários em que a precisão é fundamental, como a análise de imagens médicas ou a análise de imagens de satélite, em que a falta de objectos críticos pode ter consequências significativas.
  • Investigação e desenvolvimento: Devido à sua estrutura clara e simplificada, o YOLOX é adequado para fins de investigação e desenvolvimento de metodologias de deteção de objectos.
  • Tarefas versáteis de deteção de objectos: Aplicável a um vasto espetro de tarefas de deteção de objectos, desde a investigação académica até à implementação industrial, beneficiando do seu design robusto e da sua elevada precisão.

Pontos fortes e pontos fracos

Pontos fortes:

  • Elevada precisão: Obtém excelentes resultados de mAP, tornando-o adequado para aplicações que requerem uma deteção precisa de objectos.
  • Design sem âncora: Simplifica a arquitetura, reduz os hiperparâmetros e facilita a implementação.
  • Versatilidade: Adaptável a uma vasta gama de tarefas de deteção de objectos.

Pontos fracos:

  • Velocidade de inferência: Pode ser ligeiramente mais lento do que modelos altamente optimizados como o YOLOv6-3.0, especialmente em dispositivos de ponta.
  • Tamanho do modelo: Algumas variantes maiores podem ter tamanhos de modelo consideráveis, o que pode ser uma preocupação para implementações com recursos limitados.

Saber mais sobre YOLOX

YOLOv6-3.0: Optimizado para velocidade e eficiência

O YOLOv6-3.0, desenvolvido pela Meituan(Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu - 2023-01-13), foi concebido para uma inferência de alta velocidade e eficiência, visando particularmente as aplicações industriais e a implantação de ponta. A versão 3.0 representa uma atualização significativa centrada no aumento da velocidade e da precisão.

Arquitetura e principais caraterísticas

O YOLOv6-3.0 dá prioridade à velocidade de inferência através de optimizações arquitectónicas sem comprometer significativamente a precisão. As principais caraterísticas incluem:

  • Backbone de Reparametrização Eficiente: Utiliza um backbone reparametrizado para acelerar a velocidade de inferência através da fusão de camadas de convolução e normalização de lotes.
  • Bloco híbrido: Utiliza um design de bloco de rede híbrido que equilibra precisão e eficiência, optimizando o desempenho em várias plataformas de hardware.
  • Design de rede neural com reconhecimento de hardware: Foi concebido tendo em mente a eficiência do hardware, o que o torna particularmente adequado para a implementação em dispositivos com recursos limitados, como o Raspberry Pi e oNVIDIA Jetson.
  • Estratégia de treinamento otimizada: Incorpora técnicas de treinamento refinadas para melhorar a convergência e o desempenho geral.

Métricas de desempenho

O YOLOv6-3.0 destaca-se pela velocidade de inferência, alcançando FPS (frames por segundo) notáveis e mantendo pontuações mAP competitivas. Consulte a tabela abaixo para obter métricas de desempenho detalhadas.

Casos de utilização

  • Deteção de objectos em tempo real: Ideal para aplicações em que a baixa latência e o processamento rápido são críticos, tais como sistemas de alarme de segurança, retalho inteligente e veículos autónomos.
  • Implantação em dispositivos de borda: Optimizado para implementação em dispositivos de ponta com recursos computacionais limitados devido ao seu design eficiente e tamanhos de modelo mais pequenos.
  • Aplicações industriais: Adaptado a aplicações industriais práticas e reais que necessitam de uma deteção de objectos rápida e eficiente no fabrico, vigilância e automação.

Pontos fortes e pontos fracos

Pontos fortes:

  • Elevada velocidade de inferência: Excelente em termos de velocidade, tornando-o ideal para tarefas de deteção de objectos em tempo real.
  • Design eficiente: Os modelos mais pequenos e a arquitetura optimizada são perfeitos para dispositivos com recursos limitados.
  • Foco industrial: Especificamente concebido para aplicações práticas em indústrias que requerem uma deteção de objectos rápida e eficiente.

Pontos fracos:

  • Compensação da precisão: Pode apresentar uma precisão ligeiramente inferior em comparação com modelos como o YOLOX, especialmente em conjuntos de dados complexos em que a precisão tem prioridade sobre a velocidade.
  • Flexibilidade: Possivelmente menos adaptáveis a tarefas de investigação altamente especializadas em comparação com arquitecturas mais flexíveis concebidas para aplicações de investigação mais vastas.

Saiba mais sobre o YOLOv6-3.0

Tabela de comparação de modelos

Modelo tamanho
(pixéis)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

Conclusão

Tanto o YOLOX como o YOLOv6-3.0 são poderosos detectores de objectos de uma só fase, cada um deles satisfazendo diferentes prioridades. O YOLOX destaca-se pela sua precisão e simplicidade arquitetónica, o que o torna uma excelente escolha para investigação e aplicações que exigem elevada precisão. O YOLOv6-3.0 dá prioridade à velocidade e à eficiência, tornando-o excecionalmente adequado para aplicações industriais em tempo real e implementações de ponta.

Para os utilizadores que procuram outras opções, Ultralytics oferece uma gama de modelos de vanguarda. Considere explorar o Ultralytics YOLOv8 para um equilíbrio entre desempenho e flexibilidade, o YOLOv10 como a mais recente iteração em deteção em tempo real, ou mesmo o YOLO11 para obter os recursos mais avançados. Alternativamente, para aplicações em tempo real, RT-DETR apresenta uma arquitetura interessante a investigar.

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários