Comparação técnica: YOLOX vs YOLOv6-3.0 para deteção de objectos
A escolha do modelo de deteção de objectos correto é crucial para os projectos de visão por computador. Esta página fornece uma comparação técnica entre dois modelos populares e eficientes: YOLOX e YOLOv6-3.0. Iremos explorar as suas diferenças arquitectónicas, referências de desempenho e aplicações adequadas para o ajudar a tomar uma decisão informada.
Antes de nos debruçarmos sobre os pormenores, vejamos uma panorâmica do desempenho de ambos os modelos em conjunto com outros:
YOLOX: A excelência sem âncora
O YOLOX, apresentado por Megvii(Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun - 2021-07-18), destaca-se pelo seu design sem âncoras, simplificando a complexidade associada aos modelos YOLO tradicionais. O seu objetivo é colmatar a lacuna entre a investigação e as aplicações industriais com as suas capacidades de deteção de objectos eficientes e precisas.
Arquitetura e principais caraterísticas
O YOLOX adopta uma abordagem simplificada, eliminando as caixas de ancoragem, o que simplifica o processo de formação e reduz o número de hiperparâmetros. As principais inovações arquitectónicas incluem:
- Deteção sem âncoras: Elimina a necessidade de âncoras predefinidas, reduzindo a complexidade do design e melhorando a generalização, tornando-o adaptável a vários tamanhos de objectos e rácios de aspeto.
- Cabeça desacoplada: Separa as tarefas de classificação e localização em ramos distintos, levando a um melhor desempenho, especialmente em termos de precisão.
- Atribuição de rótulos SimOTA: Utiliza a estratégia avançada de atribuição de etiquetas SimOTA, que atribui dinamicamente alvos com base nos próprios resultados previstos, melhorando a eficiência e a precisão da formação.
- Treinamento de precisão mista: Aproveita a precisão mista para acelerar tanto o treinamento quanto a inferência, otimizando a eficiência computacional.
Métricas de desempenho
Os modelos YOLOX alcançam a precisão mais avançada entre os detectores de objectos em tempo real, mantendo velocidades de inferência competitivas. Consulte a tabela de comparação abaixo para obter métricas detalhadas.
Casos de utilização
- Aplicações exigentes de elevada exatidão: Ideal para cenários em que a precisão é fundamental, como a análise de imagens médicas ou a análise de imagens de satélite, em que a falta de objectos críticos pode ter consequências significativas.
- Investigação e desenvolvimento: Devido à sua estrutura clara e simplificada, o YOLOX é adequado para fins de investigação e desenvolvimento de metodologias de deteção de objectos.
- Tarefas versáteis de deteção de objectos: Aplicável a um vasto espetro de tarefas de deteção de objectos, desde a investigação académica até à implementação industrial, beneficiando do seu design robusto e da sua elevada precisão.
Pontos fortes e pontos fracos
Pontos fortes:
- Elevada precisão: Obtém excelentes resultados de mAP, tornando-o adequado para aplicações que requerem uma deteção precisa de objectos.
- Design sem âncora: Simplifica a arquitetura, reduz os hiperparâmetros e facilita a implementação.
- Versatilidade: Adaptável a uma vasta gama de tarefas de deteção de objectos.
Pontos fracos:
- Velocidade de inferência: Pode ser ligeiramente mais lento do que modelos altamente optimizados como o YOLOv6-3.0, especialmente em dispositivos de ponta.
- Tamanho do modelo: Algumas variantes maiores podem ter tamanhos de modelo consideráveis, o que pode ser uma preocupação para implementações com recursos limitados.
YOLOv6-3.0: Optimizado para velocidade e eficiência
O YOLOv6-3.0, desenvolvido pela Meituan(Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu - 2023-01-13), foi concebido para uma inferência de alta velocidade e eficiência, visando particularmente as aplicações industriais e a implantação de ponta. A versão 3.0 representa uma atualização significativa centrada no aumento da velocidade e da precisão.
Arquitetura e principais caraterísticas
O YOLOv6-3.0 dá prioridade à velocidade de inferência através de optimizações arquitectónicas sem comprometer significativamente a precisão. As principais caraterísticas incluem:
- Backbone de Reparametrização Eficiente: Utiliza um backbone reparametrizado para acelerar a velocidade de inferência através da fusão de camadas de convolução e normalização de lotes.
- Bloco híbrido: Utiliza um design de bloco de rede híbrido que equilibra precisão e eficiência, optimizando o desempenho em várias plataformas de hardware.
- Design de rede neural com reconhecimento de hardware: Foi concebido tendo em mente a eficiência do hardware, o que o torna particularmente adequado para a implementação em dispositivos com recursos limitados, como o Raspberry Pi e oNVIDIA Jetson.
- Estratégia de treinamento otimizada: Incorpora técnicas de treinamento refinadas para melhorar a convergência e o desempenho geral.
Métricas de desempenho
O YOLOv6-3.0 destaca-se pela velocidade de inferência, alcançando FPS (frames por segundo) notáveis e mantendo pontuações mAP competitivas. Consulte a tabela abaixo para obter métricas de desempenho detalhadas.
Casos de utilização
- Deteção de objectos em tempo real: Ideal para aplicações em que a baixa latência e o processamento rápido são críticos, tais como sistemas de alarme de segurança, retalho inteligente e veículos autónomos.
- Implantação em dispositivos de borda: Optimizado para implementação em dispositivos de ponta com recursos computacionais limitados devido ao seu design eficiente e tamanhos de modelo mais pequenos.
- Aplicações industriais: Adaptado a aplicações industriais práticas e reais que necessitam de uma deteção de objectos rápida e eficiente no fabrico, vigilância e automação.
Pontos fortes e pontos fracos
Pontos fortes:
- Elevada velocidade de inferência: Excelente em termos de velocidade, tornando-o ideal para tarefas de deteção de objectos em tempo real.
- Design eficiente: Os modelos mais pequenos e a arquitetura optimizada são perfeitos para dispositivos com recursos limitados.
- Foco industrial: Especificamente concebido para aplicações práticas em indústrias que requerem uma deteção de objectos rápida e eficiente.
Pontos fracos:
- Compensação da precisão: Pode apresentar uma precisão ligeiramente inferior em comparação com modelos como o YOLOX, especialmente em conjuntos de dados complexos em que a precisão tem prioridade sobre a velocidade.
- Flexibilidade: Possivelmente menos adaptáveis a tarefas de investigação altamente especializadas em comparação com arquitecturas mais flexíveis concebidas para aplicações de investigação mais vastas.
Tabela de comparação de modelos
Modelo | tamanho (pixéis) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Conclusão
Tanto o YOLOX como o YOLOv6-3.0 são poderosos detectores de objectos de uma só fase, cada um deles satisfazendo diferentes prioridades. O YOLOX destaca-se pela sua precisão e simplicidade arquitetónica, o que o torna uma excelente escolha para investigação e aplicações que exigem elevada precisão. O YOLOv6-3.0 dá prioridade à velocidade e à eficiência, tornando-o excecionalmente adequado para aplicações industriais em tempo real e implementações de ponta.
Para os utilizadores que procuram outras opções, Ultralytics oferece uma gama de modelos de vanguarda. Considere explorar o Ultralytics YOLOv8 para um equilíbrio entre desempenho e flexibilidade, o YOLOv10 como a mais recente iteração em deteção em tempo real, ou mesmo o YOLO11 para obter os recursos mais avançados. Alternativamente, para aplicações em tempo real, RT-DETR apresenta uma arquitetura interessante a investigar.