YOLO vs YOLOX: Uma comparação técnica pormenorizada
Os modelos de deteção de objectos são essenciais para várias aplicações de visão por computador, e a escolha do modelo certo depende das necessidades específicas do projeto. Esta página oferece uma comparação técnica entre o YOLO e o YOLOX, dois modelos de deteção de objectos topo de gama, analisando a sua arquitetura, desempenho e aplicações.
DAMO-YOLO
O YOLO é um modelo de deteção de objectos rápido e preciso desenvolvido pelo Grupo Alibaba. Introduz várias técnicas novas, incluindo backbones NAS e um RepGFPN eficiente, com o objetivo de obter um elevado desempenho em tarefas de deteção de objectos.
Arquitetura e principais caraterísticas
A arquitetura da YOLO incorpora vários componentes inovadores:
- Backbone NAS: Utiliza um backbone de Pesquisa de Arquitetura Neural (NAS) para uma extração optimizada de caraterísticas.
- RepGFPN: Utiliza uma rede eficiente de pirâmide de caraterísticas de gradiente reparametrizado (GFPN) para melhorar a fusão de caraterísticas.
- ZeroHead: Apresenta uma cabeça de deteção leve chamada ZeroHead para reduzir a sobrecarga computacional.
- AlignedOTA: Utiliza o Aligned Optimal Transport Assignment (OTA) para melhorar a atribuição de etiquetas durante a formação.
Métricas de desempenho
A YOLO demonstra um forte equilíbrio entre velocidade e precisão, oferecendo diferentes tamanhos de modelos para se adaptar a várias necessidades computacionais.
- mAP: Atinge uma precisão média competitiva (mAP) em conjuntos de dados como o COCO.
- Velocidade de inferência: Concebido para uma inferência rápida, tornando-o adequado para aplicações em tempo real.
- Tamanho do modelo: Disponível em diferentes tamanhos (minúsculo, pequeno, médio, grande) com diferentes contagens de parâmetros e FLOPs.
Pontos fortes e pontos fracos
Pontos fortes:
- Elevada precisão: Obtém excelentes pontuações de mAP, indicando uma precisão de deteção robusta.
- Arquitetura eficiente: Componentes inovadores como o RepGFPN e o ZeroHead contribuem para a eficiência.
- Capacidade em tempo real: Concebido para velocidades de inferência rápidas adequadas a sistemas em tempo real.
Pontos fracos:
- Complexidade: Os componentes arquitectónicos avançados podem introduzir complexidade na personalização e implementação.
- Comunidade limitada: Em comparação com modelos mais estabelecidos, a comunidade e os recursos podem ser mais pequenos.
Casos de utilização
O YOLO é adequado para aplicações que exigem elevada precisão e desempenho em tempo real, tais como:
- Robótica avançada: Permitindo a deteção precisa de objectos para tarefas robóticas complexas.
- Vigilância de alta resolução: Processamento de fluxos de vídeo de alta definição para reconhecimento detalhado de objectos.
- Controlo de qualidade industrial: Deteção de defeitos finos nos processos de fabrico.
YOLOX
O YOLOX, desenvolvido pela Megvii, é uma versão sem âncoras do YOLO, que privilegia a simplicidade e o elevado desempenho. O seu design eficiente tem como objetivo colmatar a lacuna entre a investigação e as aplicações industriais.
Arquitetura e principais caraterísticas
O YOLOX destaca-se pela sua abordagem sem âncoras e pela sua arquitetura simplificada:
- Deteção sem âncora: Simplifica o pipeline de deteção ao eliminar a necessidade de caixas de ancoragem, reduzindo a complexidade e a afinação de hiperparâmetros.
- Cabeça desacoplada: Separa as cabeças de classificação e regressão para melhorar o desempenho e a eficiência do treinamento.
- Atribuição de etiquetas SimOTA: Utiliza a estratégia de atribuição de etiquetas SimOTA (Simplified Optimal Transport Assignment) para uma formação mais eficaz.
- Aumentos fortes: Emprega técnicas avançadas de aumento de dados para melhorar a robustez e a generalização do modelo.
Métricas de desempenho
A YOLOX oferece um forte equilíbrio entre precisão e velocidade, com vários tamanhos de modelos disponíveis.
- mAP: Obtém pontuações mAP competitivas em conjuntos de dados de referência como o COCO, superando frequentemente as versões anteriores YOLO .
- Velocidade de inferência: Fornece velocidades de inferência rápidas, adequadas para implantação em tempo real.
- Tamanho do modelo: Oferece diferentes tamanhos de modelo (Nano, Tiny, s, m, l, x) para acomodar diversas restrições de recursos.
Pontos fortes e pontos fracos
Pontos fortes:
- Simplicidade: A conceção sem âncoras simplifica o modelo e reduz a necessidade de afinações complexas.
- Alto desempenho: Atinge uma excelente precisão e velocidade, ultrapassando frequentemente os modelos YOLO baseados em âncoras.
- Facilidade de implementação: Bem documentado e relativamente fácil de implementar e implantar.
Pontos fracos:
- Custo computacional: Os modelos YOLOX de maiores dimensões podem ser computacionalmente intensivos, exigindo mais recursos.
- Otimização para hardware específico: Pode exigir otimização para implementação em dispositivos de borda com recursos muito limitados em comparação com modelos extremamente leves.
Casos de utilização
O YOLOX é versátil e adequado para uma vasta gama de tarefas de deteção de objectos, incluindo:
- Vigilância por vídeo em tempo real: Processamento eficiente de feeds de vídeo para segurança e monitorização.
- Condução autónoma: Fornecimento de deteção de objectos robusta e rápida para veículos autónomos.
- Implantação na borda: Implementação de modelos YOLOX mais pequenos em dispositivos de ponta para aplicações com recursos limitados.
Tabela de comparação de modelos
Modelo | tamanho (pixéis) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Tanto o YOLO como o YOLOX são modelos poderosos de deteção de objectos. O YOLO dá ênfase à precisão e à eficiência através de inovações arquitectónicas, enquanto o YOLOX se concentra na simplicidade e no elevado desempenho com o seu design sem âncoras. A escolha entre eles depende dos requisitos específicos da aplicação, tendo em conta factores como as necessidades de precisão, os requisitos de velocidade e o ambiente de implementação.
Os utilizadores interessados em outros modelos de deteção de objectos de alto desempenho também podem considerar Ultralytics YOLOv8, YOLOv10, e YOLO11. Para comparações com estes e outros modelos, consulte os documentos de comparação de modelosUltralytics .