Saltar para o conteúdo

YOLOv10 vs. YOLO: Uma comparação técnica detalhada para a deteção de objectos

A escolha do modelo de deteção de objectos ideal é crucial para as aplicações de visão por computador, com modelos que diferem significativamente em termos de precisão, velocidade e eficiência. Esta página oferece uma comparação técnica detalhada entre o YOLOv10 e o YOLO, dois modelos avançados no panorama da deteção de objectos. Iremos explorar as suas arquitecturas, referências de desempenho e aplicações adequadas para orientar o seu processo de seleção de modelos.

YOLOv10

O YOLOv10 é a mais recente evolução da série YOLO , conhecida pelas suas capacidades de deteção de objectos em tempo real. Desenvolvido por investigadores da Universidade de Tsinghua, e apresentado em 2024-05-23(arXiv preprint arXiv:2405.14458), o YOLOv10 foi concebido para uma eficiência de ponta a ponta e um desempenho melhorado. A implementação oficial PyTorch está disponível no GitHub.

Arquitetura e principais caraterísticas

O YOLOv10 apresenta várias inovações centradas na simplificação da arquitetura e na melhoria do equilíbrio entre velocidade e precisão, avançando para uma formação sem NMS e uma conceção de modelos eficiente. Os principais destaques da arquitetura incluem:

  • Treinamento sem NMS: Emprega atribuições duplas consistentes para treinamento sem Supressão Não Máxima (NMS), reduzindo a sobrecarga de pós-processamento e a latência de inferência.
  • Conceção holística orientada para a eficiência e a precisão: Otimização abrangente de vários componentes do modelo para minimizar a redundância computacional e melhorar as capacidades de deteção.
  • Estrutura de backbone e de rede: Camadas de extração de caraterísticas refinadas e uma estrutura de rede simplificada para uma melhor eficiência dos parâmetros e um processamento mais rápido.

Métricas de desempenho

O YOLOv10 oferece um desempenho de ponta em várias escalas de modelos, fornecendo uma gama de opções para atender a diferentes necessidades computacionais. As métricas de desempenho no conjunto de dados COCO incluem:

  • mAP: Atinge uma precisão média competitiva (mAP) no conjunto de dados de validação COCO. Por exemplo, o YOLOv10-S atinge 46,7% de mAPval50-95.
  • Velocidade de inferência: Oferece velocidades de inferência impressionantes, com o YOLOv10-N a atingir um tempo de inferência de 1,56 ms no TensorRT10 T4.
  • Tamanho do modelo: Disponível em vários tamanhos (N, S, M, B, L, X) com tamanhos de modelo que variam entre os parâmetros 2,3M para YOLOv10-N e 56,9M para YOLOv10-X.

Pontos fortes e pontos fracos

Pontos fortes:

  • Desempenho em tempo real: Optimizado para velocidade e eficiência, tornando-o ideal para aplicações em tempo real.
  • Elevada precisão: Atinge a mais alta precisão, especialmente com variantes de modelos maiores como o YOLOv10-X.
  • Eficiência de ponta a ponta: O design sem NMS reduz a latência e simplifica a implantação.
  • Versatilidade: Adequado para várias tarefas de deteção de objectos e adaptável a diferentes plataformas de hardware, incluindo dispositivos de ponta como o Raspberry Pi e o NVIDIA Jetson.
  • Facilidade de utilização: A integração com opacote Ultralytics Python simplifica os fluxos de trabalho de formação, validação e implementação.

Pontos fracos:

  • Modelo emergente: Sendo um modelo recente, o apoio da comunidade e os pesos pré-treinados em ecossistemas mais amplos podem ainda estar a desenvolver-se em comparação com modelos mais estabelecidos.
  • Compensação: Os modelos mais pequenos dão prioridade à velocidade, potencialmente à custa de alguma precisão em comparação com variantes maiores ou modelos mais complexos.

Casos de utilização

O YOLOv10 é adequado para aplicações que requerem uma deteção de objectos precisa e de alta velocidade, tais como

Saiba mais sobre o YOLOv10

DAMO-YOLO

O YOLO, desenvolvido pelo Grupo Alibaba, é um modelo de deteção de objectos de elevado desempenho apresentado em 2022(arXiv preprint arXiv:2211.15444v2). Foi concebido para ser rápido e preciso, incorporando várias técnicas avançadas para uma deteção de objectos eficiente. A implementação oficial e a documentação estão disponíveis no GitHub.

Arquitetura e principais caraterísticas

A YOLO integra vários componentes inovadores para alcançar um equilíbrio entre velocidade e precisão:

  • Backbone NAS: Utiliza a Pesquisa de Arquitetura Neural (NAS) para conceber redes de backbone eficientes optimizadas para tarefas de deteção de objectos.
  • RepGFPN eficiente: Emprega uma rede de pirâmide de caraterísticas de gradiente reparametrizado (RepGFPN) para fusão eficiente de caraterísticas e representação de caraterísticas em várias escalas.
  • ZeroHead: Uma cabeça de deteção leve concebida para minimizar a sobrecarga computacional, mantendo a precisão da deteção.
  • AlignedOTA: Utiliza a Aligned Optimal Transport Assignment (AlignedOTA) para uma melhor atribuição de etiquetas durante a formação, melhorando o desempenho da deteção.
  • Melhoria da destilação: Incorpora técnicas de destilação de conhecimento para aumentar ainda mais o desempenho do modelo.

Métricas de desempenho

Os modelos YOLO estão disponíveis em vários tamanhos (Tiny, Small, Medium, Large) para responder a diferentes necessidades de desempenho. Os principais indicadores de desempenho incluem:

  • mAP: Atinge um elevado mAP em conjuntos de dados de referência como o COCO. O YOLO, por exemplo, atinge 50,8% de mAPval50-95.
  • Velocidade de inferência: Oferece velocidades de inferência rápidas, tornando-o adequado para aplicações em tempo real, com o YOLO a atingir um tempo de inferência de 2,32 ms no T4 TensorRT10.
  • Tamanho do modelo: Os tamanhos dos modelos variam, proporcionando flexibilidade para diferentes cenários de implementação, desde parâmetros de 8,5 M para o YOLO até 42,1 M para o YOLO.

Pontos fortes e pontos fracos

Pontos fortes:

  • Elevada precisão: Obtém uma excelente precisão de deteção através de inovações arquitectónicas e técnicas de formação avançadas.
  • Inferência rápida: Concebida para ser rápida, proporcionando um desempenho de inferência eficiente adequado para sistemas em tempo real.
  • Design eficiente: Incorpora backbones NAS e cabeças leves para otimizar a eficiência computacional.
  • Conjunto abrangente de recursos: Integra várias técnicas avançadas como RepGFPN e AlignedOTA para um desempenho robusto.

Pontos fracos:

  • Complexidade: A integração do NAS e de múltiplos componentes avançados pode introduzir complexidade na personalização e modificação.
  • Requisitos de recursos: Os modelos YOLO de maiores dimensões podem exigir recursos computacionais substanciais em comparação com alternativas extremamente leves.

Casos de utilização

O YOLO é adequado para aplicações que exigem elevada precisão e velocidade na deteção de objectos, tais como:

Saber mais sobre YOLO

Modelo tamanho
(pixéis)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Os utilizadores poderão também estar interessados em comparar o YOLOv10 e o YOLO com outros modelos da família Ultralytics YOLO e não só:

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários