Ir para o conteúdo

YOLOv6.0 vs EfficientDet: Equilíbrio entre velocidade e precisão na deteção de objectos

No cenário em rápida evolução da visão computacional, a seleção da arquitetura de deteção de objectos correta é fundamental para o sucesso do seu projeto. Esta comparação analisa YOLOv6.0 e o EfficientDet, dois modelos proeminentes que abordam o desafio do reconhecimento visual a partir de ângulos distintos. Enquanto o EfficientDet se concentra na eficiência e escalabilidade dos parâmetros, YOLOv6.0 foi concebido especificamente para aplicações industriais em que a latência da inferência e a velocidade em tempo real não são negociáveis.

Métricas de desempenho e análise técnica

A diferença fundamental entre estas duas arquitecturas reside na sua filosofia de conceção. O EfficientDet depende de um mecanismo sofisticado de fusão de caraterísticas conhecido como BiFPN, que melhora a precisão, mas muitas vezes à custa da velocidade de computação em GPUs. Por outro lado, YOLOv6.0 adopta um design sensível ao hardware, utilizando a reparametrização para simplificar as operações durante a inferência, resultando em FPS (fotogramas por segundo) significativamente mais elevados.

A tabela abaixo ilustra este compromisso. Embora o EfficientDet-d7 atinja um mAP elevado, a sua latência é substancial. Em contraste, YOLOv6.0l oferece uma precisão comparável com tempos de inferência drasticamente reduzidos, tornando-o muito mais adequado para cenários de inferência em tempo real.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Otimização do desempenho

Para implantações industriais, a combinação YOLOv6.0 com o TensorRT pode produzir enormes melhorias de velocidade. A simplicidade arquitetónica do YOLOv6 permite-lhe mapear de forma muito eficiente as instruções de hardware GPU em comparação com as complexas redes de pirâmide de caraterísticas encontradas em modelos mais antigos.

YOLOv6.0: Criado para a indústria

YOLOv6.0 é um detetor de objectos de fase única concebido para colmatar a lacuna entre a investigação académica e os requisitos industriais. Dá prioridade à velocidade sem sacrificar a precisão necessária para tarefas como a inspeção de qualidade.

Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu
Organização:Meituan
Data: 2023-01-13
Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
GitHub:YOLOv6
Docs:YOLOv6 Documentation

Arquitetura e pontos fortes

O núcleo do YOLOv6.0 é o seu backbone eficiente e o design "RepOpt". Ao utilizar a reparametrização, o modelo desacopla as estruturas de múltiplas ramificações em tempo de treino das estruturas de ramificação única em tempo de inferência. Isto resulta num modelo que é fácil de treinar com gradientes ricos, mas extremamente rápido de executar.

  • Destilação automática: A estratégia de formação utiliza a auto-destilação, em que a previsão do próprio modelo actua como um rótulo suave para orientar a aprendizagem, aumentando a precisão sem dados adicionais.
  • Suporte de quantização: Foi concebido com a quantização de modelos em mente, minimizando as quedas de precisão ao converter para INT8 para implementação de ponta.
  • Foco industrial: Ideal para IA no fabrico e na robótica, onde a latência de milissegundos conta.

Saiba mais sobre o YOLOv6.0

EfficientDet: Precisão escalável

O EfficientDet revolucionou o campo ao introduzir o conceito de escala composta na deteção de objectos. Optimiza a profundidade, largura e resolução da rede em simultâneo para obter um excelente desempenho por parâmetro.

Autores: Mingxing Tan, Ruoming Pang, e Quoc V. Le
Organização:Google
Data: 2019-11-20
Arxiv:EfficientDet: Deteção de objectos escalável e eficiente
GitHub:google

Arquitetura e pontos fortes

O EfficientDet baseia-se na espinha dorsal do EfficientNet e introduz a rede de pirâmide de caraterísticas bidireccionais (BiFPN). Esta estrutura de pescoço complexa permite uma fusão fácil e rápida de caraterísticas multi-escala.

  • BiFPN: Ao contrário dos FPNs tradicionais, o BiFPN permite que a informação flua tanto de cima para baixo como de baixo para cima, aplicando pesos a diferentes caraterísticas de entrada para enfatizar a sua importância.
  • Escalonamento composto: Um simples coeficiente $\phi$ permite aos utilizadores aumentar a escala do modelo (de d0 a d7) dependendo dos recursos disponíveis, proporcionando uma curva precisão-computação previsível.
  • Eficiência de parâmetros: As variantes mais pequenas (d0-d2) são extremamente leves em termos de tamanho de disco e FLOPs, tornando-as úteis para ambientes com restrições de armazenamento.

Complexidade arquitetónica

Embora o BiFPN seja altamente eficaz em termos de precisão, os seus padrões irregulares de acesso à memória podem torná-lo mais lento nas GPUs em comparação com os blocos de convolução densos e regulares utilizados nas arquitecturas YOLO . É por isso que o EfficientDet é frequentemente comparado com uma latência de inferência mais elevada, apesar de ter menos parâmetros.

Saiba mais sobre o EfficientDet

Casos de Uso no Mundo Real

A escolha entre estes modelos depende frequentemente dos condicionalismos específicos do ambiente de implantação.

Cenários ideais para o YOLOv6.0

  • Fabrico a alta velocidade: Deteção de defeitos em correias transportadoras de movimento rápido onde é necessário um FPS elevado para track cada item.
  • Navegação autónoma: Permitir que a robótica navegue em ambientes dinâmicos através do processamento de feeds de vídeo em tempo real.
  • Computação de borda: Implantação em dispositivos como o NVIDIA Jetson, em que os recursos GPU devem ser maximizados para a taxa de transferência.

Cenários ideais para o EfficientDet

  • Análise médica: análise de imagens estáticas de alta resolução, como a deteção de tumores em raios X, em que o tempo de processamento é menos crítico do que a precisão.
  • Deteção remota: Processamento de imagens de satélite offline para identificar alterações ambientais ou desenvolvimento urbano.
  • IoT com pouco armazenamento: Dispositivos com capacidade de armazenamento extremamente limitada que requerem um modelo de ficheiro de tamanho reduzido (como o EfficientDet-d0).

A Vantagem Ultralytics: Por que escolher YOLO11?

Embora YOLOv6.0 e o EfficientDet sejam modelos capazes, o Ultralytics YOLO11 representa a vanguarda da tecnologia de visão computacional. YOLO11 aperfeiçoa os melhores atributos das gerações anteriores YOLO e integra-os num ecossistema simples e fácil de utilizar.

Principais vantagens do YOLO11

  1. Facilidade de uso: Ultralytics dá prioridade à experiência do programador. Com uma API Pythonic, é possível treinar, validar e implementar modelos em apenas algumas linhas de código, ao contrário dos complexos ficheiros de configuração frequentemente necessários para o EfficientDet.
  2. Versatilidade: Ao contrário do YOLOv6 e do EfficientDet, que são principalmente modelos de deteção de objectos, YOLO11 suporta nativamente várias tarefas, incluindo segmentação de instâncias, estimativa de pose, caixas delimitadoras orientadas (OBB) e classificação.
  3. Equilíbrio de desempenho: YOLO11 alcança um equilíbrio de última geração entre velocidade e precisão. Supera consistentemente as arquitecturas mais antigas no conjunto de dadosCOCO , mantendo uma baixa latência.
  4. Ecossistema bem mantido: Os modelos Ultralytics são apoiados por uma comunidade ativa e actualizações frequentes. Tem acesso a uma vasta documentação, tutoriais e integrações perfeitas com ferramentas como o Ultralytics HUB para formação na nuvem e gestão de conjuntos de dados.
  5. Eficiência de treinamento: YOLO11 foi concebido para ser eficiente em termos de recursos durante o treino, convergindo frequentemente mais depressa e exigindo menos memóriaGPU do que os modelos complexos baseados em transformadores ou arquitecturas mais antigas.
from ultralytics import YOLO

# Load the YOLO11 model (recommended over older versions)
model = YOLO("yolo11n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Saiba mais sobre o YOLO11.

Explore Outros Modelos

Se estiver a avaliar opções para o seu pipeline de visão computacional, considere explorar outros modelos no catálogo Ultralytics . O YOLOv8 oferece desempenho robusto para uma ampla gama de tarefas, enquanto o RT-DETR baseado em transformador fornece uma alternativa para cenários que exigem consciência do contexto global. Para aplicações específicas para telemóveis, YOLOv10 também merece ser investigado. A comparação destes com o EfficientDet pode ajudar a ajustar a sua seleção aos seus requisitos específicos de hardware e precisão.


Comentários