Ir para o conteúdo

YOLOv7 vs YOLOv6-3.0: Comparação Detalhada de Modelos para Detecção de Objetos

Escolher o modelo de detecção de objetos ideal é uma decisão crítica em projetos de visão computacional, exigindo um equilíbrio entre precisão, velocidade e uso de recursos. Esta página fornece uma comparação técnica detalhada entre YOLOv7 e YOLOv6-3.0, dois modelos proeminentes conhecidos por suas capacidades de detecção de objetos. Analisaremos suas arquiteturas, benchmarks de desempenho e aplicações adequadas para orientar seu processo de seleção de modelo.

YOLOv7: Precisão e Técnicas Avançadas

YOLOv7, desenvolvido por investigadores do Instituto de Ciência da Informação, Academia Sinica, Taiwan, representa um passo significativo na deteção de objetos em tempo real, focando-se na obtenção de alta precisão, mantendo a eficiência.

Autores: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Docs: https://docs.ultralytics.com/models/yolov7/

Arquitetura e Principais Características

O YOLOv7 introduz várias inovações arquitetónicas e estratégias de treino destinadas a impulsionar o desempenho sem aumentar significativamente os custos de inferência. As principais características incluem:

  • E-ELAN (Extended-Efficient Layer Aggregation Networks): Este componente central no backbone do modelo melhora a capacidade da rede de aprender recursos de forma eficaz, melhorando a eficiência dos parâmetros e da computação. Mais detalhes podem ser encontrados no artigo original.
  • Escalonamento de Modelo: Implementa métodos de escalonamento composto para profundidade e largura do modelo, otimizando o desempenho em diferentes tamanhos de modelo com base nos princípios do modelo baseado em concatenação.
  • Treinamento com Cabeçalho Auxiliar: Utiliza cabeçalhos auxiliares durante a fase de treinamento para fortalecer o aprendizado de recursos, os quais são removidos para inferência, a fim de manter a velocidade. Este conceito está relacionado a técnicas de supervisão profunda usadas em outras redes neurais.
  • Melhorias "Bag-of-Freebies": Incorpora técnicas de treino avançadas, como aumento de dados e refinamentos na atribuição de etiquetas, que melhoram a precisão sem custos adicionais de inferência.

Pontos Fortes

Fraquezas

  • Complexidade: Os recursos arquitetônicos avançados e as técnicas de treinamento podem tornar o modelo mais complexo de entender e ajustar em comparação com arquiteturas mais simples como o YOLOv5.
  • Treinamento com Uso Intenso de Recursos: As variantes maiores do YOLOv7 (por exemplo, YOLOv7-E6E) exigem recursos computacionais substanciais para treinamento.

Saiba mais sobre o YOLOv7.

YOLOv6-3.0: Eficiência e Velocidade Industrial

YOLOv6-3.0, desenvolvido pela Meituan, é projetado para aplicações industriais que exigem detecção de objetos de alto desempenho com foco em velocidade e eficiência. A versão 3.0 aprimora significativamente seus predecessores, oferecendo precisão aprimorada e tempos de inferência mais rápidos.

Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu
Organização: Meituan
Data: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Docs: https://docs.ultralytics.com/models/yolov6/

Arquitetura e Principais Características

O YOLOv6-3.0 foi projetado tendo em mente a implementação, apresentando várias escolhas arquitetónicas importantes que priorizam a velocidade de inferência.

  • Design Consciente do Hardware: A arquitetura é adaptada para um desempenho eficiente em várias plataformas de hardware, particularmente GPUs, usando blocos reparametrizáveis no estilo RepVGG.
  • Backbone EfficientRep e Neck Rep-PAN: Estas estruturas são projetadas para reduzir gargalos computacionais e custos de acesso à memória, o que se traduz diretamente em inferência mais rápida.
  • Decoupled Head: Separa os heads de classificação e localização, o que demonstrou melhorar a convergência e a precisão final do modelo, uma técnica também vista em modelos como o YOLOX.

Pontos Fortes

  • Alta Velocidade de Inferência: Otimizado para inferência rápida, tornando-o altamente adequado para aplicações em tempo real onde a latência é um fator crítico.
  • Foco Industrial: Projetado com cenários de implementação industrial em mente, garantindo robustez e eficiência em ambientes práticos como manufatura.
  • Design Eficiente: As variantes menores do YOLOv6-3.0 têm uma contagem de parâmetros e FLOP muito baixa, tornando-as ideais para ambientes com recursos limitados.

Fraquezas

  • Compromisso de Precisão: Embora altamente eficiente, pode exibir uma precisão ligeiramente inferior em conjuntos de dados complexos em comparação com modelos como o YOLOv7 que priorizam a máxima precisão em vez da velocidade.
  • Ecossistema e Versatilidade: O ecossistema em torno do YOLOv6 é menos abrangente do que o dos modelos Ultralytics e está focado principalmente na detecção de objetos.

Casos de Uso

O YOLOv6-3.0 se destaca em aplicações onde velocidade e eficiência são fundamentais:

  • Automação Industrial: Controle de qualidade e monitoramento de processos na fabricação.
  • Sistemas em Tempo Real: Aplicações com requisitos de latência estritos, como robótica e vigilância.
  • Computação de Borda: Implantação em dispositivos com recursos limitados devido ao seu design eficiente. Consulte os guias sobre como implantar em dispositivos como o NVIDIA Jetson.

Saiba mais sobre o YOLOv6-3.0.

Comparativo de Desempenho: YOLOv7 vs YOLOv6-3.0

A tabela abaixo resume as métricas de desempenho para variantes comparáveis de YOLOv7 e YOLOv6-3.0 no conjunto de dados COCO.

Modelo tamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

Nota: Os benchmarks de velocidade podem variar com base no hardware, software (TensorRT, ONNX, OpenVINO), tamanho do lote e configurações específicas. Os valores de mAP são normalmente reportados no conjunto de dados COCO val.

Com base na tabela, o YOLOv7x alcança o maior mAP, indicando uma precisão superior. No entanto, os modelos YOLOv6-3.0, particularmente as variantes menores como o YOLOv6-3.0n, oferecem velocidades de inferência significativamente mais rápidas, especialmente em GPU com otimização TensorRT, e têm menos parâmetros e FLOPs, tornando-os altamente eficientes. A escolha depende se a prioridade é a precisão máxima (YOLOv7) ou a velocidade/eficiência ideal (YOLOv6-3.0).

Por que escolher os modelos Ultralytics YOLO?

Para usuários que buscam modelos de última geração dentro de um ecossistema abrangente e fácil de usar, a Ultralytics oferece o YOLOv8 e o mais recente Ultralytics YOLO11. Esses modelos oferecem vantagens significativas sobre o YOLOv7 e o YOLOv6.

  • Facilidade de Uso: Os modelos Ultralytics vêm com uma API Python otimizada, documentação extensa e comandos CLI diretos, simplificando o treinamento, a validação e a implementação.
  • Ecosistema Bem Mantido: Beneficie de desenvolvimento ativo, uma forte comunidade de código aberto, atualizações frequentes e integração com ferramentas como o Ultralytics HUB para MLOps perfeito.
  • Equilíbrio de Desempenho: Os modelos Ultralytics alcançam um excelente equilíbrio entre velocidade e precisão, adequados para diversos cenários do mundo real, desde dispositivos de borda até servidores em nuvem.
  • Versatilidade: Modelos como YOLOv8 e YOLO11 suportam múltiplas tarefas além da detecção de objetos, incluindo segmentação, classificação, estimativa de pose e detecção de objetos orientados (OBB), oferecendo uma solução unificada.
  • Eficiência no Treinamento: Beneficie-se de processos de treinamento eficientes, pesos pré-treinados prontamente disponíveis em conjuntos de dados como o COCO e tempos de convergência mais rápidos.

Para uma exploração mais aprofundada, você também pode achar comparações com outros modelos como RT-DETR esclarecedoras.



📅 Criado há 1 ano ✏️ Atualizado há 1 mês

Comentários