YOLOv7 vs YOLOv6-3.0: Comparação Detalhada de Modelos para Detecção de Objetos
Escolher o modelo de detecção de objetos ideal é uma decisão crítica em projetos de visão computacional, exigindo um equilíbrio entre precisão, velocidade e uso de recursos. Esta página fornece uma comparação técnica detalhada entre YOLOv7 e YOLOv6-3.0, dois modelos proeminentes conhecidos por suas capacidades de detecção de objetos. Analisaremos suas arquiteturas, benchmarks de desempenho e aplicações adequadas para orientar seu processo de seleção de modelo.
YOLOv7: Precisão e Técnicas Avançadas
YOLOv7, desenvolvido por investigadores do Instituto de Ciência da Informação, Academia Sinica, Taiwan, representa um passo significativo na deteção de objetos em tempo real, focando-se na obtenção de alta precisão, mantendo a eficiência.
Autores: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Docs: https://docs.ultralytics.com/models/yolov7/
Arquitetura e Principais Características
O YOLOv7 introduz várias inovações arquitetónicas e estratégias de treino destinadas a impulsionar o desempenho sem aumentar significativamente os custos de inferência. As principais características incluem:
- E-ELAN (Extended-Efficient Layer Aggregation Networks): Este componente central no backbone do modelo melhora a capacidade da rede de aprender recursos de forma eficaz, melhorando a eficiência dos parâmetros e da computação. Mais detalhes podem ser encontrados no artigo original.
- Escalonamento de Modelo: Implementa métodos de escalonamento composto para profundidade e largura do modelo, otimizando o desempenho em diferentes tamanhos de modelo com base nos princípios do modelo baseado em concatenação.
- Treinamento com Cabeçalho Auxiliar: Utiliza cabeçalhos auxiliares durante a fase de treinamento para fortalecer o aprendizado de recursos, os quais são removidos para inferência, a fim de manter a velocidade. Este conceito está relacionado a técnicas de supervisão profunda usadas em outras redes neurais.
- Melhorias "Bag-of-Freebies": Incorpora técnicas de treino avançadas, como aumento de dados e refinamentos na atribuição de etiquetas, que melhoram a precisão sem custos adicionais de inferência.
Pontos Fortes
- Alta Precisão: Atinge precisão de última geração em benchmarks como o conjunto de dados COCO.
- Eficiência: Equilibra alta precisão com velocidades de inferência competitivas, adequado para inferência em tempo real.
- Versatilidade: O repositório oficial mostra suporte para tarefas além da detecção, incluindo estimativa de pose e segmentação de instâncias.
Fraquezas
- Complexidade: Os recursos arquitetônicos avançados e as técnicas de treinamento podem tornar o modelo mais complexo de entender e ajustar em comparação com arquiteturas mais simples como o YOLOv5.
- Treinamento com Uso Intenso de Recursos: As variantes maiores do YOLOv7 (por exemplo, YOLOv7-E6E) exigem recursos computacionais substanciais para treinamento.
YOLOv6-3.0: Eficiência e Velocidade Industrial
YOLOv6-3.0, desenvolvido pela Meituan, é projetado para aplicações industriais que exigem detecção de objetos de alto desempenho com foco em velocidade e eficiência. A versão 3.0 aprimora significativamente seus predecessores, oferecendo precisão aprimorada e tempos de inferência mais rápidos.
Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu
Organização: Meituan
Data: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Docs: https://docs.ultralytics.com/models/yolov6/
Arquitetura e Principais Características
O YOLOv6-3.0 foi projetado tendo em mente a implementação, apresentando várias escolhas arquitetónicas importantes que priorizam a velocidade de inferência.
- Design Consciente do Hardware: A arquitetura é adaptada para um desempenho eficiente em várias plataformas de hardware, particularmente GPUs, usando blocos reparametrizáveis no estilo RepVGG.
- Backbone EfficientRep e Neck Rep-PAN: Estas estruturas são projetadas para reduzir gargalos computacionais e custos de acesso à memória, o que se traduz diretamente em inferência mais rápida.
- Decoupled Head: Separa os heads de classificação e localização, o que demonstrou melhorar a convergência e a precisão final do modelo, uma técnica também vista em modelos como o YOLOX.
Pontos Fortes
- Alta Velocidade de Inferência: Otimizado para inferência rápida, tornando-o altamente adequado para aplicações em tempo real onde a latência é um fator crítico.
- Foco Industrial: Projetado com cenários de implementação industrial em mente, garantindo robustez e eficiência em ambientes práticos como manufatura.
- Design Eficiente: As variantes menores do YOLOv6-3.0 têm uma contagem de parâmetros e FLOP muito baixa, tornando-as ideais para ambientes com recursos limitados.
Fraquezas
- Compromisso de Precisão: Embora altamente eficiente, pode exibir uma precisão ligeiramente inferior em conjuntos de dados complexos em comparação com modelos como o YOLOv7 que priorizam a máxima precisão em vez da velocidade.
- Ecossistema e Versatilidade: O ecossistema em torno do YOLOv6 é menos abrangente do que o dos modelos Ultralytics e está focado principalmente na detecção de objetos.
Casos de Uso
O YOLOv6-3.0 se destaca em aplicações onde velocidade e eficiência são fundamentais:
- Automação Industrial: Controle de qualidade e monitoramento de processos na fabricação.
- Sistemas em Tempo Real: Aplicações com requisitos de latência estritos, como robótica e vigilância.
- Computação de Borda: Implantação em dispositivos com recursos limitados devido ao seu design eficiente. Consulte os guias sobre como implantar em dispositivos como o NVIDIA Jetson.
Saiba mais sobre o YOLOv6-3.0.
Comparativo de Desempenho: YOLOv7 vs YOLOv6-3.0
A tabela abaixo resume as métricas de desempenho para variantes comparáveis de YOLOv7 e YOLOv6-3.0 no conjunto de dados COCO.
Modelo | tamanho (pixels) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4 TensorRT10 (ms) |
parâmetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Nota: Os benchmarks de velocidade podem variar com base no hardware, software (TensorRT, ONNX, OpenVINO), tamanho do lote e configurações específicas. Os valores de mAP são normalmente reportados no conjunto de dados COCO val.
Com base na tabela, o YOLOv7x alcança o maior mAP, indicando uma precisão superior. No entanto, os modelos YOLOv6-3.0, particularmente as variantes menores como o YOLOv6-3.0n, oferecem velocidades de inferência significativamente mais rápidas, especialmente em GPU com otimização TensorRT, e têm menos parâmetros e FLOPs, tornando-os altamente eficientes. A escolha depende se a prioridade é a precisão máxima (YOLOv7) ou a velocidade/eficiência ideal (YOLOv6-3.0).
Por que escolher os modelos Ultralytics YOLO?
Para usuários que buscam modelos de última geração dentro de um ecossistema abrangente e fácil de usar, a Ultralytics oferece o YOLOv8 e o mais recente Ultralytics YOLO11. Esses modelos oferecem vantagens significativas sobre o YOLOv7 e o YOLOv6.
- Facilidade de Uso: Os modelos Ultralytics vêm com uma API Python otimizada, documentação extensa e comandos CLI diretos, simplificando o treinamento, a validação e a implementação.
- Ecosistema Bem Mantido: Beneficie de desenvolvimento ativo, uma forte comunidade de código aberto, atualizações frequentes e integração com ferramentas como o Ultralytics HUB para MLOps perfeito.
- Equilíbrio de Desempenho: Os modelos Ultralytics alcançam um excelente equilíbrio entre velocidade e precisão, adequados para diversos cenários do mundo real, desde dispositivos de borda até servidores em nuvem.
- Versatilidade: Modelos como YOLOv8 e YOLO11 suportam múltiplas tarefas além da detecção de objetos, incluindo segmentação, classificação, estimativa de pose e detecção de objetos orientados (OBB), oferecendo uma solução unificada.
- Eficiência no Treinamento: Beneficie-se de processos de treinamento eficientes, pesos pré-treinados prontamente disponíveis em conjuntos de dados como o COCO e tempos de convergência mais rápidos.
Para uma exploração mais aprofundada, você também pode achar comparações com outros modelos como RT-DETR esclarecedoras.