Ir para o conteúdo

YOLOv6.0 vs YOLOv7: Um mergulho profundo na velocidade e precisão industriais

A seleção do modelo de deteção de objectos ideal é uma decisão crítica que depende do equilíbrio entre a velocidade de inferência, a precisão e a eficiência computacional. Esta comparação técnica explora as distinções entre YOLOv6.0, uma estrutura orientada para a indústria, e o YOLOv7um modelo concebido para ultrapassar os limites da precisão utilizando "bag-of-freebies" treináveis. Ao analisar as suas arquitecturas, referências e casos de utilização ideais, os programadores podem determinar qual a solução que melhor se adapta às suas restrições de implementação específicas.

YOLOv6.0: Concebido para a eficiência industrial

YOLOv6.0 representa uma evolução significativa na série YOLO , especificamente concebida para aplicações industriais em que a velocidade em tempo real e a eficiência do hardware não são negociáveis. Desenvolvida pela Meituan, esta versão centra-se na otimização do compromisso entre latência e precisão, tornando-a uma escolha formidável para ambientes de computação de ponta e de elevado rendimento.

Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu
Organização:Meituan
Data: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics

Arquitetura e Principais Características

A arquitetura do YOLOv6.0 é construída em torno do conceito de design consciente do hardware. Utiliza uma espinha dorsal re-parametrizável (EfficientRep), que permite que o modelo utilize estruturas complexas durante o treino para uma melhor aprendizagem de caraterísticas, enquanto colapsa para estruturas mais simples e rápidas durante a inferência. Esta técnica reduz significativamente os custos de acesso à memória e melhora a latência da inferência.

As principais inovações arquitectónicas incluem:

  • Concatenação bidirecional (BiC): Este módulo melhora a exatidão da localização ao melhorar a propagação de caraterísticas.
  • Treino assistido por âncora (AAT): Uma estratégia que combina as vantagens dos detectores com e sem âncora para estabilizar o treino e aumentar o desempenho.
  • Destilação automática: YOLOv6.0 utiliza técnicas de auto-destilação em que o modelo do aluno aprende com as previsões do seu próprio modelo do professor, refinando a precisão sem necessitar de grandes modelos externos.

Forças e Fraquezas

A principal força do YOLOv6.0 reside na sua velocidade de inferência. Como os benchmarks indicam, as variantes mais pequenas (como o YOLOv6.0n) são excecionalmente rápidas em hardware GPU , o que as torna ideais para pipelines de análise de vídeo que têm de processar taxas de fotogramas elevadas. Além disso, o suporte do modelo para quantização do modelo facilita a implantação em hardware com recursos limitados.

No entanto, as versões anteriores do YOLOv6 limitavam-se principalmente à deteção de objectos, não possuindo a versatilidade nativa encontrada em estruturas mais abrangentes que suportam a segmentação ou a estimativa de pose pronta a utilizar. Além disso, embora altamente eficiente, o suporte do ecossistema não é tão extenso como o de outros projectos orientados para a comunidade.

Casos de Uso Ideais

YOLOv6.0 destaca-se em cenários como:

  • Linhas de fabrico: Onde é necessária a deteção de defeitos a alta velocidade nas correias transportadoras.
  • Análise de retalho: Para a gestão de filas de espera e o controlo de inventário, em que os recursos computacionais são limitados.
  • Sistemas incorporados: implantação em dispositivos como a série NVIDIA Jetson.

Saiba mais sobre o YOLOv6

YOLOv7: Otimizar o saco de brindes treinável

YOLOv7 adopta uma abordagem diferente, concentrando-se fortemente em reformas arquitectónicas para maximizar a precisão sem aumentar o custo da inferência. Os autores introduziram "trainable bag-of-freebies" - métodos de otimização que melhoram o desempenho do modelo durante o treino, mas não alteram a arquitetura ou a velocidade da inferência.

Autores: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organização:Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Arquitetura e Principais Características

YOLOv7 introduz a rede E-ELAN (Extended Efficient Layer Aggregation Network). Esta arquitetura permite que o modelo aprenda caraterísticas mais diversas, controlando os caminhos de gradiente mais curto e mais longo, garantindo que a rede converge eficazmente.

As caraterísticas proeminentes incluem:

  • Escalonamento do modelo: Ao contrário dos métodos anteriores que apenas dimensionavam a profundidade ou a largura, YOLOv7 propõe um método de dimensionamento composto que concatena camadas em vez de apenas as redimensionar, preservando as propriedades de otimização do modelo.
  • Treinamento da cabeça auxiliar: O modelo utiliza uma cabeça auxiliar durante o treino para ajudar a cabeça principal. Esta técnica de supervisão profunda melhora a aprendizagem das camadas intermédias, mas é removida durante a inferência para manter a velocidade.
  • Convolução Planeada Re-parametrizada: Uma aplicação especializada de re-parametrização que evita conexões de identidade em certas camadas para evitar a degradação do desempenho.

Forças e Fraquezas

YOLOv7 é conhecido pela sua elevada exatidão, alcançando resultados impressionantes de precisão média (mAP) no conjunto de dados COCO . Ele preenche eficazmente a lacuna entre as restrições em tempo real e a necessidade de detecções de alta fidelidade.

Em contrapartida, a complexidade da arquitetura e a utilização de cabeças auxiliares podem tornar o processo de formação mais intensivo em termos de memória, em comparação com arquitecturas mais simples. Embora eficiente durante a inferência, a fase de treino requer uma memória GPU substancial, especialmente para as variantes "E6E" maiores.

Casos de Uso Ideais

YOLOv7 é particularmente adequado para:

  • Vigilância pormenorizada: Identificação de pequenos objectos ou acções subtis em filmagens de segurança complexas.
  • Condução autónoma: Onde a precisão é fundamental para a segurança e a navegação.
  • Investigação científica: Aplicações que requerem métricas AP elevadas, tais como imagiologia médica ou estudos biológicos.

Saiba mais sobre o YOLOv7

Comparação de desempenho: Métricas e análises

O quadro seguinte compara o desempenho das variantes YOLOv6.0 e YOLOv7 no conjunto de dados de validação COCO . Destaca os compromissos entre o tamanho do modelo, a carga computacional (FLOPs) e a velocidade.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Interpretação dos índices de referência

Embora o YOLOv7x atinja a maior precisão(53,1% mAP), ele requer significativamente mais parâmetros (71,3M) e FLOPs (189,9B). Em contraste, YOLOv6.0n é optimizado para uma velocidade extrema, atingindo uma inferência de 1,17 ms numa GPU T4, o que o torna cerca de 10 vezes mais rápido do que a maior variante YOLOv7 , embora com uma precisão inferior.

Os dados revelam uma distinção clara: YOLOv6.0 domina em ambientes de baixa latência, enquanto YOLOv7 é superior quando a prioridade é a qualidade máxima de deteção e os recursos de hardware são mais abundantes.

A vantagem da Ultralytics : Para além das métricas brutas

Embora YOLOv6 e YOLOv7 ofereçam fortes capacidades, o panorama da visão computacional está a evoluir rapidamente. Para programadores e investigadores que procuram uma solução preparada para o futuro, versátil e fácil de utilizar, Ultralytics YOLO11 e YOLOv8 apresentam vantagens atraentes que vão além dos benchmarks brutos.

Facilidade de utilização e ecossistema

Um dos obstáculos mais significativos à adoção de modelos avançados de IA é a complexidade da implementação. Os modelos Ultralytics são conhecidos pela sua experiência de utilizador simplificada. Com uma simples APIPython e CLI, os utilizadores podem treinar, validar e implementar modelos em apenas algumas linhas de código. Isso contrasta com os repositórios orientados para a pesquisa, que geralmente exigem configurações complexas de ambiente e ajustes de configuração.

from ultralytics import YOLO

# Load a model (YOLO11n recommended for speed/accuracy balance)
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Versatilidade em todas as tarefas

Ao contrário das versões anteriores YOLO , que se destinavam exclusivamente à deteção, os modelos Ultralytics são nativamente multimodais. Uma única estrutura suporta:

Equilíbrio e eficiência do desempenho

Modelos Ultralytics , tais como YOLO11são concebidos para proporcionar o equilíbrio ideal entre velocidade e precisão. Atingem frequentemente um mAP mais elevado do que o YOLOv7 , mantendo as velocidades de inferência associadas a arquitecturas eficientes como o YOLOv6. Além disso, os modelos Ultralytics são concebidos para eficiência de treino, exigindo uma menor utilização de memória GPU em comparação com os modelos baseados em transformadores (como o RT-DETR), o que acelera os ciclos de experimentação e reduz os custos de computação na nuvem.

Ecossistema bem conservado

Escolher um modelo Ultralytics significa comprar um ecossistema suportado. Isso inclui:

  • Actualizações frequentes: Melhorias regulares na arquitetura e nos pesos.
  • Amplo apoio à exportação: Exportação sem problemas para ONNX, TensorRTCoreML e TFLite para implantação em qualquer dispositivo.
  • Comunidade: Uma enorme comunidade de programadores e uma extensa documentação que garante que a ajuda está sempre disponível.

Conclusão

Tanto YOLOv6.0 como YOLOv7 deram contributos significativos para o domínio da visão por computador. YOLOv6.0 é a escolha ideal para aplicações industriais que requerem inferência ultra-rápida e suporte de quantização. YOLOv7 continua a ser um forte concorrente para cenários em que a precisão da deteção é fundamental e as restrições de hardware são flexíveis.

No entanto, para uma solução holística que combina o desempenho de ponta com uma facilidade de utilização, versatilidade e flexibilidade de implementação inigualáveis, Ultralytics YOLO11 destaca-se como a escolha superior para o desenvolvimento moderno de IA. Quer esteja a implementar no edge ou a escalar na cloud, o ecossistema Ultralytics fornece as ferramentas necessárias para ter sucesso.

Para uma leitura mais aprofundada, considere explorar as nossas comparações sobre o YOLOX ou rever as capacidades do RT-DETR para deteção baseada em transformador.


Comentários