Ir para o conteúdo

YOLOv7 vs YOLOv5: Uma comparação técnica pormenorizada

A escolha da arquitetura correta de deteção de objetos é uma decisão crítica que afeta a velocidade, a precisão e a viabilidade de implantação de seus projetos de visão computacional. Esta página fornece uma comparação técnica abrangente entre YOLOv7 e o Ultralytics YOLOv5dois modelos influentes na linhagem YOLO . Aprofundamos as suas inovações arquitectónicas, referências de desempenho e casos de utilização ideais para o ajudar a selecionar a melhor opção para a sua aplicação.

Enquanto YOLOv7 introduziu avanços académicos significativos em 2022, Ultralytics YOLOv5 continua a ser uma força dominante no sector devido à sua incomparável facilidade de utilização, robustez e flexibilidade de implementação. Para quem procura o que há de mais moderno em termos de desempenho, também exploramos a forma como estes modelos preparam o caminho para o Ultralytics YOLO11.

Comparação de métricas de desempenho

A tabela seguinte destaca as compensações de desempenho entre as duas arquitecturas. Enquanto YOLOv7 procura uma precisão média (mAP) mais elevada, YOLOv5 oferece vantagens distintas em termos de velocidade de inferência e menor número de parâmetros para tamanhos de modelos específicos.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOv7: Ultrapassar os limites da precisão

Lançado em julho de 2022, YOLOv7 foi concebido para definir um novo estado da arte para detectores de objectos em tempo real. Ele se concentra fortemente na otimização da arquitetura para melhorar a precisão sem aumentar significativamente o custo de inferência.

Autores: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organização:Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Arquitetura e Inovações Chave

YOLOv7 introduz várias alterações arquitectónicas complexas destinadas a melhorar a aprendizagem de caraterísticas:

  • E-ELAN (Extended Efficient Layer Aggregation Network): Uma estrutura de backbone avançada que melhora a capacidade de aprendizagem da rede, controlando os caminhos de gradiente mais curto e mais longo. Isto permite que o modelo aprenda caraterísticas mais diversas.
  • Escalonamento de modelos para modelos baseados em concatenação: Ao contrário do dimensionamento padrão, YOLOv7 dimensiona a profundidade e a largura simultaneamente para arquitecturas baseadas em concatenação, assegurando uma utilização óptima dos recursos.
  • Saco de brindes treinável: Isto inclui convolução re-parametrizada planeada (RepConv) e formação de cabeças auxiliares. As cabeças auxiliares geram rótulos hierárquicos grosseiros a finos, que ajudam a orientar o processo de aprendizagem durante o treino, mas são removidos durante a inferência para manter a velocidade.

O que é um "saco de brindes"?

"Bag of Freebies" refere-se a uma coleção de métodos de formação e técnicas de aumento de dados que melhoram a precisão de um modelo de deteção de objectos sem aumentar o custo de inferência. No YOLOv7, isto inclui estratégias sofisticadas como a Atribuição de etiquetas guiada por chumbo grosso a fino.

Casos de utilização ideais para o YOLOv7

Devido ao seu foco na alta precisão, YOLOv7 é particularmente adequado para:

  • Investigação académica: Avaliação comparativa com modelos SOTA em que cada fração de mAP é importante.
  • Implantação de GPU de ponta: Aplicações em que um hardware potente (como o NVIDIA A100s) está disponível para lidar com tamanhos de modelos maiores e requisitos de memória.
  • Análise estática: Cenários em que a latência em tempo real é menos crítica do que a precisão, como a análise de imagens de satélite de alta resolução ou exames médicos.

Saiba mais sobre o YOLOv7

Ultralytics YOLOv5: O padrão da indústria

Ultralytics YOLOv5 é amplamente considerado como um dos modelos de deteção de objectos mais práticos e fáceis de utilizar disponíveis. Desde o seu lançamento em 2020, tornou-se a espinha dorsal de inúmeras aplicações comerciais devido ao seu equilíbrio entre velocidade, precisão e excelência de engenharia.

Autores: Glenn Jocher
Organização:Ultralytics
Data: 2020-06-26
GitHubyolov5
Docsyolov5

Arquitetura e benefícios para o ecossistema

YOLOv5 utiliza um backbone CSP-Darknet53 com um pescoço PANet e uma cabeça YOLOv3, optimizado para diversos alvos de implementação. No entanto, a sua verdadeira força reside no ecossistemaUltralytics :

  • Facilidade de utilização: Conhecido pela sua filosofia "instalar e executar", YOLOv5 permite que os programadores comecem a treinar em conjuntos de dados personalizados em minutos. A API é intuitiva e a documentação é exaustiva.
  • Eficiência de treinamento: YOLOv5 normalmente requer menos memória CUDA durante o treinamento em comparação com arquiteturas mais novas e mais complexas, tornando-o acessível para desenvolvedores com GPUs de médio porte.
  • Flexibilidade de implantação: Suporta a exportação com um clique para ONNX, TensorRTCoreML, TFLite e muito mais, facilitando a implantação em tudo, desde servidores em nuvem até telefones celulares.
  • Ecossistema bem mantido: Com actualizações frequentes, correcções de erros e uma comunidade massiva, Ultralytics garante que o modelo permanece estável e seguro para ambientes de produção.

Casos de utilização ideais para o YOLOv5

YOLOv5 destaca-se em cenários do mundo real que exigem fiabilidade e velocidade:

  • IA de ponta: A funcionar em dispositivos como o NVIDIA Jetson ou Raspberry Pi devido à leveza do Nano (yolov5n) e Pequeno (yolov5s) variantes.
  • Aplicações móveis: Integração em aplicações iOS e Android através de CoreML e TFLite para inferência no dispositivo.
  • Prototipagem rápida: As empresas em fase de arranque e os programadores que necessitam de passar rapidamente do conceito ao MVP beneficiam do fluxo de trabalho simplificado.
  • Automação industrial: Reliable detection for manufacturing lines where latency and stability are paramount.

Saiba mais sobre o YOLOv5.

Análise comparativa pormenorizada

Ao decidir entre YOLOv7 e YOLOv5, entram em jogo vários factores técnicos para além da pontuação mAP .

1. Compensação entre velocidade e exatidão

YOLOv7 alcança maior precisão de pico no conjunto de dadosCOCO . Por exemplo, o YOLOv7x atinge 53,1% de mAP em comparação com os 50,7% do YOLOv5x. No entanto, isso vem com o custo da complexidade. O YOLOv5 oferece um gradiente mais suave de modelos; o modelo YOLOv5n (Nano) é incrivelmente rápido (73,6ms de velocidade CPU ) e leve (2,6M de parâmetros), criando um nicho para ambientes de recursos ultrabaixos que YOLOv7 não visa explicitamente com a mesma granularidade.

2. Arquitetura e complexidade

YOLOv7 utiliza uma arquitetura baseada na concatenação com o E-ELAN, o que aumenta a largura de banda da memória necessária durante o treino. Este facto pode tornar o treino mais lento e exigir mais memória do que YOLOv5. Em contrapartida, o Ultralytics YOLOv5 utiliza uma arquitetura simplificada que é altamente optimizada para a eficiência do treino, permitindo uma convergência mais rápida e uma menor utilização da memória, o que constitui uma vantagem significativa para os engenheiros com orçamentos computacionais limitados.

3. Usabilidade e experiência do programador

É aqui que Ultralytics YOLOv5 se destaca verdadeiramente. A estrutura Ultralytics fornece uma experiência unificada com ferramentas robustas para aumento de dados, evolução de hiperparâmetros e acompanhamento de experiências.

import torch

# Example: Loading YOLOv5s from PyTorch Hub for inference
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Embora YOLOv7 tenha um repositório, ele não possui os pipelines de CI/CD polidos e prontos para produção, guias de integração extensivos e suporte da comunidade que apoiam o ecossistema Ultralytics .

4. Versatilidade

Embora ambos os modelos sejam principalmente arquitecturas de deteção de objectos, o ecossistema Ultralytics em torno do YOLOv5 evoluiu para suportar a segmentação de instâncias e a classificação de imagens sem problemas. YOLOv7 também suporta essas tarefas, mas muitas vezes requer diferentes ramificações ou bifurcações do código, enquanto Ultralytics oferece uma abordagem mais unificada.

Implementação facilitada

Os modelos Ultralytics são compatíveis com uma vasta gama de formatos de exportação prontos a utilizar. Você pode converter facilmente seu modelo treinado para TFLite para Android, CoreML para iOS, ou TensorRT para inferência otimizada GPU usando um simples comando CLI ou script Python .

Conclusão: Qual Modelo Você Deve Escolher?

A escolha entre YOLOv7 e YOLOv5 depende das prioridades do seu projeto:

  • Escolha YOLOv7 se a sua principal restrição for a precisão máxima e se estiver a operar num ambiente de investigação ou em hardware de topo de gama, onde a velocidade de inferência e o espaço de memória são preocupações secundárias.
  • Escolha o Ultralytics YOLOv5 se precisar de uma solução fiável e pronta para produção. A sua facilidade de utilização, a formação eficiente, a baixa latência em dispositivos de ponta e o enorme ecossistema de suporte fazem dele a escolha superior para a maioria das aplicações comerciais e para os programadores que iniciam o seu percurso na visão computacional.

Olhando para o futuro: YOLO11

Embora YOLOv5 e YOLOv7 sejam modelos excelentes, o campo da visão computacional evolui rapidamente. Para os programadores que procuram o melhor dos dois mundos - ultrapassar a precisão do YOLOv7 e a velocidade/utilização do YOLOv5vivamente que explorem Ultralytics YOLO11.

YOLO11 representa a última evolução, apresentando uma arquitetura sem âncoras que simplifica o pipeline de formação e melhora o desempenho em todas as tarefas, incluindo deteção, segmentação, estimativa de pose e caixas delimitadoras orientadas (OBB).

Explore Outros Modelos

Se estiver interessado em comparar outros modelos da família YOLO , consulte estas páginas relacionadas:


Comentários