Ir para o conteúdo

YOLOv5 . YOLOv7: Evolução dos detetores de objetos em tempo real

Selecionar a arquitetura de deteção de objetos certa envolve equilibrar precisão, velocidade de inferência e facilidade de implementação. Este guia fornece uma comparação técnica detalhada entre Ultralytics YOLOv5 e YOLOv7, dois modelos influentes no panorama da visão computacional. Analisamos as suas diferenças arquitetónicas, benchmarks de desempenho e casos de uso ideais para ajudá-lo a tomar uma decisão informada para os seus projetos de visão computacional.

Resumo Executivo

Embora ambos os modelos sejam capazes, YOLOv5 continua a ser o padrão da indústria em termos de usabilidade, versatilidade de implementação e suporte da comunidade. O seu ecossistema maduro e integração perfeita com a Ultralytics tornam-no uma excelente escolha para ambientes de produção. YOLOv7, lançado posteriormente, introduziu inovações arquitetónicas como o E-ELAN para maior precisão de pico em GPU , mas carece do amplo suporte multitarefa e das ferramentas otimizadas encontradas no Ultralytics .

Para os programadores que iniciarem novos projetos em 2026, recomendamos vivamente que avaliem o YOLO26, que supera ambos os modelos em velocidade e precisão com um design nativo de ponta a ponta e NMS.

Ultralytics YOLOv5: O padrão de produção

YOLOv5 revolucionou o campo não apenas por meio de métricas brutas, mas também ao priorizar a experiência do desenvolvedor. Foi o primeiro YOLO implementado nativamente no PyTorch, tornando-o acessível a uma vasta comunidade de investigadores e engenheiros. A sua filosofia de "fácil de treinar, fácil de implementar" estabeleceu-o como a solução ideal para aplicações do mundo real, desde veículos autónomos até inspeção industrial.

Autor: Glenn Jocher
Organização:Ultralytics
Data: 2020-06-26
GitHub:ultralytics/yolov5
Documentação:Documentação YOLOv5

Saiba mais sobre o YOLOv5

Arquitetura e Design

YOLOv5 uma espinha dorsal CSP-Darknet53 com uma camada Focus (posteriormente substituída por convolução 6x6) para reduzir a computação, preservando as informações. Ele utiliza um pescoço Path Aggregation Network (PANet) para fusão de recursos e previsão multiescala. As principais características arquitetónicas incluem:

  • Aumento de dados em mosaico: uma técnica de treino que combina quatro imagens numa só, melhorando a capacidade do modelo de detect objetos e reduzindo a necessidade de grandes mini-lotes.
  • Âncoras de caixa delimitadora com autoaprendizagem: o modelo adapta automaticamente as caixas âncora à geometria específica dos conjuntos de dados personalizados durante o treinamento.
  • Ativação SiLU: Utilização da função de ativação Sigmoid Linear Unit (SiLU) para uma propagação mais suave do gradiente.

Principais Pontos Fortes

  • Facilidade de uso: a API simplificada e a documentação robusta permitem que os programadores treinem um modelo personalizado com apenas algumas linhas de código.
  • Versatilidade de implementação: Suporte integrado à exportação para ONNX, TensorRT, CoreML, TFLite e OpenVINO uma implementação perfeita em destinos de ponta e na nuvem.
  • Capacidades multitarefas: Além da deteção, YOLOv5 segmentação de instâncias e classificação de imagens, oferecendo um kit de ferramentas abrangente para diversas tarefas de visão.

YOLOv7: Melhorando GPU

YOLOv7 foi concebido para ampliar os limites de velocidade e precisão do GPU . Ele introduz várias estratégias «bag-of-freebies» — métodos que aumentam a precisão sem aumentar o custo de inferência — tornando-o um forte concorrente para cenários de computação de alto desempenho.

Autores: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 06/07/2022
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7
Documentação:YOLOv7

Saiba mais sobre o YOLOv7

Arquitetura e Inovação

YOLOv7 no design eficiente da arquitetura e na escalabilidade do modelo. A sua principal inovação é a Extended Efficient Layer Aggregation Networks (E-ELAN), que permite ao modelo aprender características mais diversificadas, controlando os caminhos de gradiente mais curtos e mais longos.

  • Escalonamento do modelo: YOLOv7 um método de escalonamento composto que modifica simultaneamente a profundidade e a largura para modelos baseados em concatenação, otimizando a arquitetura para diferentes restrições de hardware.
  • Cabeça auxiliar grosseira a fina: emprega uma cabeça auxiliar para treino que orienta o processo de aprendizagem, que é então reparametrizado na cabeça principal para inferência, garantindo que não haja perda de velocidade na implementação.
  • Reparametrização planeada: A arquitetura usa convoluções reparametrizadas (RepConv) estrategicamente para equilibrar velocidade e precisão, evitando conexões de identidade que destroem a aprendizagem residual.

Comparação de benchmark de desempenho

A tabela a seguir compara o desempenho do YOLOv5 YOLOv7 COCO . Enquanto YOLOv7 pontos fortes no mAP bruto mAP GPU, YOLOv5 velocidade competitiva, especialmente na CPU, e contagens de parâmetros significativamente menores para modelos menores.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Análise de Resultados

  • Eficiência: O YOLOv5n (Nano) é excepcionalmente leve, tornando-o perfeito para dispositivos de ponta altamente restritos, onde cada megabyte de memória conta.
  • Precisão: O YOLOv7x alcança um maior mAP (53,1%) em comparação com o YOLOv5x (50,7%), demonstrando os benefícios da arquitetura E-ELAN para tarefas GPU de ponta.
  • Implantação:ONNX CPU ONNX para YOLOv5 bem documentada e otimizada, proporcionando um desempenho fiável paraGPU .

Escolhendo a vantagem

Para dispositivos de ponta, como Raspberry Pi ou telemóveis, o YOLOv5n ou o YOLOv5s costumam ser as melhores opções devido ao seu menor consumo de memória e à comprovada compatibilidade TFLite .

Treinamento e Ecossistema

Um dos diferenciais mais significativos é o ecossistema que envolve os modelos.YOLO Ultralytics se beneficiam de uma plataforma continuamente mantida que simplifica todo o ciclo de vida das operações de aprendizado de máquina (MLOps).

Vantagem do Ecossistema Ultralytics

  • Plataforma integrada: a Ultralytics permite aos utilizadores gerir conjuntos de dados, visualizar execuções de treino e implementar modelos de forma integrada a partir de uma interface web.
  • Eficiência de treino: YOLOv5 carregadores de dados eficientes e cache inteligente, reduzindo significativamente o tempo de treino em conjuntos de dados personalizados em comparação com arquiteturas mais antigas.
  • Suporte da comunidade: com milhares de colaboradores e discussões ativas no GitHub e no Discord, é mais rápido encontrar soluções para casos extremos com Ultralytics .

Exemplo de Código: Treinamento com Ultralytics

O treinamento de um YOLO com Ultralytics padronizado em todas as versões. Você pode alternar entre YOLOv5, YOLO11 e o recomendado YOLO26 apenas alterando o nome do modelo.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train the model on a custom dataset
# The API handles data downloading and configuration automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a new image
predictions = model("path/to/image.jpg")

O futuro: porquê mudar para o YOLO26?

Embora comparar YOLOv5 YOLOv7 valioso para compreender os sistemas legados, o estado da arte avançou significativamente. Lançado em janeiro de 2026, Ultralytics representa uma mudança de paradigma na deteção de objetos.

Saiba mais sobre YOLO26

  • Nativamente ponta a ponta: ao contrário YOLOv5 YOLOv7, que requerem pós-processamento de supressão não máxima (NMS), o YOLO26 é nativamente NMS. Isso simplifica os pipelines de implementação e reduz a variabilidade da latência.
  • Otimizador MuSGD: Aproveitando as inovações do treinamento LLM, o otimizador MuSGD garante uma convergência mais estável e um desempenho robusto em diversos conjuntos de dados.
  • Velocidade aprimorada: o YOLO26 oferece CPU até 43% mais rápida em comparação com as gerações anteriores, tornando-o a escolha superior para aplicações modernas de IA de ponta.
  • Versatilidade: Suporta nativamente Oriented Bounding Box (OBB), Pose Estimation e Segmentation com funções de perda especializadas, como ProgLoss e STAL, para uma melhor deteção de objetos pequenos.

Conclusão

Tanto YOLOv5 YOLOv7 o seu lugar na história da visão computacional. YOLOv7 é uma poderosa ferramenta de investigação para maximizar mAP GPU específico. No entanto, YOLOv5 continua a ser a escolha prática para muitos devido à sua facilidade de utilização, estabilidade e amplo suporte de implementação incomparáveis.

Para projetos voltados para o futuro, a recomendação é clara: adote Ultralytics . Ele combina o ecossistema intuitivo do YOLOv5 avanços arquitetónicos que superam os dois antecessores em velocidade, precisão e simplicidade.

Visite o Ultralytics Hub para explorar essas arquiteturas mais a fundo e baixar pesos pré-treinados para o seu próximo projeto.


Comentários