YOLOv5 . YOLOv7: Evolução dos detetores de objetos em tempo real
Selecionar a arquitetura de deteção de objetos certa envolve equilibrar precisão, velocidade de inferência e facilidade de implementação. Este guia fornece uma comparação técnica detalhada entre Ultralytics YOLOv5 e YOLOv7, dois modelos influentes no panorama da visão computacional. Analisamos as suas diferenças arquitetónicas, benchmarks de desempenho e casos de uso ideais para ajudá-lo a tomar uma decisão informada para os seus projetos de visão computacional.
Resumo Executivo
Embora ambos os modelos sejam capazes, YOLOv5 continua a ser o padrão da indústria em termos de usabilidade, versatilidade de implementação e suporte da comunidade. O seu ecossistema maduro e integração perfeita com a Ultralytics tornam-no uma excelente escolha para ambientes de produção. YOLOv7, lançado posteriormente, introduziu inovações arquitetónicas como o E-ELAN para maior precisão de pico em GPU , mas carece do amplo suporte multitarefa e das ferramentas otimizadas encontradas no Ultralytics .
Para os programadores que iniciarem novos projetos em 2026, recomendamos vivamente que avaliem o YOLO26, que supera ambos os modelos em velocidade e precisão com um design nativo de ponta a ponta e NMS.
Ultralytics YOLOv5: O padrão de produção
YOLOv5 revolucionou o campo não apenas por meio de métricas brutas, mas também ao priorizar a experiência do desenvolvedor. Foi o primeiro YOLO implementado nativamente no PyTorch, tornando-o acessível a uma vasta comunidade de investigadores e engenheiros. A sua filosofia de "fácil de treinar, fácil de implementar" estabeleceu-o como a solução ideal para aplicações do mundo real, desde veículos autónomos até inspeção industrial.
Autor: Glenn Jocher
Organização:Ultralytics
Data: 2020-06-26
GitHub:ultralytics/yolov5
Documentação:Documentação YOLOv5
Arquitetura e Design
YOLOv5 uma espinha dorsal CSP-Darknet53 com uma camada Focus (posteriormente substituída por convolução 6x6) para reduzir a computação, preservando as informações. Ele utiliza um pescoço Path Aggregation Network (PANet) para fusão de recursos e previsão multiescala. As principais características arquitetónicas incluem:
- Aumento de dados em mosaico: uma técnica de treino que combina quatro imagens numa só, melhorando a capacidade do modelo de detect objetos e reduzindo a necessidade de grandes mini-lotes.
- Âncoras de caixa delimitadora com autoaprendizagem: o modelo adapta automaticamente as caixas âncora à geometria específica dos conjuntos de dados personalizados durante o treinamento.
- Ativação SiLU: Utilização da função de ativação Sigmoid Linear Unit (SiLU) para uma propagação mais suave do gradiente.
Principais Pontos Fortes
- Facilidade de uso: a API simplificada e a documentação robusta permitem que os programadores treinem um modelo personalizado com apenas algumas linhas de código.
- Versatilidade de implementação: Suporte integrado à exportação para ONNX, TensorRT, CoreML, TFLite e OpenVINO uma implementação perfeita em destinos de ponta e na nuvem.
- Capacidades multitarefas: Além da deteção, YOLOv5 segmentação de instâncias e classificação de imagens, oferecendo um kit de ferramentas abrangente para diversas tarefas de visão.
YOLOv7: Melhorando GPU
YOLOv7 foi concebido para ampliar os limites de velocidade e precisão do GPU . Ele introduz várias estratégias «bag-of-freebies» — métodos que aumentam a precisão sem aumentar o custo de inferência — tornando-o um forte concorrente para cenários de computação de alto desempenho.
Autores: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 06/07/2022
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7
Documentação:YOLOv7
Arquitetura e Inovação
YOLOv7 no design eficiente da arquitetura e na escalabilidade do modelo. A sua principal inovação é a Extended Efficient Layer Aggregation Networks (E-ELAN), que permite ao modelo aprender características mais diversificadas, controlando os caminhos de gradiente mais curtos e mais longos.
- Escalonamento do modelo: YOLOv7 um método de escalonamento composto que modifica simultaneamente a profundidade e a largura para modelos baseados em concatenação, otimizando a arquitetura para diferentes restrições de hardware.
- Cabeça auxiliar grosseira a fina: emprega uma cabeça auxiliar para treino que orienta o processo de aprendizagem, que é então reparametrizado na cabeça principal para inferência, garantindo que não haja perda de velocidade na implementação.
- Reparametrização planeada: A arquitetura usa convoluções reparametrizadas (RepConv) estrategicamente para equilibrar velocidade e precisão, evitando conexões de identidade que destroem a aprendizagem residual.
Comparação de benchmark de desempenho
A tabela a seguir compara o desempenho do YOLOv5 YOLOv7 COCO . Enquanto YOLOv7 pontos fortes no mAP bruto mAP GPU, YOLOv5 velocidade competitiva, especialmente na CPU, e contagens de parâmetros significativamente menores para modelos menores.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Análise de Resultados
- Eficiência: O YOLOv5n (Nano) é excepcionalmente leve, tornando-o perfeito para dispositivos de ponta altamente restritos, onde cada megabyte de memória conta.
- Precisão: O YOLOv7x alcança um maior mAP (53,1%) em comparação com o YOLOv5x (50,7%), demonstrando os benefícios da arquitetura E-ELAN para tarefas GPU de ponta.
- Implantação:ONNX CPU ONNX para YOLOv5 bem documentada e otimizada, proporcionando um desempenho fiável paraGPU .
Escolhendo a vantagem
Para dispositivos de ponta, como Raspberry Pi ou telemóveis, o YOLOv5n ou o YOLOv5s costumam ser as melhores opções devido ao seu menor consumo de memória e à comprovada compatibilidade TFLite .
Treinamento e Ecossistema
Um dos diferenciais mais significativos é o ecossistema que envolve os modelos.YOLO Ultralytics se beneficiam de uma plataforma continuamente mantida que simplifica todo o ciclo de vida das operações de aprendizado de máquina (MLOps).
Vantagem do Ecossistema Ultralytics
- Plataforma integrada: a Ultralytics permite aos utilizadores gerir conjuntos de dados, visualizar execuções de treino e implementar modelos de forma integrada a partir de uma interface web.
- Eficiência de treino: YOLOv5 carregadores de dados eficientes e cache inteligente, reduzindo significativamente o tempo de treino em conjuntos de dados personalizados em comparação com arquiteturas mais antigas.
- Suporte da comunidade: com milhares de colaboradores e discussões ativas no GitHub e no Discord, é mais rápido encontrar soluções para casos extremos com Ultralytics .
Exemplo de Código: Treinamento com Ultralytics
O treinamento de um YOLO com Ultralytics padronizado em todas as versões. Você pode alternar entre YOLOv5, YOLO11 e o recomendado YOLO26 apenas alterando o nome do modelo.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train the model on a custom dataset
# The API handles data downloading and configuration automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a new image
predictions = model("path/to/image.jpg")
O futuro: porquê mudar para o YOLO26?
Embora comparar YOLOv5 YOLOv7 valioso para compreender os sistemas legados, o estado da arte avançou significativamente. Lançado em janeiro de 2026, Ultralytics representa uma mudança de paradigma na deteção de objetos.
- Nativamente ponta a ponta: ao contrário YOLOv5 YOLOv7, que requerem pós-processamento de supressão não máxima (NMS), o YOLO26 é nativamente NMS. Isso simplifica os pipelines de implementação e reduz a variabilidade da latência.
- Otimizador MuSGD: Aproveitando as inovações do treinamento LLM, o otimizador MuSGD garante uma convergência mais estável e um desempenho robusto em diversos conjuntos de dados.
- Velocidade aprimorada: o YOLO26 oferece CPU até 43% mais rápida em comparação com as gerações anteriores, tornando-o a escolha superior para aplicações modernas de IA de ponta.
- Versatilidade: Suporta nativamente Oriented Bounding Box (OBB), Pose Estimation e Segmentation com funções de perda especializadas, como ProgLoss e STAL, para uma melhor deteção de objetos pequenos.
Conclusão
Tanto YOLOv5 YOLOv7 o seu lugar na história da visão computacional. YOLOv7 é uma poderosa ferramenta de investigação para maximizar mAP GPU específico. No entanto, YOLOv5 continua a ser a escolha prática para muitos devido à sua facilidade de utilização, estabilidade e amplo suporte de implementação incomparáveis.
Para projetos voltados para o futuro, a recomendação é clara: adote Ultralytics . Ele combina o ecossistema intuitivo do YOLOv5 avanços arquitetónicos que superam os dois antecessores em velocidade, precisão e simplicidade.
Visite o Ultralytics Hub para explorar essas arquiteturas mais a fundo e baixar pesos pré-treinados para o seu próximo projeto.