YOLOv7 YOLOv9: Evolução da deteção de objetos em tempo real
O panorama da visão computacional tem testemunhado uma rápida evolução, com a família YOLO You Only Look Once) liderando consistentemente a deteção de objetos em tempo real. Dois marcos significativos nessa linhagem são YOLOv7, lançado em julho de 2022, e YOLOv9, lançado em fevereiro de 2024. Embora ambas as arquiteturas tenham sido desenvolvidas por investigadores do Instituto de Ciência da Informação da Academia Sinica, elas representam gerações distintas de otimização de aprendizagem profunda.
Este guia fornece uma comparação técnica desses dois modelos poderosos, analisando suas inovações arquitetónicas, métricas de desempenho e casos de uso ideais dentro do Ultralytics .
Inovações Arquiteturais
A principal diferença entre esses modelos reside na forma como eles gerenciam a propagação de características e o fluxo de gradiente através de redes profundas.
YOLOv7: O Bag-of-Freebies
Escrito por Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao, YOLOv7 introduziu a E-ELAN (Extended Efficient Layer Aggregation Network, ou Rede de Agregação de Camadas Eficiente Estendida). Essa arquitetura permite que a rede aprenda características mais diversificadas, controlando os caminhos de gradiente mais curtos e mais longos.
YOLOv7 famoso pelo seu «Bag-of-Freebies» — um conjunto de métodos de treino que melhoram a precisão sem aumentar o custo da inferência. Estes incluem técnicas de reparametrização e supervisão auxiliar, que ajudam o modelo a aprender melhores representações durante o treino, mas são mescladas ou removidas durante a exportação do modelo para uma implementação mais rápida.
YOLOv9: Informação de Gradiente Programável
YOLOv9, desenvolvido por Chien-Yao Wang e Hong-Yuan Mark Liao, aborda o problema do «gargalo de informação» inerente às redes profundas. À medida que os dados passam por camadas sucessivas, as informações de entrada são frequentemente perdidas. YOLOv9 dois conceitos inovadores detalhados no seu artigo Arxiv:
- GELAN (Generalized Efficient Layer Aggregation Network): Uma arquitetura que combina os pontos fortes da CSPNet e da ELAN para maximizar a eficiência dos parâmetros.
- PGI (Informação de Gradiente Programável): Uma estrutura de supervisão auxiliar que gera gradientes fiáveis para atualizar os pesos da rede, garantindo que o modelo retém informações cruciais em toda a profundidade da rede.
Análise de Desempenho
Ao escolher entre arquiteturas, os desenvolvedores devem equilibrar a precisão média (mAP), a velocidade de inferência e o custo computacional (FLOPs). A tabela abaixo destaca as diferenças de desempenho no COCO .
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Principais Conclusões
- Eficiência: O YOLOv9m atinge a mesma precisão (51,4% mAP) que o YOLOv7l, mas com quase 45% menos parâmetros (20,0 milhões contra 36,9 milhões) e FLOPs significativamente mais baixos.
- Velocidade: Para aplicações em tempo real, onde cada milésimo de segundo conta, o YOLOv9t oferece velocidades incríveis (2,3 ms no T4 TensorRT) adequadas para dispositivos de ponta.
- Precisão:O YOLOv9e amplia os limites da precisão de detecção, alcançando 55,6% mAP, tornando-o superior para tarefas que exigem alta precisão.
A Vantagem do Ecossistema Ultralytics
Independentemente de escolher YOLOv7 YOLOv9, utilizá-los através do Python Ultralytics Python proporciona uma experiência unificada e simplificada.
Facilidade de uso e formação
Ultralytics os complexos loops de treino encontrados nas PyTorch brutas PyTorch . Os programadores podem alternar entre arquiteturas alterando um único argumento de string, simplificando o ajuste de hiperparâmetros e a experimentação.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model (or substitute with "yolov7.pt")
model = YOLO("yolov9c.pt")
# Train on the COCO8 dataset with efficient memory management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate performance
metrics = model.val()
Gestão de memória e recursos
Uma vantagem significativa da Ultralytics é o uso otimizado da memória. Ao contrário de muitos modelos baseados em Transformer (como variantes DETR) ou detectores de duas etapas mais antigos,YOLO Ultralytics são projetados para minimizar picos CUDA . Isso permite que os investigadores utilizem tamanhos de lote maiores em GPUs de nível consumidor, democratizando o acesso ao treinamento de modelos de ponta.
Gestão integrada de conjuntos de dados
Ultralytics downloads e formatação de conjuntos de dados automaticamente. Pode começar a treinar imediatamente com conjuntos de dados padrão, como COCO8 ou Objects365 sem precisar escrever carregadores de dados complexos.
Aplicações no Mundo Real
Quando Escolher YOLOv7
YOLOv7 uma escolha robusta para sistemas em que a compatibilidade com versões anteriores é fundamental.
- Pipelines estabelecidos: projetos já integrados com pipelines de exportação C++ da era 2022 podem achar mais fácil continuar com YOLOv7.
- Detecção de finalidade geral: para análises de vídeo padrão, em que a contagem absoluta mais baixa de parâmetros não é a principal restrição, YOLOv7 tem um desempenho admirável.
Quando Escolher YOLOv9
YOLOv9 geralmente recomendado para novas implementações devido à sua eficiência superior em termos de parâmetros.
- Computação de ponta: A natureza leve do GELAN torna YOLOv9 para sistemas incorporados e aplicações móveis onde o armazenamento e a computação são limitados.
- Imagem médica: A arquitetura PGI ajuda a preservar informações detalhadas, o que é fundamental para detectar pequenas anomalias em exames médicos.
- Vigilância aérea: a retenção de recursos aprimorada ajuda a detectar pequenos objetos, como veículos ou gado, a partir de imagens de drones em alta altitude.
A Próxima Geração: YOLO26
Embora YOLOv7 YOLOv9 modelos excelentes, o campo da IA está a evoluir para uma simplicidade e velocidade ainda maiores. Conheça o YOLO26, a mais recente iteração da Ultralytics em janeiro de 2026.
O YOLO26 representa uma mudança de paradigma com o seu design End-to-End NMS. Ao remover a supressão não máxima (NMS), o YOLO26 elimina um grande gargalo nas linhas de inferência, simplificando a implementação para TensorRT e ONNX.
- Otimizador MuSGD: Inspirado nas inovações no treinamento de LLM (como o Kimi K2 da Moonshot AI), o YOLO26 utiliza o otimizador MuSGD para uma convergência mais rápida e maior estabilidade.
- Otimização de borda: com a remoção da Distribuição Focal Loss (DFL) e funções de perda otimizadas como ProgLoss + STAL, o YOLO26 funciona até 43% mais rápido em CPUs, tornando-o a melhor escolha para IA de borda.
- Versatilidade: Ao contrário dos modelos anteriores, que podiam ser específicos para detecção, o YOLO26 suporta nativamente estimativa de pose, segmentação e Oriented Bounding Boxes (OBB).
Conclusão
Tanto YOLOv7 YOLOv9 significativamente para o avanço da visão computacional. YOLOv7 um alto padrão de velocidade e precisão em 2022, enquanto YOLOv9 novas mudanças arquitetónicas para melhorar o fluxo de gradiente e a eficiência dos parâmetros em 2024.
Para os programadores atuais, a escolha normalmente recai sobre o YOLOv9 pela sua eficiência ou o avançado YOLO26 pela sua arquitetura NMS e CPU . Com o suporte da robusta Ultralytics , nunca foi tão fácil alternar entre esses modelos para encontrar o mais adequado às suas restrições específicas, seja para monitoramento de cidades inteligentes ou robótica agrícola.