YOLOv5 vs. YOLOv9: Uma comparação técnica exaustiva
A evolução da deteção de objectos em tempo real tem sido marcada por rápidos avanços em termos de precisão e eficiência. Dois marcos significativos neste percurso são Ultralytics YOLOv5um modelo que definiu o padrão da indústria para usabilidade e implantação, e o YOLOv9uma arquitetura centrada na investigação que ultrapassa os limites da teoria da aprendizagem profunda.
Esta comparação técnica analisa as suas arquitecturas, métricas de desempenho e casos de utilização ideais para ajudar os programadores e investigadores a selecionar a ferramenta certa para os seus projectos de visão computacional.
Ultralytics YOLOv5: O padrão da indústria para a versatilidade
Desde o seu lançamento, YOLOv5 tornou-se um dos modelos de IA de visão mais populares a nível mundial. Desenvolvido pela Ultralytics, dá prioridade à excelência da engenharia, à facilidade de utilização e ao desempenho no mundo real. Equilibra velocidade e precisão, proporcionando uma experiência de utilizador perfeita através de um ecossistema robusto.
Detalhes Técnicos:
- Autores: Glenn Jocher
- Organização:Ultralytics
- Data: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Documentos:https://docs.ultralytics.com/models/yolov5/
Arquitetura e Design
YOLOv5 utiliza um backbone CSPDarknet combinado com um pescoço PANet para extração e agregação eficientes de caraterísticas. A sua cabeça de deteção baseada em âncoras é altamente optimizada para velocidade, tornando-a adequada para uma vasta gama de hardware. Ao contrário dos modelos puramente académicos, YOLOv5 foi concebido a pensar na implementação, oferecendo suporte nativo para iOS, Androide dispositivos de ponta.
Principais pontos fortes
- Ecossistema bem mantido: YOLOv5 beneficia de anos de desenvolvimento ativo, resultando em documentação extensa, apoio da comunidade e integrações com ferramentas como o Ultralytics HUB.
- Eficiência de treinamento: É conhecida por tempos de formação rápidos e requisitos de memória mais baixos em comparação com arquitecturas baseadas em transformadores, tornando-a acessível em GPUs de consumo padrão.
- Versatilidade: Para além da deteção, YOLOv5 suporta nativamente a segmentação de instâncias e a classificação de imagens, permitindo que os programadores lidem com várias tarefas de visão com uma única estrutura.
- Pronto para implantação: Com capacidades de exportação incorporadas para ONNX, TensorRTCoreML e TFLite, a passagem da pesquisa para a produção é simplificada.
YOLOv9: Inovação arquitetónica para uma precisão máxima
Lançado em 2024, YOLOv9 centra-se na resolução de problemas de perda de informação em redes profundas. Introduz novos conceitos para melhorar a forma como os dados se propagam através do modelo, alcançando resultados de última geração em benchmarks como COCO.
Detalhes Técnicos:
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organização:Instituto de Ciência da Informação, Academia Sinica, Taiwan
- Data: 2024-02-21
- Arxiv:https://arxiv.org/abs/2402.13616
- GitHub:https://github.com/WongKinYiu/yolov9
- Documentos:https://docs.ultralytics.com/models/yolov9/
Arquitetura e Inovações
YOLOv9 introduz dois avanços principais na arquitetura:
- Informação de Gradiente Programável (PGI): Uma técnica concebida para mitigar o problema do estrangulamento da informação, assegurando que a informação de entrada completa está disponível para o cálculo da função de perda.
- Rede de agregação de camadas eficiente e generalizada (GELAN): Uma arquitetura de rede leve que optimiza a eficiência dos parâmetros, permitindo que o modelo atinja uma maior precisão com menos parâmetros do que alguns antecessores.
Principais pontos fortes
- Elevada precisão: YOLOv9 estabelece padrões impressionantes de precisão na deteção de objectos, particularmente nas suas configurações maioresYOLOv9).
- Eficiência dos parâmetros: A arquitetura GELAN garante que o modelo utiliza os parâmetros de forma eficaz, proporcionando uma forte relação precisão/peso.
- Avanço teórico: Aborda questões fundamentais da aprendizagem profunda no que respeita à preservação da informação em camadas profundas.
Comparação de Desempenho
Quando se comparam estes dois modelos, o compromisso situa-se normalmente entre a velocidade e a precisão absoluta. YOLOv9 obtém pontuações mAPval mais elevadas no conjunto de dados COCO , demonstrando a eficácia do PGI e do GELAN. No entanto, Ultralytics YOLOv5 continua a ser um concorrente formidável na velocidade de inferência, particularmente em CPUs e dispositivos de ponta, onde a sua arquitetura optimizada brilha.
Equilíbrio de desempenho
Enquanto YOLOv9 está no topo das tabelas de precisão, YOLOv5 fornece frequentemente um equilíbrio mais prático para aplicações em tempo real, oferecendo velocidades de inferência significativamente mais rápidas (ms) em hardware padrão, mantendo capacidades de deteção robustas.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Formação e recursos
Para os programadores, a eficiência da formação é muitas vezes tão importante como a velocidade de inferência. Ultralytics YOLOv5 é conhecido por sua simplicidade de "treinar e usar". Normalmente, requer menos memória durante o treinamento em comparação com arquiteturas mais novas e mais complexas, especialmente modelos baseados em transformadores (como RT-DETR). Esta menor barreira à entrada permite aos utilizadores treinar modelos personalizados em configurações de hardware modestas.
YOLOv9, embora seja eficiente em termos de parâmetros, pode exigir mais recursos para ser treinado devido à complexidade dos ramos auxiliares utilizados para a IGP, que são removidos durante a inferência, mas acrescentam custos adicionais durante o treino.
Exemplo de código: Interface unificada
Uma das principais vantagens do ecossistema Ultralytics é a APIPython unificada. Pode alternar entre YOLOv5 e YOLOv9 com uma única linha de código, o que torna incrivelmente fácil a avaliação comparativa de ambos no seu conjunto de dados específico.
from ultralytics import YOLO
# Load an Ultralytics YOLOv5 model (pre-trained on COCO)
model_v5 = YOLO("yolov5su.pt")
# Train the model on your custom data
results_v5 = model_v5.train(data="coco8.yaml", epochs=100, imgsz=640)
# Load a YOLOv9 model for comparison
model_v9 = YOLO("yolov9c.pt")
# Train YOLOv9 using the exact same API
results_v9 = model_v9.train(data="coco8.yaml", epochs=100, imgsz=640)
Casos de Uso Ideais
A escolha entre estes modelos depende das prioridades do seu projeto:
Quando escolher o Ultralytics YOLOv5
- Implantação de borda: Ideal para Raspberry Pi, aplicações móveis e sistemas incorporados onde cada milissegundo de latência conta.
- Prototipagem rápida: A facilidade de utilização, os tutoriais extensivos e o apoio da comunidade permitem ciclos de desenvolvimento incrivelmente rápidos.
- Requisitos Multi-Tarefa: Se o seu projeto requer segmentação ou classificação juntamente com a deteção, YOLOv5 fornece uma solução unificada.
- Restrições de recursos: Os projectos com memória GPU limitada para treino beneficiarão da eficiência do YOLOv5.
Quando escolher YOLOv9
- Precisão máxima: Crítico para aplicações como imagiologia médica ou inspeção industrial de alta precisão, em que falhar uma deteção é dispendioso.
- Investigação académica: Excelente para investigadores que exploram as últimas novidades em fluxo de informação gradiente e design de arquitetura de rede.
- Hardware potente: melhor utilizado quando estão disponíveis amplos recursos computacionais para formação e inferência, de modo a tirar partido de todo o seu potencial.
Conclusão
Ambos os modelos representam a excelência no domínio da visão por computador. Ultralytics YOLOv5 continua a ser a escolha pragmática para a maioria dos programadores, oferecendo uma combinação imbatível de velocidade, fiabilidade e suporte do ecossistema. É um cavalo de batalha testado para implantação no mundo real. YOLOv9por outro lado, oferece um vislumbre do futuro da eficiência arquitetónica, fornecendo uma precisão de topo para quem precisa dela.
Para quem procura o que há de mais moderno em termos de desempenho e versatilidade, recomendamos também que explore o YOLO11que se baseia nos pontos fortes do YOLOv5 e do YOLOv8 para fornecer resultados de ponta em todas as métricas.
Explore Outros Modelos
Se estiver interessado em explorar mais, consulte estes modelos relacionados no ecossistema Ultralytics :
- YOLO11: O mais recente modelo SOTA com desempenho e versatilidade superiores.
- YOLOv8: Um poderoso modelo sem âncoras que suporta deteção, segmentação, pose e OBB.
- RT-DETR: Um detetor em tempo real baseado em transformador para aplicações de alta precisão.