YOLOv9 vs. YOLOv5: Uma Comparação Técnica

No cenário da visão computacional, que avança rapidamente, selecionar o modelo de detecção de objetos certo é fundamental para o sucesso do projeto. Esta análise fornece uma comparação técnica detalhada entre o YOLOv9, uma arquitetura focada em pesquisa que amplia os limites da precisão, e o Ultralytics YOLOv5, o modelo padrão da indústria conhecido por sua confiabilidade, velocidade e versatilidade. Exploramos suas diferenças arquitetônicas, benchmarks de desempenho e casos de uso ideais para ajudá-lo a tomar uma decisão informada.

YOLOv9: Inovação Arquitetural para Máxima Precisão

Lançado no início de 2024, o YOLOv9 tem como alvo os limites teóricos da detecção de objetos ao abordar questões fundamentais no fluxo de informação de aprendizado profundo. Ele foi projetado para cenários onde a precisão é fundamental.

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organização:Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2024-02-21
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
Documentação:Documentação YOLOv9

Arquitetura Central

O YOLOv9 introduz dois conceitos inovadores: Informação de Gradiente Programável (PGI) e a Rede de Agregação de Camadas Eficiente Generalizada (GELAN). O PGI combate o problema do gargalo de informação inerente às redes neurais profundas, garantindo que a informação de entrada completa seja retida para a função de perda, melhorando a confiabilidade do gradiente. O GELAN otimiza a eficiência dos parâmetros, permitindo que o modelo alcance maior precisão com menos recursos computacionais em comparação com as arquiteturas anteriores que utilizam convolução depth-wise.

Forças e Fraquezas

A principal força do YOLOv9 é sua precisão de última geração em benchmarks como o conjunto de dados COCO. Ele se destaca na detecção de objetos pequenos ou ocluídos onde outros modelos podem falhar. No entanto, esse foco na precisão da detecção tem suas desvantagens. O processo de treinamento pode ser mais intensivo em recursos e, embora esteja integrado ao ecossistema Ultralytics, o suporte mais amplo da comunidade e as ferramentas de terceiros ainda estão amadurecendo em comparação com modelos estabelecidos há mais tempo. Além disso, seu foco principal permanece na detecção, enquanto outros modelos oferecem suporte nativo mais amplo para multitarefas.

Saiba mais sobre o YOLOv9

Ultralytics YOLOv5: O Padrão da Indústria Versátil

Desde o seu lançamento em 2020, o Ultralytics YOLOv5 definiu o padrão para a implantação prática de IA no mundo real. Ele atinge um equilíbrio preciso entre desempenho e usabilidade, tornando-o um dos modelos mais amplamente utilizados na história.

Autor: Glenn Jocher
Organização:Ultralytics
Data: 2020-06-26
GitHub:ultralytics/yolov5
Documentação:Documentação YOLOv5

Arquitetura Central

YOLOv5 emprega uma arquitetura refinada baseada em âncoras, apresentando um backbone CSPDarknet53 e um PANet neck para uma agregação de recursos robusta. Seu design prioriza a velocidade de inferência e a otimização de engenharia. O modelo vem em várias escalas (Nano a Extra Grande), permitindo que os desenvolvedores ajustem o modelo perfeitamente às suas restrições de hardware, desde dispositivos de borda incorporados até GPUs na nuvem.

A Vantagem Ultralytics

Embora YOLOv9 ultrapasse os limites acadêmicos, YOLOv5 se destaca na praticidade da engenharia.

Facilidade de Uso: O YOLOv5 é famoso por sua experiência de "instalar e executar". A API Python simplificada e a documentação abrangente reduzem significativamente o tempo de desenvolvimento.
Ecossistema Bem Mantido: Apoiado pela Ultralytics, o YOLOv5 desfruta de manutenção ativa, uma enorme comunidade no GitHub e integração perfeita com ferramentas MLOps.
Versatilidade: Além da detect, o YOLOv5 suporta nativamente segmentação de instâncias e classificação de imagens, oferecendo uma solução unificada para diversas tarefas de visão.
Eficiência de Memória: Os modelos Ultralytics são otimizados para menores utilizações de memória durante o treinamento e a inferência, contrastando com os altos requisitos de alternativas baseadas em transformer.

Saiba mais sobre o YOLOv5.

Métricas de Desempenho: Velocidade vs. Precisão

A comparação abaixo destaca as distintas funções desses modelos. YOLOv9 geralmente atinge maior mAP (precisão média média), particularmente nos tamanhos de modelo maiores (c e e). Isso o torna superior para tarefas que exigem detalhes granulares.

Por outro lado, o YOLOv5 oferece velocidades de inferência imbatíveis, particularmente com suas variantes Nano (n) e Small (s). Para aplicações em tempo real em hardware de ponta como o NVIDIA Jetson ou Raspberry Pi, o YOLOv5 continua sendo um dos principais concorrentes devido à sua natureza leve e maturidade de otimização TensorRT.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Dica de Implementação

Para máxima flexibilidade de implementação, ambos os modelos podem ser exportados para formatos como ONNX, TensorRT e CoreML utilizando o modo de exportação Ultralytics. Isto garante que os seus modelos funcionem de forma eficiente em qualquer hardware de destino.

Treino e Usabilidade

As metodologias de treinamento diferem significativamente na experiência do usuário. Ultralytics YOLOv5 foi projetado para eficiência de treinamento, oferecendo predefinições robustas que funcionam prontas para uso para conjuntos de dados personalizados. Possui cálculo automático de âncoras, evolução de hiperparâmetros e integrações de registro avançadas.

O YOLOv9, embora poderoso, pode exigir um ajuste mais cuidadoso dos hiperparâmetros para alcançar estabilidade e convergência, especialmente em conjuntos de dados menores. No entanto, graças à sua integração no ultralytics Pacote Python, os desenvolvedores podem agora treinar o YOLOv9 usando a mesma sintaxe simples do YOLOv5, colmatando a lacuna de usabilidade.

Exemplo de Código

Com a biblioteca Ultralytics, alternar entre essas arquiteturas é tão simples quanto alterar o nome do modelo. Este trecho demonstra como carregar e executar a inferência com ambos os modelos:

from ultralytics import YOLO

# Load the established industry standard YOLOv5 (nano version)
model_v5 = YOLO("yolov5nu.pt")

# Run inference on an image
results_v5 = model_v5("path/to/image.jpg")

# Load the high-accuracy YOLOv9 (compact version)
model_v9 = YOLO("yolov9c.pt")

# Run inference on the same image for comparison
results_v9 = model_v9("path/to/image.jpg")

Casos de Uso Ideais

Quando escolher o YOLOv9

Inspeção de Alta Precisão: Detecção de defeitos mínimos em linhas de montagem de fabricação, onde cada pixel conta.
Pesquisa Avançada: Projetos explorando novas arquiteturas de aprendizado profundo, como Informações de Gradiente Programáveis.
Ambientes Complexos: Cenários com alta oclusão ou desordem onde a agregação avançada de recursos do GELAN oferece uma vantagem decisiva.

Quando escolher o YOLOv5

Implementação de Borda: Execução em dispositivos alimentados por bateria ou microcontroladores onde o consumo de energia e a pegada de memória são críticos.
Protótipagem Rápida: Quando você precisa passar da coleta de dados a uma demonstração funcional em horas, não em dias, aproveitando os extensos tutoriais e os recursos da comunidade.
Sistemas Multi-Tarefa: Aplicações que requerem estimativa de pose ou classificação juntamente com a detecção dentro de uma única base de código.
Estabilidade na Produção: Ambientes empresariais que exigem uma solução testada e comprovada com anos de confiabilidade.

Conclusão

A escolha entre YOLOv9 e YOLOv5 depende das suas restrições específicas. YOLOv9 é a escolha superior para maximizar a precisão, oferecendo melhorias arquitetónicas de ponta. YOLOv5 continua a ser o campeão da versatilidade e facilidade de uso, fornecendo um ecossistema robusto e bem suportado que simplifica todo o ciclo de vida da IA.

Para desenvolvedores que buscam o melhor dos dois mundos—combinando a facilidade de uso do YOLOv5 com um desempenho superior ao YOLOv9—recomendamos explorar o YOLO11. Como a iteração mais recente da Ultralytics, o YOLO11 oferece velocidade e precisão de ponta em todas as tarefas de visão, representando o futuro da família YOLO.

Explore Outros Modelos

YOLO11: O modelo mais recente e poderoso da Ultralytics para detecção, segmentação e pose.
YOLOv8: Um poderoso predecessor do YOLO11, oferecendo um ótimo equilíbrio de recursos.
RT-DETR: Um detector baseado em transformer otimizado para desempenho em tempo real.

YOLOv9 vs. YOLOv5: Uma Comparação Técnica

YOLOv9: Inovação Arquitetural para Máxima Precisão

Arquitetura Central

Forças e Fraquezas

Ultralytics YOLOv5: O Padrão da Indústria Versátil

Arquitetura Central

A Vantagem Ultralytics

Métricas de Desempenho: Velocidade vs. Precisão

Treino e Usabilidade

Exemplo de Código

Casos de Uso Ideais

Quando escolher o YOLOv9

Quando escolher o YOLOv5

Conclusão

Explore Outros Modelos

Comentários