Ir para o conteúdo

YOLOv5 vs YOLOv9: Uma Comparação Detalhada

Esta página fornece uma comparação técnica entre dois modelos significativos de detecção de objetos: Ultralytics YOLOv5 e YOLOv9. Ambos os modelos fazem parte da influente série YOLO (You Only Look Once), conhecida por equilibrar velocidade e precisão na detecção de objetos em tempo real. Esta comparação explora suas diferenças arquitetônicas, métricas de desempenho e casos de uso ideais para ajudá-lo a selecionar o modelo mais adequado para seus projetos de visão computacional.

Ultralytics YOLOv5: O Padrão da Indústria Estabelecido

Autor: Glenn Jocher
Organização: Ultralytics
Data: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Documentação: https://docs.ultralytics.com/models/yolov5/

Ultralytics YOLOv5 rapidamente ganhou popularidade após o seu lançamento devido ao seu notável equilíbrio de velocidade, precisão e facilidade de uso. Desenvolvido inteiramente em PyTorch, YOLOv5 apresenta uma arquitetura que utiliza CSPDarknet53 como o backbone e PANet para agregação de recursos, juntamente com um cabeçalho de detecção eficiente baseado em âncoras. Ele oferece vários tamanhos de modelo (n, s, m, l, x), permitindo que os usuários escolham com base em seus recursos computacionais e necessidades de desempenho.

Pontos Fortes

  • Velocidade e Eficiência Excepcionais: YOLOv5 é altamente otimizado para inferência rápida, tornando-o ideal para aplicações em tempo real em diversos hardwares, incluindo dispositivos de borda.
  • Facilidade de Uso: O Ultralytics YOLOv5 é conhecido por sua experiência de usuário simplificada, interfaces Python e CLI simples e documentação extensa.
  • Ecosistema Bem Mantido: Beneficia-se do ecossistema Ultralytics integrado, apresentando desenvolvimento ativo, uma comunidade grande e de apoio, atualizações frequentes e recursos abrangentes como o Ultralytics HUB para treinamento sem código.
  • Equilíbrio de Desempenho: Alcança uma forte relação entre velocidade de inferência e precisão de detecção, adequado para diversos cenários de implementação no mundo real.
  • Versatilidade: Suporta múltiplas tarefas, incluindo detecção de objetos, segmentação de instâncias e classificação de imagens.
  • Eficiência no Treinamento: Oferece processos de treinamento eficientes, pesos pré-treinados prontamente disponíveis e requisitos de memória geralmente menores em comparação com muitas outras arquiteturas, especialmente modelos baseados em transformadores.

Fraquezas

  • Precisão: Embora altamente preciso para a sua época, modelos mais recentes como o YOLOv9 podem alcançar pontuações de mAP mais altas em benchmarks como o COCO.
  • Baseado em Âncoras: Baseia-se em caixas delimitadoras de âncora predefinidas, que podem exigir mais ajuste para conjuntos de dados específicos, em comparação com abordagens sem âncoras.

Casos de Uso

Saiba mais sobre o YOLOv5.

YOLOv9: Avançando na Precisão com Novas Técnicas

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentação: https://docs.ultralytics.com/models/yolov9/

O YOLOv9 introduz inovações arquiteturais significativas, nomeadamente a Informação de Gradiente Programável (PGI) e a Rede de Agregação de Camadas Eficientes Generalizada (GELAN). O PGI visa mitigar a perda de informação à medida que os dados fluem através de redes profundas, fornecendo informação de entrada completa para o cálculo da função de perda. O GELAN é uma arquitetura inovadora projetada para utilização superior de parâmetros e eficiência computacional. Estes avanços permitem que o YOLOv9 alcance maior precisão, mantendo a eficiência.

Pontos Fortes

  • Precisão Aprimorada: Define novos resultados de última geração no conjunto de dados COCO para detectores de objetos em tempo real, superando o YOLOv5 e outros modelos em mAP.
  • Eficiência Melhorada: GELAN e PGI contribuem para modelos que requerem menos parâmetros e recursos computacionais (FLOPs) para um desempenho comparável ou melhor do que os modelos anteriores.
  • Preservação da Informação: O PGI resolve eficazmente o problema do gargalo de informação, o que é crucial para treinar redes mais profundas e complexas com precisão.

Fraquezas

  • Recursos de Treinamento: O treinamento de modelos YOLOv9 pode ser mais intensivo em recursos e demorado em comparação com o YOLOv5 da Ultralytics, conforme observado na documentação do YOLOv9.
  • Arquitetura Mais Recente: Como um modelo mais recente de um grupo de pesquisa diferente, seu ecossistema, suporte da comunidade e integrações de terceiros são menos maduros do que o Ultralytics YOLOv5 bem estabelecido.
  • Versatilidade de Tarefas: Focado principalmente na detecção de objetos, carecendo do suporte integrado para segmentação, classificação e estimativa de pose encontrados em modelos Ultralytics como YOLOv5 e YOLOv8.

Casos de Uso

  • Aplicações que exigem a maior precisão possível na deteção de objetos.
  • Cenários onde a eficiência computacional é crítica, juntamente com o alto desempenho.
  • Análise de vídeo avançada e inspeção industrial de alta precisão.
  • IA na gestão de tráfego e aplicações de cidades inteligentes que exigem deteção de alto nível.

Saiba mais sobre o YOLOv9.

Desempenho e Benchmarks: YOLOv5 vs. YOLOv9

Ao comparar o desempenho, os modelos YOLOv9 geralmente alcançam pontuações de mAP mais altas do que as suas contrapartes YOLOv5, demonstrando a eficácia das suas inovações arquitetónicas. No entanto, o Ultralytics YOLOv5 mantém uma posição forte devido à sua velocidade de inferência excecional e implementação altamente otimizada, tornando-o uma escolha formidável para aplicações em tempo real onde frames por segundo (FPS) é uma métrica crítica.

Modelo tamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Análise Arquitetural Detalhada

Arquitetura YOLOv5

A arquitetura do Ultralytics YOLOv5 é uma implementação refinada dos princípios da família YOLO. Consiste em três partes principais:

  • Backbone: Uma rede CSPDarknet53, que é uma versão modificada do Darknet-53 que incorpora módulos Cross Stage Partial (CSP) para reduzir a computação, mantendo a precisão.
  • Neck: Uma Rede de Agregação de Caminhos (PANet) é usada para agregar características de diferentes níveis do backbone, melhorando a detecção de objetos em várias escalas.
  • Head: O head de deteção é baseado em âncoras, prevendo caixas delimitadoras a partir de formas de caixa âncora predefinidas, o que contribui para a sua alta velocidade.

Arquitetura YOLOv9

O YOLOv9 introduz conceitos inovadores para ultrapassar os limites da precisão e eficiência:

  • Informação de Gradiente Programável (PGI): Este mecanismo foi projetado para combater o problema do gargalo de informação em redes profundas. Ele garante que informações de entrada completas estejam disponíveis para calcular a função de perda, levando a atualizações de gradiente mais confiáveis e melhor convergência do modelo.
  • Rede de Agregação de Camadas Eficiente Generalizada (GELAN): Esta é uma nova arquitetura de rede que se baseia nos princípios do CSPNet e ELAN. O GELAN foi projetado para otimizar a utilização de parâmetros e a eficiência computacional, permitindo que o modelo alcance maior precisão com menos recursos.

Treinamento e Ecossistema

A experiência de treinamento e o suporte ao ecossistema são onde o Ultralytics YOLOv5 realmente se destaca.

  • Facilidade de Uso: O YOLOv5 oferece uma experiência incrivelmente amigável com APIs Python e de linha de comando simples, tutoriais extensos e documentação abrangente.
  • Ecosistema Bem Mantido: Como um modelo oficial da Ultralytics, o YOLOv5 faz parte de um ecossistema robusto que inclui desenvolvimento ativo, uma grande comunidade no GitHub e Discord, atualizações frequentes e integração perfeita com ferramentas de MLOps como o Ultralytics HUB.
  • Eficiência no Treinamento: O YOLOv5 é altamente eficiente para treinar, com pesos pré-treinados prontamente disponíveis e requisitos de memória mais baixos em comparação com arquiteturas mais complexas. Isso o torna acessível a usuários com uma gama mais ampla de hardware.

Embora o YOLOv9 seja um modelo poderoso, o seu processo de treino pode ser mais exigente e o seu ecossistema não é tão maduro ou integrado como o dos modelos Ultralytics. Para os desenvolvedores que procuram um caminho suave e bem suportado desde o treino até à implementação, o YOLOv5 oferece uma clara vantagem.

Conclusão: Qual Modelo Você Deve Escolher?

Tanto o YOLOv5 quanto o YOLOv9 são modelos excelentes, mas atendem a diferentes prioridades.

  • Ultralytics YOLOv5 é a escolha ideal para desenvolvedores que priorizam velocidade, facilidade de uso e um ecossistema maduro e bem suportado. Seu equilíbrio de desempenho excepcional o torna perfeito para aplicações em tempo real, prototipagem rápida e implantação em dispositivos edge AI com recursos limitados. Sua versatilidade em várias tarefas de visão aumenta seu valor como uma estrutura de IA de visão de propósito geral.

  • YOLOv9 é mais adequado para aplicações onde alcançar a maior precisão possível de detecção de objetos é o objetivo principal, e os recursos computacionais para treinamento são menos preocupantes. Sua arquitetura inovadora oferece resultados de ponta em benchmarks desafiadores.

Para a maioria dos usuários, especialmente aqueles que procuram um modelo confiável, rápido e fácil de usar, com forte suporte comercial e da comunidade, Ultralytics YOLOv5 continua sendo uma das principais recomendações. Para aqueles interessados nos mais recentes avanços da Ultralytics, modelos como YOLOv8 e o mais novo YOLO11 oferecem desempenho e versatilidade ainda maiores, mantendo a experiência amigável que define o ecossistema Ultralytics.



📅 Criado há 1 ano ✏️ Atualizado há 1 mês

Comentários