Ir para o conteúdo

YOLOv9 vs. YOLOv7: Uma Comparação Técnica Detalhada

Ao selecionar um modelo YOLO para detecção de objetos, é crucial entender as nuances entre diferentes versões. Esta página fornece uma comparação técnica detalhada entre YOLOv7 e YOLOv9, dois modelos significativos da série YOLO desenvolvidos por pesquisadores do Instituto de Ciência da Informação, Academia Sinica, Taiwan. Exploraremos suas inovações arquitetônicas, benchmarks de desempenho e adequação para várias aplicações para ajudá-lo a tomar uma decisão informada para seus projetos de visão computacional.

YOLOv9: Informação de Gradiente Programável para Aprendizado Aprimorado

O YOLOv9, introduzido em fevereiro de 2024, representa um avanço significativo ao lidar com a perda de informações em redes neurais profundas, um problema comum que pode degradar o desempenho do modelo.

Autores: Chien-Yao Wang e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Docs: https://docs.ultralytics.com/models/yolov9/

Arquitetura e Principais Características

O YOLOv9 introduz conceitos inovadores para melhorar o fluxo de informações e a eficiência do aprendizado, diferenciando-o de seus antecessores.

  • Informação de Gradiente Programável (PGI): Esta é a principal inovação do YOLOv9. Ele aborda o problema do gargalo de informação em redes profundas, gerando gradientes confiáveis por meio de ramificações reversíveis auxiliares. Isso garante que informações cruciais sejam preservadas em todas as camadas, levando a um treinamento de modelo mais eficaz e melhor precisão final.
  • Rede de Agregação de Camadas Eficiente Generalizada (GELAN): O YOLOv9 apresenta uma nova arquitetura de rede que otimiza a utilização de parâmetros e a eficiência computacional. GELAN é uma arquitetura leve, baseada no planejamento do caminho do gradiente, que se baseia nos sucessos de designs como o CSPNet, que foi fundamental em modelos como o YOLOv5.

Pontos Fortes

  • Precisão Aprimorada: A combinação de PGI e GELAN permite uma extração de características superior e pontuações de Precisão Média (mAP) mais altas em comparação com o YOLOv7, particularmente evidente nas variantes de modelos maiores.
  • Eficiência Aprimorada: O YOLOv9 alcança melhor precisão com menos parâmetros e cálculos (FLOPs) do que o YOLOv7. Por exemplo, o YOLOv9-C atinge um mAP semelhante ao YOLOv7x com 66% menos parâmetros e 46% menos FLOPs.
  • Tecnologia de Ponta: Representa as últimas inovações dos autores originais do YOLO, ultrapassando os limites do que é possível na detecção de objetos em tempo real.

Fraquezas

  • Demanda Computacional: Embora eficiente para sua precisão, a arquitetura avançada, especialmente variantes maiores como o YOLOv9-E, ainda pode exigir recursos computacionais significativos para treinamento e implementação.
  • Modelo Mais Recente: Por ser um lançamento mais recente, o suporte da comunidade e os tutoriais de implementação prontamente disponíveis podem ser menos extensos do que para o bem estabelecido YOLOv7. No entanto, a implementação Ultralytics YOLOv9 mitiga isso, fornecendo um ambiente simplificado, bem documentado e com suporte.

Casos de Uso

O YOLOv9 é ideal para aplicações que exigem a mais alta precisão e eficiência, onde detetar objetos com precisão é fundamental.

Saiba mais sobre o YOLOv9.

YOLOv7: Otimizado para Velocidade e Eficiência

O YOLOv7, lançado em julho de 2022, foi um modelo marcante que visava otimizar significativamente a relação entre velocidade e precisão para inferência em tempo real.

Autores: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Docs: https://docs.ultralytics.com/models/yolov7/

Arquitetura e Principais Características

O YOLOv7 se concentrou em otimizar a arquitetura e o processo de treinamento para tornar os modelos mais rápidos e precisos sem aumentar o custo de inferência.

  • Rede de Agregação de Camadas Eficiente Estendida (E-ELAN): Este bloco arquitetônico aprimora a capacidade de aprendizado da rede, permitindo que ela aprenda recursos mais diversos, melhorando o desempenho sem interromper o caminho de gradiente original.
  • Escalonamento de Modelo: YOLOv7 introduziu métodos de escalonamento composto para profundidade e largura do modelo, permitindo que seja otimizado de forma eficaz para diferentes tamanhos de modelo e orçamentos computacionais.
  • Bag-of-Freebies Treinável: Este conceito incorpora várias técnicas de otimização durante o treinamento, como aumento de dados avançado e estratégias de atribuição de rótulos. Essas técnicas melhoram a precisão sem adicionar nenhuma sobrecarga computacional durante a inferência.

Pontos Fortes

  • Alta Velocidade de Inferência: YOLOv7 é altamente otimizado para velocidade e permanece um dos detectores de objetos mais rápidos disponíveis, tornando-o excelente para aplicações em tempo real em vários hardwares.
  • Desempenho Sólido: Atinge pontuações mAP competitivas, tornando-o uma escolha confiável e poderosa para muitas tarefas padrão de detecção de objetos.
  • Modelo Estabelecido: Por estar disponível há mais tempo, o YOLOv7 se beneficia de uma adoção mais ampla, extensos recursos da comunidade e muitos exemplos de implementação comprovados em diferentes setores.

Fraquezas

  • Menor Precisão Máxima: Embora rápido, pode exibir uma precisão máxima ligeiramente inferior em comparação com o mais recente YOLOv9 em cenários complexos com objetos desafiadores.
  • Baseado em Âncoras: Baseia-se em caixas delimitadoras de âncora predefinidas, que por vezes podem ser menos flexíveis do que as abordagens sem âncoras para detectar objetos com proporções incomuns.

Casos de Uso

O YOLOv7 é adequado para aplicações onde a velocidade de inferência é o fator mais crítico.

  • Análise e vigilância de vídeo em tempo real em dispositivos edge AI.
  • Sistemas de alto rendimento, como controle de qualidade em uma linha de produção de movimento rápido.
  • Protótipos rápidos de sistemas de detecção de objetos onde a implantação rápida é essencial.

Saiba mais sobre o YOLOv7.

Desempenho e Eficiência: Uma Análise Direta

A principal diferença entre o YOLOv9 e o YOLOv7 reside na compensação entre precisão, tamanho do modelo e custo computacional. O YOLOv9 impulsiona a fronteira da eficiência, oferecendo maior precisão com menos parâmetros e FLOPs. Por exemplo, o YOLOv9-M atinge os mesmos 51,4% de mAP que o YOLOv7l, mas com 46% menos parâmetros e 27% menos FLOPs. Essa tendência continua na escala, onde o YOLOv9-E estabelece um novo estado da arte com 55,6% de mAP, superando todas as variantes do YOLOv7.

Esta eficiência aprimorada significa que, para uma determinada meta de precisão, o YOLOv9 oferece um modelo menor, mais rápido e com maior eficiência energética.

Modelo tamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Conclusão: Qual Modelo É o Ideal Para Você?

Tanto o YOLOv7 quanto o YOLOv9 são modelos poderosos, mas atendem a prioridades ligeiramente diferentes.

  • Escolha YOLOv9 se sua aplicação exigir a maior precisão e eficiência possíveis. Seus avanços arquitetônicos o tornam superior para cenas complexas e implementações com recursos limitados, onde você precisa do melhor desempenho de um modelo menor.

  • Escolha YOLOv7 se você precisa de um modelo testado em batalha e extremamente rápido para aplicações padrão em tempo real e prefere trabalhar com uma arquitetura mais estabelecida com vastos recursos da comunidade.

Para desenvolvedores e pesquisadores que procuram a melhor experiência geral, recomendamos o uso desses modelos dentro do ecossistema Ultralytics. Modelos mais recentes como o Ultralytics YOLOv8 e o YOLO11 não apenas oferecem desempenho competitivo, mas também vêm com vantagens significativas:

  • Facilidade de Uso: Uma experiência de usuário simplificada com uma API Python simples e documentação extensa.
  • Ecossistema Bem Mantido: Desenvolvimento ativo, forte suporte da comunidade e integração com ferramentas como o Ultralytics HUB para treinamento e implantação sem código.
  • Versatilidade: Suporte para múltiplas tarefas além da detecção, incluindo segmentação de instâncias, estimativa de pose e classificação, tudo dentro de uma única estrutura.
  • Eficiência no Treinamento: Processos de treinamento eficientes com pesos pré-treinados prontamente disponíveis e menores requisitos de memória em comparação com muitos outros tipos de modelos.

Explore Outros Modelos

Para mais comparações, considere explorar outros modelos de ponta disponíveis na documentação da Ultralytics:



📅 Criado há 1 ano ✏️ Atualizado há 1 mês

Comentários