Ir para o conteúdo

YOLOv7 vs. YOLOv9: Uma Comparação Técnica Detalhada

Ao selecionar um modelo YOLO para detecção de objetos, é crucial entender as nuances entre diferentes versões. Esta página fornece uma comparação técnica detalhada entre YOLOv7 e YOLOv9, dois modelos significativos da série YOLO desenvolvidos por pesquisadores do Instituto de Ciência da Informação, Academia Sinica, Taiwan. Exploraremos suas inovações arquitetônicas, benchmarks de desempenho e adequação para várias aplicações para ajudá-lo a tomar uma decisão informada para seu próximo projeto de visão computacional.

YOLOv7: Detecção de Objetos Eficiente e Rápida

Lançado em julho de 2022, o YOLOv7 foi um modelo de referência que visava otimizar significativamente tanto a velocidade como a precisão para a deteção de objetos em tempo real, estabelecendo novos padrões de eficiência na altura.

Autores: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Docs: https://docs.ultralytics.com/models/yolov7/

Arquitetura e Principais Características

A filosofia de design do YOLOv7 se concentra em maximizar a velocidade de inferência sem comprometer a precisão. Ele introduziu vários elementos arquitetônicos e estratégias de treinamento importantes para alcançar esse equilíbrio:

  • Rede de Agregação de Camadas Eficiente Estendida (E-ELAN): Este componente central do backbone aprimora a capacidade de aprendizado da rede, gerenciando a agregação de recursos de forma mais eficiente. Conforme detalhado no artigo de pesquisa, ele permite que o modelo aprenda recursos mais robustos sem um aumento substancial no custo computacional.
  • Dimensionamento Composto do Modelo: O YOLOv7 introduziu métodos de dimensionamento composto para profundidade e largura do modelo, permitindo uma otimização eficaz em uma variedade de tamanhos de modelo para atender a diferentes orçamentos computacionais.
  • Bag-of-Freebies Treinável: Este conceito envolve a incorporação de várias técnicas de otimização durante o processo de treinamento, como aumento de dados avançado e estratégias de atribuição de rótulos. Esses métodos melhoram a precisão do modelo final sem adicionar nenhuma sobrecarga ao custo de inferência.

Forças e Fraquezas

Pontos Fortes

  • Alta Velocidade de Inferência: Otimizado para aplicações em tempo real, YOLOv7 geralmente oferece inferência mais rápida do que muitos modelos subsequentes em certas configurações de hardware e tamanho de lote.
  • Desempenho Sólido: Atinge pontuações mAP competitivas, tornando-o uma escolha confiável e poderosa para muitas tarefas de detecção.
  • Modelo Estabelecido: Por estar disponível há algum tempo, o YOLOv7 se beneficia de uma adoção mais ampla, extensos recursos da comunidade e inúmeros exemplos de implementação comprovados.

Fraquezas

  • Menor Precisão Máxima: Comparado com o mais recente YOLOv9, o YOLOv7 pode exibir uma precisão máxima ligeiramente inferior, especialmente em cenários complexos com muitos objetos pequenos ou sobrepostos.
  • Detecção Baseada em Âncoras: Baseia-se em caixas delimitadoras (anchor boxes) predefinidas, que às vezes podem ser menos flexíveis do que as abordagens sem âncoras para detectar objetos com proporções incomuns ou altamente variadas.

Casos de Uso

O YOLOv7 é excecionalmente adequado para aplicações onde a velocidade de inferência é o fator mais crítico:

  • Sistemas de análise e vigilância de vídeo em tempo real.
  • Implementações de Edge AI em dispositivos com recursos limitados, como os encontrados em robótica e drones.
  • Protótipos e desenvolvimento rápidos de sistemas de detecção de objetos onde a resposta rápida é essencial.

Saiba mais sobre o YOLOv7.

YOLOv9: Informação de Gradiente Programável para Precisão Aprimorada

Introduzido em fevereiro de 2024, o YOLOv9 representa uma evolução arquitetónica significativa ao abordar diretamente o problema da perda de informação em redes neurais profundas, levando a ganhos substanciais em precisão.

Autores: Chien-Yao Wang e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Docs: https://docs.ultralytics.com/models/yolov9/

Arquitetura e Principais Características

O YOLOv9 introduz conceitos inovadores projetados para melhorar o fluxo de informações através da rede, resultando em um aprendizado mais eficaz e maior precisão.

  • Informação de Gradiente Programável (PGI): Esta é a inovação fundamental do YOLOv9. O PGI aborda o problema do gargalo de informação inerente às redes profundas, gerando gradientes confiáveis por meio de ramificações reversíveis auxiliares. Isso garante que informações cruciais sejam preservadas para atualizações em camadas mais profundas, evitando a perda de detalhes importantes necessários para uma detecção precisa.
  • Rede de Agregação de Camadas Eficiente Generalizada (GELAN): Com base nos sucessos de arquiteturas como o CSPNet (usado no YOLOv5), o GELAN é uma nova arquitetura de rede altamente eficiente. Ele otimiza a utilização de parâmetros e a eficiência computacional, permitindo que o YOLOv9 alcance melhor desempenho com menos recursos.

Forças e Fraquezas

Pontos Fortes

  • Precisão Aprimorada: A combinação de PGI e GELAN leva a uma extração de características superior e pontuações de mAP significativamente mais altas em comparação com o YOLOv7, o que é particularmente evidente nas variantes de modelos maiores.
  • Eficiência Aprimorada: O YOLOv9 alcança melhor precisão com menos parâmetros e cálculos do que os modelos anteriores. Para um determinado nível de precisão, o YOLOv9 é frequentemente mais eficiente do que o YOLOv7.
  • Inovações de Última Geração: Representa os mais recentes avanços da linhagem de pesquisa YOLO original, ultrapassando os limites do que é possível na detecção de objetos em tempo real.

Fraquezas

  • Demanda Computacional: Embora eficiente para sua precisão, a arquitetura avançada, especialmente em variantes maiores como o YOLOv9e, ainda pode exigir recursos computacionais substanciais para treinamento e implementação.
  • Modelo Mais Recente: Por ser um lançamento mais recente, o suporte da comunidade e os tutoriais de implementação de terceiros podem ser menos extensos do que para um modelo bem estabelecido como o YOLOv7. No entanto, sua integração no ecossistema Ultralytics ajuda a mitigar isso, proporcionando uma experiência de usuário simplificada.

Casos de Uso

O YOLOv9 é a escolha ideal para aplicações que exigem os mais altos níveis de precisão e eficiência:

  • Tarefas complexas de deteção em veículos autónomos e sistemas avançados de assistência ao condutor.
  • Sistemas de segurança de alta precisão que exigem a minimização de falsos positivos e negativos.
  • Aplicações onde o tamanho do modelo e o custo computacional são restrições críticas, mas a alta precisão não pode ser comprometida.

Saiba mais sobre o YOLOv9.

Comparação Direta de Desempenho e Eficiência

Ao comparar o YOLOv7 e o YOLOv9 diretamente, surge uma tendência clara: o YOLOv9 oferece um compromisso superior entre precisão e custo computacional. Por exemplo, o modelo YOLOv9m atinge o mesmo mAP de 51,4% que o YOLOv7l, mas faz isso com quase metade dos parâmetros (20,0M vs. 36,9M) e menos FLOPs. Da mesma forma, o YOLOv9c oferece um desempenho comparável ao YOLOv7x (53,0% vs. 53,1% mAP), sendo significativamente mais eficiente, usando apenas 25,3M parâmetros em comparação com os 71,3M do YOLOv7x. Este ganho de eficiência é um resultado direto das melhorias arquitetónicas no YOLOv9, particularmente o PGI e o GELAN, que permitem uma aprendizagem mais eficaz.

Modelo tamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv9t 640 38.3 - 2.30 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Conclusão e Recomendações

Tanto o YOLOv7 quanto o YOLOv9 são modelos formidáveis de detecção de objetos, mas atendem a prioridades ligeiramente diferentes.

  • YOLOv7 continua sendo um forte concorrente, especialmente para aplicações onde a velocidade de inferência bruta é a principal preocupação e uma arquitetura estabelecida e amplamente suportada é preferida. É um cavalo de batalha comprovado para muitos sistemas em tempo real.

  • YOLOv9 é o sucessor claro e a escolha recomendada para novos projetos que exigem precisão e eficiência de ponta. Sua arquitetura inovadora resolve problemas-chave no aprendizado profundo, resultando em um modelo que é mais preciso e mais eficiente computacionalmente do que seu predecessor.

Embora ambos os modelos sejam excelentes, os desenvolvedores que procuram uma solução mais integrada e versátil também devem considerar os modelos do ecossistema Ultralytics, como o Ultralytics YOLOv8 e o mais recente YOLO11. Estes modelos oferecem uma experiência de utilizador simplificada, documentação extensa e suporte para uma vasta gama de tarefas além da deteção, incluindo segmentação de instâncias, estimativa de pose e classificação, tudo dentro de uma framework única e bem mantida.

Explore Outros Modelos

Para mais comparações e para explorar outros modelos de ponta, confira estas outras páginas na documentação da Ultralytics:

  • YOLOv5: Conhecido pelo seu equilíbrio de desempenho e adoção generalizada.
  • YOLOv8: Um modelo versátil e poderoso que suporta múltiplas tarefas de visão.
  • YOLOv10: Foca-se na deteção de objetos em tempo real e de ponta a ponta, eliminando a necessidade de NMS.
  • YOLO11: O modelo de última geração mais recente da Ultralytics, oferecendo desempenho e eficiência de alto nível.
  • RT-DETR: Um detector baseado em transformer que oferece uma abordagem arquitetural diferente.


📅 Criado há 1 ano ✏️ Atualizado há 1 mês

Comentários