YOLOv9 vs. YOLOv7: Uma Comparação Técnica Detalhada
Ao selecionar um modelo YOLO para detecção de objetos, é crucial entender as nuances entre diferentes versões. Esta página fornece uma comparação técnica detalhada entre YOLOv7 e YOLOv9, dois modelos significativos da série YOLO desenvolvidos por pesquisadores do Instituto de Ciência da Informação, Academia Sinica, Taiwan. Exploraremos suas inovações arquitetônicas, benchmarks de desempenho e adequação para várias aplicações para ajudá-lo a tomar uma decisão informada para seus projetos de visão computacional.
YOLOv9: Informação de Gradiente Programável para Aprendizado Aprimorado
O YOLOv9, introduzido em fevereiro de 2024, representa um avanço significativo ao lidar com a perda de informações em redes neurais profundas, um problema comum que pode degradar o desempenho do modelo.
Autores: Chien-Yao Wang e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Docs: https://docs.ultralytics.com/models/yolov9/
Arquitetura e Principais Características
O YOLOv9 introduz conceitos inovadores para melhorar o fluxo de informações e a eficiência do aprendizado, diferenciando-o de seus antecessores.
- Informação de Gradiente Programável (PGI): Esta é a principal inovação do YOLOv9. Ele aborda o problema do gargalo de informação em redes profundas, gerando gradientes confiáveis por meio de ramificações reversíveis auxiliares. Isso garante que informações cruciais sejam preservadas em todas as camadas, levando a um treinamento de modelo mais eficaz e melhor precisão final.
- Rede de Agregação de Camadas Eficiente Generalizada (GELAN): O YOLOv9 apresenta uma nova arquitetura de rede que otimiza a utilização de parâmetros e a eficiência computacional. GELAN é uma arquitetura leve, baseada no planejamento do caminho do gradiente, que se baseia nos sucessos de designs como o CSPNet, que foi fundamental em modelos como o YOLOv5.
Pontos Fortes
- Precisão Aprimorada: A combinação de PGI e GELAN permite uma extração de características superior e pontuações de Precisão Média (mAP) mais altas em comparação com o YOLOv7, particularmente evidente nas variantes de modelos maiores.
- Eficiência Aprimorada: O YOLOv9 alcança melhor precisão com menos parâmetros e cálculos (FLOPs) do que o YOLOv7. Por exemplo, o YOLOv9-C atinge um mAP semelhante ao YOLOv7x com 66% menos parâmetros e 46% menos FLOPs.
- Tecnologia de Ponta: Representa as últimas inovações dos autores originais do YOLO, ultrapassando os limites do que é possível na detecção de objetos em tempo real.
Fraquezas
- Demanda Computacional: Embora eficiente para sua precisão, a arquitetura avançada, especialmente variantes maiores como o YOLOv9-E, ainda pode exigir recursos computacionais significativos para treinamento e implementação.
- Modelo Mais Recente: Por ser um lançamento mais recente, o suporte da comunidade e os tutoriais de implementação prontamente disponíveis podem ser menos extensos do que para o bem estabelecido YOLOv7. No entanto, a implementação Ultralytics YOLOv9 mitiga isso, fornecendo um ambiente simplificado, bem documentado e com suporte.
Casos de Uso
O YOLOv9 é ideal para aplicações que exigem a mais alta precisão e eficiência, onde detetar objetos com precisão é fundamental.
- Tarefas complexas de deteção em veículos autónomos e robótica.
- Sistemas de segurança avançados que exigem deteção precisa de objetos pequenos ou ocluídos.
- Aplicações em análise de imagens médicas onde a alta fidelidade é indispensável.
YOLOv7: Otimizado para Velocidade e Eficiência
O YOLOv7, lançado em julho de 2022, foi um modelo marcante que visava otimizar significativamente a relação entre velocidade e precisão para inferência em tempo real.
Autores: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Docs: https://docs.ultralytics.com/models/yolov7/
Arquitetura e Principais Características
O YOLOv7 se concentrou em otimizar a arquitetura e o processo de treinamento para tornar os modelos mais rápidos e precisos sem aumentar o custo de inferência.
- Rede de Agregação de Camadas Eficiente Estendida (E-ELAN): Este bloco arquitetônico aprimora a capacidade de aprendizado da rede, permitindo que ela aprenda recursos mais diversos, melhorando o desempenho sem interromper o caminho de gradiente original.
- Escalonamento de Modelo: YOLOv7 introduziu métodos de escalonamento composto para profundidade e largura do modelo, permitindo que seja otimizado de forma eficaz para diferentes tamanhos de modelo e orçamentos computacionais.
- Bag-of-Freebies Treinável: Este conceito incorpora várias técnicas de otimização durante o treinamento, como aumento de dados avançado e estratégias de atribuição de rótulos. Essas técnicas melhoram a precisão sem adicionar nenhuma sobrecarga computacional durante a inferência.
Pontos Fortes
- Alta Velocidade de Inferência: YOLOv7 é altamente otimizado para velocidade e permanece um dos detectores de objetos mais rápidos disponíveis, tornando-o excelente para aplicações em tempo real em vários hardwares.
- Desempenho Sólido: Atinge pontuações mAP competitivas, tornando-o uma escolha confiável e poderosa para muitas tarefas padrão de detecção de objetos.
- Modelo Estabelecido: Por estar disponível há mais tempo, o YOLOv7 se beneficia de uma adoção mais ampla, extensos recursos da comunidade e muitos exemplos de implementação comprovados em diferentes setores.
Fraquezas
- Menor Precisão Máxima: Embora rápido, pode exibir uma precisão máxima ligeiramente inferior em comparação com o mais recente YOLOv9 em cenários complexos com objetos desafiadores.
- Baseado em Âncoras: Baseia-se em caixas delimitadoras de âncora predefinidas, que por vezes podem ser menos flexíveis do que as abordagens sem âncoras para detectar objetos com proporções incomuns.
Casos de Uso
O YOLOv7 é adequado para aplicações onde a velocidade de inferência é o fator mais crítico.
- Análise e vigilância de vídeo em tempo real em dispositivos edge AI.
- Sistemas de alto rendimento, como controle de qualidade em uma linha de produção de movimento rápido.
- Protótipos rápidos de sistemas de detecção de objetos onde a implantação rápida é essencial.
Desempenho e Eficiência: Uma Análise Direta
A principal diferença entre o YOLOv9 e o YOLOv7 reside na compensação entre precisão, tamanho do modelo e custo computacional. O YOLOv9 impulsiona a fronteira da eficiência, oferecendo maior precisão com menos parâmetros e FLOPs. Por exemplo, o YOLOv9-M atinge os mesmos 51,4% de mAP que o YOLOv7l, mas com 46% menos parâmetros e 27% menos FLOPs. Essa tendência continua na escala, onde o YOLOv9-E estabelece um novo estado da arte com 55,6% de mAP, superando todas as variantes do YOLOv7.
Esta eficiência aprimorada significa que, para uma determinada meta de precisão, o YOLOv9 oferece um modelo menor, mais rápido e com maior eficiência energética.
Modelo | tamanho (pixels) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4 TensorRT10 (ms) |
parâmetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Conclusão: Qual Modelo É o Ideal Para Você?
Tanto o YOLOv7 quanto o YOLOv9 são modelos poderosos, mas atendem a prioridades ligeiramente diferentes.
-
Escolha YOLOv9 se sua aplicação exigir a maior precisão e eficiência possíveis. Seus avanços arquitetônicos o tornam superior para cenas complexas e implementações com recursos limitados, onde você precisa do melhor desempenho de um modelo menor.
-
Escolha YOLOv7 se você precisa de um modelo testado em batalha e extremamente rápido para aplicações padrão em tempo real e prefere trabalhar com uma arquitetura mais estabelecida com vastos recursos da comunidade.
Para desenvolvedores e pesquisadores que procuram a melhor experiência geral, recomendamos o uso desses modelos dentro do ecossistema Ultralytics. Modelos mais recentes como o Ultralytics YOLOv8 e o YOLO11 não apenas oferecem desempenho competitivo, mas também vêm com vantagens significativas:
- Facilidade de Uso: Uma experiência de usuário simplificada com uma API Python simples e documentação extensa.
- Ecossistema Bem Mantido: Desenvolvimento ativo, forte suporte da comunidade e integração com ferramentas como o Ultralytics HUB para treinamento e implantação sem código.
- Versatilidade: Suporte para múltiplas tarefas além da detecção, incluindo segmentação de instâncias, estimativa de pose e classificação, tudo dentro de uma única estrutura.
- Eficiência no Treinamento: Processos de treinamento eficientes com pesos pré-treinados prontamente disponíveis e menores requisitos de memória em comparação com muitos outros tipos de modelos.
Explore Outros Modelos
Para mais comparações, considere explorar outros modelos de ponta disponíveis na documentação da Ultralytics: