Ir para o conteúdo

YOLOv9 . YOLOv7: Navegando pela evolução da detecção de objetos de última geração

No campo da visão computacional, que avança rapidamente, manter-se atualizado com as arquiteturas mais recentes é crucial para criar aplicações eficientes e precisas. Esta comparação aprofunda dois marcos significativos na linhagem YOLO You Only Look Once): YOLOv9, introduzido no início de 2024 com novas técnicas de otimização de gradiente, e YOLOv7, o padrão de 2022 para deteção em tempo real. Ambos os modelos moldaram o panorama da deteção de objetos, oferecendo vantagens únicas para pesquisadores e desenvolvedores.

Benchmark de Desempenho

A tabela a seguir destaca as métricas de desempenho do YOLOv9 YOLOv7 COCO . Enquanto YOLOv7 um padrão elevado de velocidade e precisão em 2022, YOLOv9 refinamentos arquitetónicos que ampliam ainda mais esses limites, particularmente em termos de eficiência de parâmetros.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOv9: Informação de Gradiente Programável

YOLOv9 uma mudança na forma como as arquiteturas de aprendizagem profunda gerem o fluxo de informações. Lançado em fevereiro de 2024 por Chien-Yao Wang e Hong-Yuan Mark Liao, ele aborda o problema do «gargalo de informações», em que os dados são perdidos ao passar por camadas profundas.

Principais Inovações Arquitetônicas

A principal inovação do YOLOv9 o PGI (Programmable Gradient Information, ou Informação de Gradiente Programável). O PGI fornece uma estrutura de supervisão auxiliar que garante que o ramo principal retenha informações críticas ao longo do processo de treinamento. Isso é complementado pela arquitetura GELAN (Generalized Efficient Layer Aggregation Network, ou Rede Generalizada de Agregação de Camadas Eficientes), que otimiza a utilização de parâmetros além dos métodos anteriores, como o CSPNet.

Saiba mais sobre o YOLOv9

YOLOv7: O Bag-of-Freebies Treinável

YOLOv7 projetado para ser o detetor de objetos em tempo real mais rápido e preciso no momento do seu lançamento, em julho de 2022. Ele introduziu vários métodos de otimização "bag-of-freebies" que melhoram a precisão sem aumentar o custo de inferência.

Principais Inovações Arquitetônicas

YOLOv7 na E-ELAN (Extended Efficient Layer Aggregation Network), que permite à rede aprender características mais diversificadas, controlando os caminhos de gradiente mais curtos e mais longos. Também foi pioneiro em técnicas de dimensionamento de modelos que ajustam simultaneamente a profundidade e a largura, tornando-o altamente adaptável a diferentes restrições de hardware.

Saiba mais sobre o YOLOv7

Análise Comparativa: Arquitetura e Casos de Uso

Precisão e retenção de características

YOLOv9 supera YOLOv7 cenários que exigem a deteção de objetos pequenos ou ocultos. A estrutura PGI garante que os gradientes não sejam diluídos, o que é particularmente benéfico para a análise de imagens médicas, onde a omissão de uma pequena anomalia pode ser crítica. YOLOv7 uma escolha robusta para deteção de uso geral, mas pode ter um pouco mais de dificuldade com gargalos extremos de informação em redes muito profundas.

Velocidade e eficiência da inferência

Embora ambos os modelos tenham sido concebidos para aplicações em tempo real, YOLOv9 um melhor equilíbrio entre parâmetros e precisão. Por exemplo, o YOLOv9c atinge uma precisão semelhante à do YOLOv7x, mas com significativamente menos parâmetros (25,3 milhões contra 71,3 milhões) e FLOPs. Isso torna YOLOv9 adequado para implementação em dispositivos onde a largura de banda da memória é uma limitação, como câmaras de IA de ponta.

Flexibilidade de Implementação

Ultralytics são conhecidos pela sua portabilidade. Tanto YOLOv9 YOLOv7 ser facilmente exportados para formatos como ONNX e TensorRT usando aPython Ultralytics , simplificando o caminho da pesquisa à produção.

Eficiência do Treinamento

Uma grande vantagem do Ultralytics é a otimização do uso da memória durante o treinamento. YOLOv9, integrado nativamente ao Ultralytics, beneficia-se de carregadores de dados e gerenciamento de memória eficientes. Isso permite que os desenvolvedores treinem modelos competitivos em GPUs de nível consumidor (por exemplo, RTX 3060 ou 4070) sem encontrar erros de memória insuficiente (OOM), comuns em arquiteturas pesadas de transformadores ou repositórios não otimizados.

Aplicações no Mundo Real

A escolha entre estes modelos geralmente depende do ambiente de implementação específico.

  • Veículos autónomos:YOLOv7 foi amplamente testado em cenários de condução autónoma, comprovando a sua fiabilidade na deteção de peões e sinais de trânsito a altas taxas de fotogramas.
  • Imagiologia na área da saúde:YOLOv9 se destaca em imagens médicas, como a deteção de tumores ou fraturas, onde é fundamental preservar detalhes minuciosos através de camadas profundas.
  • Análise de retalho: Para gestão de inventário, YOLOv9 oferece alta precisão na contagem de itens densamente empacotados nas prateleiras, aproveitando seus recursos superiores de integração.
  • Cidades inteligentes: os sistemas de monitorização do tráfego beneficiam do YOLOv7, essenciais para a gestão do tráfego em tempo real.

A Vantagem Ultralytics

A utilização de qualquer um dos modelos no Ultralytics oferece vantagens distintas em relação às implementações independentes:

  1. Facilidade de uso: uma API unificada permite alternar entre YOLOv7, YOLOv9 e modelos mais recentes com uma única linha de código.
  2. Ecossistema bem mantido: o suporte ativo da comunidade e as atualizações frequentes garantem a compatibilidade com as versões mais recentes do PyTorch e CUDA .
  3. Versatilidade: Além da deteção, a Ultralytics suporta tarefas de segmentação de instâncias, estimativa de poses e caixas delimitadoras orientadas (OBB), permitindo expandir o âmbito do seu projeto sem ter de aprender novas ferramentas.

Exemplo de Código: Treinamento com Ultralytics

O treino de ambos os modelos é simples. Veja como treinar um YOLOv9 num conjunto de dados personalizado:

from ultralytics import YOLO

# Load a model (YOLOv9c or YOLOv7)
model = YOLO("yolov9c.pt")  # or "yolov7.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

Preparando-se para o futuro com o YOLO26

Embora YOLOv9 YOLOv7 ferramentas poderosas, o campo evolui rapidamente. O mais recente YOLO26, lançado em janeiro de 2026, representa a vanguarda da visão computacional.

O YOLO26 apresenta um design nativo de ponta a ponta NMS, eliminando a latência de pós-processamento para uma implementação mais simples. Ele remove a perda focal de distribuição (DFL) para melhor compatibilidade de borda e introduz o otimizador MuSGD— um híbrido de SGD Muon inspirado no treinamento LLM — para uma estabilidade sem precedentes. Com funções de perda especializadas como ProgLoss + STAL, o YOLO26 melhora significativamente o reconhecimento de pequenos objetos, tornando-o a escolha recomendada para novas aplicações de alto desempenho.

Saiba mais sobre YOLO26

Para aqueles que estão a explorar outras opções, modelos como o YOLO11 e RT-DETR também oferecem vantagens exclusivas para casos de uso específicos dentro do Ultralytics .


Comentários