Ir para o conteúdo

PP-YOLOE+ vs. YOLOv9: Uma comparação abrangente das arquiteturas de detecção de objetos

A deteção de objetos em tempo real continua a evoluir rapidamente, com os investigadores a expandirem constantemente os limites da precisão, latência e eficiência dos parâmetros. Dois marcos significativos nesta jornada são o PP-YOLOE+, desenvolvido pela PaddlePaddle da Baidu, e YOLOv9, criado pelos YOLOv7 originais YOLOv7 . Esta comparação explora as inovações arquitetónicas, as métricas de desempenho e as realidades de implementação destes dois modelos poderosos.

Metadados do Modelo

PP-YOLOE+
Autores: PaddlePaddle
Organização: Baidu
Data: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: Repositório PaddleDetection
Documentação: PaddleDocs oficial

YOLOv9
Autores: Chien-Yao Wang e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 21/02/2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: YOLOv9
Documentação: YOLOv9 Ultralytics YOLOv9

Saiba mais sobre o YOLOv9

Análise de Desempenho

Ao comparar esses modelos, os desenvolvedores normalmente analisam a relação entre mAP (precisão média) e velocidade de inferência. A tabela abaixo destaca que, embora o PP-YOLOE+ fosse um detetor sem âncora de última geração em 2022, YOLOv9 2024) utiliza princípios arquitetónicos mais recentes para alcançar uma eficiência de parâmetros superior.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Os pontos mais importantes incluem:

  • Eficiência dos parâmetros: O YOLOv9t alcança uma precisão competitiva com menos da metade dos parâmetros do PP-YOLOE+t (2,0 milhões contra 4,85 milhões), tornando-o muito mais adequado para dispositivos de ponta com memória limitada.
  • Precisão em escala: para modelos maiores, o YOLOv9e supera o PP-YOLOE+x em mAP 55,6% contra 54,7%), utilizando significativamente menos parâmetros (57,3 milhões contra 98,42 milhões).
  • Velocidade: YOLOv9 velocidades de inferência extremamente competitivas em GPUs NVIDIA , especialmente para as variantes menores.

Diferenças Arquiteturais

PP-YOLOE+: Detecção Refinada Sem Âncoras

O PP-YOLOE+ é uma evolução do PP-YOLOv2, enfatizando um paradigma sem âncora. Ele emprega uma espinha dorsal CSPResNet e um pescoço CSPPAN simplificado. As principais características incluem:

  • Aprendizagem por alinhamento de tarefas (TAL): Uma estratégia de atribuição de rótulos que seleciona dinamicamente amostras positivas com base numa combinação de pontuações de classificação e localização.
  • ET-Head: Uma cabeça eficiente alinhada com a tarefa, concebida para equilibrar velocidade e precisão.
  • Correspondência dinâmica: melhora a velocidade de convergência durante o treinamento em comparação com a atribuição estática de âncoras.

YOLOv9: Informação de Gradiente Programável

YOLOv9 mudanças fundamentais na forma como as redes profundas lidam com o fluxo de dados. Ele aborda o problema do «gargalo de informação», em que os dados são perdidos à medida que passam por camadas profundas.

  • Arquitetura GELAN: A Rede Generalizada de Agregação de Camadas Eficientes combina o melhor da CSPNet e da ELAN para maximizar a utilização dos parâmetros.
  • PGI (Informação de Gradiente Programável): Este conceito inovador utiliza um ramo auxiliar reversível para gerar gradientes fiáveis para o ramo principal, garantindo que as características profundas retenham informações críticas sobre a imagem de entrada.
  • Supervisão auxiliar: semelhante às técnicas observadas nos modelos de segmentação, YOLOv9 cabeças auxiliares durante o treinamento para aumentar o desempenho sem afetar a velocidade de inferência (já que essas cabeças são removidas durante a implementação).

Por que as informações de gradiente são importantes

Em redes neurais muito profundas, os dados de entrada originais podem ser «esquecidos» quando as características chegam às camadas finais. O PGI YOLOv9 garante que o modelo mantenha uma compreensão completa do objeto, o que é particularmente útil para detetar objetos pequenos ou ocultos em cenas complexas.

Ecossistema e Facilidade de Uso

A diferença mais significativa para os programadores reside no ecossistema e no fluxo de trabalho.

A Vantagem Ultralytics

YOLOv9 totalmente integrado ao Ultralytics . Isso significa que você pode treinar, validar e implementar o modelo usando a mesma API simples usada para o YOLO11 e YOLO26.

Principais benefícios:

  • API unificada: alterne entre tarefas como deteção de objetos e estimativa de pose simplesmente alterando o ficheiro de peso do modelo.
  • MLOps automatizado: a integração perfeita com a Ultralytics permite o treinamento em nuvem, o gerenciamento de conjuntos de dados e a implementação de modelos com um clique.
  • Eficiência de memória: os loops Ultralytics são altamente otimizados, exigindo frequentemente menos VRAM do que as estruturas concorrentes. Esta é uma vantagem crucial em relação a muitos modelos baseados em transformadores, que exigem recursos computacionais massivos.
  • Versatilidade de exportação: Suporte nativo para exportação para ONNX, OpenVINO, CoreML e TensorRT o seu modelo funcione em qualquer lugar.
from ultralytics import YOLO

# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to TensorRT for maximum GPU speed
model.export(format="engine")

Fluxo de Trabalho PP-YOLOE+

O PP-YOLOE+ depende da PaddlePaddle . Embora seja poderoso, requer a adoção de um ecossistema específico que é distinto do fluxo de trabalho PyTorch, preferido por muitos investigadores. A sua configuração envolve frequentemente a clonagem do PaddleDetection repositório e gerenciar arquivos de configuração manualmente, o que pode apresentar uma curva de aprendizagem mais íngreme em comparação com o pip install ultralytics experiência.

Casos de Uso e Recomendações

Quando manter o PP-YOLOE+

  • Integração legada: se o seu ambiente de produção já estiver construído na PaddlePaddle da Baidu.
  • Hardware específico: se estiver a implementar em hardware com otimização especializada exclusivamente para o Paddle Lite.

Quando escolherYOLO Ultralytics

Para a grande maioria dos novos projetos, YOLOv9 ou o mais recente YOLO26 são as opções recomendadas.

  • Investigação e desenvolvimento: A arquitetura PGI no YOLOv9 um ambiente rico para pesquisadores que estudam o fluxo de gradiente.
  • Implantação comercial: as opções de exportação robustas no Ultralytics facilitam a transição de um PyTorch para um aplicativo de produção C++ usando TensorRT ou OpenVINO.
  • Computação de ponta: com eficiência de parâmetros superior (mAP FLOP), Ultralytics são ideais para dispositivos alimentados por bateria, como drones ou câmaras inteligentes.

Olhando para o Futuro: O Poder do YOLO26

Embora YOLOv9 um modelo excelente, o campo avançou ainda mais com o lançamento do YOLO26. Se você está a iniciar um novo projeto hoje, o YOLO26 oferece várias vantagens críticas em relação ao PP-YOLOE+ e ao YOLOv9.

Saiba mais sobre YOLO26

O YOLO26 representa a vanguarda da eficiência da visão computacional:

  1. NMS de ponta a ponta: Ao contrário do PP-YOLOE+ e YOLOv9 requerem pós-processamento de supressão não máxima (NMS), o YOLO26 é nativamente NMS. Isso reduz a variabilidade da latência e simplifica significativamente os pipelines de implementação.
  2. Otimizador MuSGD: Inspirado nas inovações no treinamento de LLM (como o Kimi K2 da Moonshot AI), o YOLO26 utiliza o otimizador MuSGD para uma convergência mais rápida e execuções de treinamento mais estáveis.
  3. Detecção aprimorada de pequenos objetos: com ProgLoss + STAL, o YOLO26 se destaca na detecção de pequenos objetos, um ponto fraco tradicional para muitos detetores em tempo real.
  4. CPU : Com a remoção da Distribuição Focal Loss (DFL) e outras otimizações, o YOLO26 alcança CPU até 43% mais rápida, tornando-o a melhor escolha para ambientes sem servidor ou dispositivos de ponta sem NPUs dedicadas.

Resumo

Tanto o PP-YOLOE+ quanto YOLOv9 marcos na história da deteção de objetos. O PP-YOLOE+ refinou a abordagem sem âncora, enquanto YOLOv9 conceitos de supervisão profunda por meio do PGI. No entanto, para os desenvolvedores que buscam o melhor equilíbrio entre precisão, facilidade de uso e implantação preparada para o futuro, o Ultralytics — liderado pelo YOLOv9 e o revolucionário YOLO26— oferece a solução mais robusta.

Explore Mais

Interessado em outras arquiteturas? Confira as nossas comparações para RT-DETR (baseada em transformador) ou YOLO11 para encontrar a opção perfeita para a sua aplicação.


Comentários