PP-YOLOE+ vs. YOLOv9: Uma comparação abrangente das arquiteturas de detecção de objetos

A deteção de objetos em tempo real continua a evoluir rapidamente, com os investigadores a expandirem constantemente os limites da precisão, latência e eficiência dos parâmetros. Dois marcos significativos nesta jornada são o PP-YOLOE+, desenvolvido pela PaddlePaddle da Baidu, e YOLOv9, criado pelos YOLOv7 originais YOLOv7 . Esta comparação explora as inovações arquitetónicas, as métricas de desempenho e as realidades de implementação destes dois modelos poderosos.

Metadados do Modelo

PP-YOLOE+
Autores: PaddlePaddle
Organização: Baidu
Data: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: Repositório PaddleDetection
Documentação: PaddleDocs oficial

YOLOv9
Autores: Chien-Yao Wang e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 21/02/2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: YOLOv9
Documentação: YOLOv9 Ultralytics YOLOv9

Saiba mais sobre o YOLOv9

Análise de Desempenho

Ao comparar esses modelos, os desenvolvedores normalmente analisam a relação entre mAP (precisão média) e velocidade de inferência. A tabela abaixo destaca que, embora o PP-YOLOE+ fosse um detetor sem âncora de última geração em 2022, YOLOv9 2024) utiliza princípios arquitetónicos mais recentes para alcançar uma eficiência de parâmetros superior.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Os pontos mais importantes incluem:

Eficiência dos parâmetros: O YOLOv9t alcança uma precisão competitiva com menos da metade dos parâmetros do PP-YOLOE+t (2,0 milhões contra 4,85 milhões), tornando-o muito mais adequado para dispositivos de ponta com memória limitada.
Precisão em escala: para modelos maiores, o YOLOv9e supera o PP-YOLOE+x em mAP 55,6% contra 54,7%), utilizando significativamente menos parâmetros (57,3 milhões contra 98,42 milhões).
Velocidade: YOLOv9 velocidades de inferência extremamente competitivas em GPUs NVIDIA , especialmente para as variantes menores.

Diferenças Arquiteturais

PP-YOLOE+: Detecção Refinada Sem Âncoras

O PP-YOLOE+ é uma evolução do PP-YOLOv2, enfatizando um paradigma sem âncora. Ele emprega uma espinha dorsal CSPResNet e um pescoço CSPPAN simplificado. As principais características incluem:

Aprendizagem por alinhamento de tarefas (TAL): Uma estratégia de atribuição de rótulos que seleciona dinamicamente amostras positivas com base numa combinação de pontuações de classificação e localização.
ET-Head: Uma cabeça eficiente alinhada com a tarefa, concebida para equilibrar velocidade e precisão.
Correspondência dinâmica: melhora a velocidade de convergência durante o treinamento em comparação com a atribuição estática de âncoras.

YOLOv9: Informação de Gradiente Programável

YOLOv9 mudanças fundamentais na forma como as redes profundas lidam com o fluxo de dados. Ele aborda o problema do «gargalo de informação», em que os dados são perdidos à medida que passam por camadas profundas.

Arquitetura GELAN: A Rede Generalizada de Agregação de Camadas Eficientes combina o melhor da CSPNet e da ELAN para maximizar a utilização dos parâmetros.
PGI (Informação de Gradiente Programável): Este conceito inovador utiliza um ramo auxiliar reversível para gerar gradientes fiáveis para o ramo principal, garantindo que as características profundas retenham informações críticas sobre a imagem de entrada.
Supervisão auxiliar: semelhante às técnicas observadas nos modelos de segmentação, YOLOv9 cabeças auxiliares durante o treinamento para aumentar o desempenho sem afetar a velocidade de inferência (já que essas cabeças são removidas durante a implementação).

Por que as informações de gradiente são importantes

Em redes neurais muito profundas, os dados de entrada originais podem ser «esquecidos» quando as características chegam às camadas finais. O PGI YOLOv9 garante que o modelo mantenha uma compreensão completa do objeto, o que é particularmente útil para detetar objetos pequenos ou ocultos em cenas complexas.

Ecossistema e Facilidade de Uso

A diferença mais significativa para os programadores reside no ecossistema e no fluxo de trabalho.

A Vantagem Ultralytics

YOLOv9 totalmente integrado ao Ultralytics . Isso significa que você pode treinar, validar e implementar o modelo usando a mesma API simples usada para o YOLO11 e YOLO26.

Principais benefícios:

API unificada: alterne entre tarefas como deteção de objetos e estimativa de pose simplesmente alterando o ficheiro de peso do modelo.
MLOps automatizado: a integração perfeita com a Ultralytics permite o treinamento em nuvem, o gerenciamento de conjuntos de dados e a implementação de modelos com um clique.
Eficiência de memória: os loops Ultralytics são altamente otimizados, exigindo frequentemente menos VRAM do que as estruturas concorrentes. Esta é uma vantagem crucial em relação a muitos modelos baseados em transformadores, que exigem recursos computacionais massivos.
Versatilidade de exportação: Suporte nativo para exportação para ONNX, OpenVINO, CoreML e TensorRT o seu modelo funcione em qualquer lugar.

from ultralytics import YOLO

# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to TensorRT for maximum GPU speed
model.export(format="engine")

Fluxo de Trabalho PP-YOLOE+

O PP-YOLOE+ depende da PaddlePaddle . Embora seja poderoso, requer a adoção de um ecossistema específico que é distinto do fluxo de trabalho PyTorch, preferido por muitos investigadores. A sua configuração envolve frequentemente a clonagem do PaddleDetection repositório e gerenciar arquivos de configuração manualmente, o que pode apresentar uma curva de aprendizagem mais íngreme em comparação com o pip install ultralytics experiência.

Casos de Uso e Recomendações

Quando manter o PP-YOLOE+

Integração legada: se o seu ambiente de produção já estiver construído na PaddlePaddle da Baidu.
Hardware específico: se estiver a implementar em hardware com otimização especializada exclusivamente para o Paddle Lite.

Quando escolherYOLO Ultralytics

Para a grande maioria dos novos projetos, YOLOv9 ou o mais recente YOLO26 são as opções recomendadas.

Investigação e desenvolvimento: A arquitetura PGI no YOLOv9 um ambiente rico para pesquisadores que estudam o fluxo de gradiente.
Implantação comercial: as opções de exportação robustas no Ultralytics facilitam a transição de um PyTorch para um aplicativo de produção C++ usando TensorRT ou OpenVINO.
Computação de ponta: com eficiência de parâmetros superior (mAP FLOP), Ultralytics são ideais para dispositivos alimentados por bateria, como drones ou câmaras inteligentes.

Olhando para o Futuro: O Poder do YOLO26

Embora YOLOv9 um modelo excelente, o campo avançou ainda mais com o lançamento do YOLO26. Se você está a iniciar um novo projeto hoje, o YOLO26 oferece várias vantagens críticas em relação ao PP-YOLOE+ e ao YOLOv9.

Saiba mais sobre YOLO26

O YOLO26 representa a vanguarda da eficiência da visão computacional:

NMS de ponta a ponta: Ao contrário do PP-YOLOE+ e YOLOv9 requerem pós-processamento de supressão não máxima (NMS), o YOLO26 é nativamente NMS. Isso reduz a variabilidade da latência e simplifica significativamente os pipelines de implementação.
Otimizador MuSGD: Inspirado nas inovações no treinamento de LLM (como o Kimi K2 da Moonshot AI), o YOLO26 utiliza o otimizador MuSGD para uma convergência mais rápida e execuções de treinamento mais estáveis.
Detecção aprimorada de pequenos objetos: com ProgLoss + STAL, o YOLO26 se destaca na detecção de pequenos objetos, um ponto fraco tradicional para muitos detetores em tempo real.
CPU : Com a remoção da Distribuição Focal Loss (DFL) e outras otimizações, o YOLO26 alcança CPU até 43% mais rápida, tornando-o a melhor escolha para ambientes sem servidor ou dispositivos de ponta sem NPUs dedicadas.

Resumo

Tanto o PP-YOLOE+ quanto YOLOv9 marcos na história da deteção de objetos. O PP-YOLOE+ refinou a abordagem sem âncora, enquanto YOLOv9 conceitos de supervisão profunda por meio do PGI. No entanto, para os desenvolvedores que buscam o melhor equilíbrio entre precisão, facilidade de uso e implantação preparada para o futuro, o Ultralytics — liderado pelo YOLOv9 e o revolucionário YOLO26— oferece a solução mais robusta.

Explore Mais

Interessado em outras arquiteturas? Confira as nossas comparações para RT-DETR (baseada em transformador) ou YOLO11 para encontrar a opção perfeita para a sua aplicação.