PP-YOLOE+ vs. YOLOv9: Uma comparação abrangente das arquiteturas de detecção de objetos
A deteção de objetos em tempo real continua a evoluir rapidamente, com os investigadores a expandirem constantemente os limites da precisão, latência e eficiência dos parâmetros. Dois marcos significativos nesta jornada são o PP-YOLOE+, desenvolvido pela PaddlePaddle da Baidu, e YOLOv9, criado pelos YOLOv7 originais YOLOv7 . Esta comparação explora as inovações arquitetónicas, as métricas de desempenho e as realidades de implementação destes dois modelos poderosos.
Metadados do Modelo
PP-YOLOE+
Autores: PaddlePaddle
Organização: Baidu
Data: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: Repositório PaddleDetection
Documentação: PaddleDocs oficial
YOLOv9
Autores: Chien-Yao Wang e Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 21/02/2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: YOLOv9
Documentação: YOLOv9 Ultralytics YOLOv9
Análise de Desempenho
Ao comparar esses modelos, os desenvolvedores normalmente analisam a relação entre mAP (precisão média) e velocidade de inferência. A tabela abaixo destaca que, embora o PP-YOLOE+ fosse um detetor sem âncora de última geração em 2022, YOLOv9 2024) utiliza princípios arquitetónicos mais recentes para alcançar uma eficiência de parâmetros superior.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Os pontos mais importantes incluem:
- Eficiência dos parâmetros: O YOLOv9t alcança uma precisão competitiva com menos da metade dos parâmetros do PP-YOLOE+t (2,0 milhões contra 4,85 milhões), tornando-o muito mais adequado para dispositivos de ponta com memória limitada.
- Precisão em escala: para modelos maiores, o YOLOv9e supera o PP-YOLOE+x em mAP 55,6% contra 54,7%), utilizando significativamente menos parâmetros (57,3 milhões contra 98,42 milhões).
- Velocidade: YOLOv9 velocidades de inferência extremamente competitivas em GPUs NVIDIA , especialmente para as variantes menores.
Diferenças Arquiteturais
PP-YOLOE+: Detecção Refinada Sem Âncoras
O PP-YOLOE+ é uma evolução do PP-YOLOv2, enfatizando um paradigma sem âncora. Ele emprega uma espinha dorsal CSPResNet e um pescoço CSPPAN simplificado. As principais características incluem:
- Aprendizagem por alinhamento de tarefas (TAL): Uma estratégia de atribuição de rótulos que seleciona dinamicamente amostras positivas com base numa combinação de pontuações de classificação e localização.
- ET-Head: Uma cabeça eficiente alinhada com a tarefa, concebida para equilibrar velocidade e precisão.
- Correspondência dinâmica: melhora a velocidade de convergência durante o treinamento em comparação com a atribuição estática de âncoras.
YOLOv9: Informação de Gradiente Programável
YOLOv9 mudanças fundamentais na forma como as redes profundas lidam com o fluxo de dados. Ele aborda o problema do «gargalo de informação», em que os dados são perdidos à medida que passam por camadas profundas.
- Arquitetura GELAN: A Rede Generalizada de Agregação de Camadas Eficientes combina o melhor da CSPNet e da ELAN para maximizar a utilização dos parâmetros.
- PGI (Informação de Gradiente Programável): Este conceito inovador utiliza um ramo auxiliar reversível para gerar gradientes fiáveis para o ramo principal, garantindo que as características profundas retenham informações críticas sobre a imagem de entrada.
- Supervisão auxiliar: semelhante às técnicas observadas nos modelos de segmentação, YOLOv9 cabeças auxiliares durante o treinamento para aumentar o desempenho sem afetar a velocidade de inferência (já que essas cabeças são removidas durante a implementação).
Por que as informações de gradiente são importantes
Em redes neurais muito profundas, os dados de entrada originais podem ser «esquecidos» quando as características chegam às camadas finais. O PGI YOLOv9 garante que o modelo mantenha uma compreensão completa do objeto, o que é particularmente útil para detetar objetos pequenos ou ocultos em cenas complexas.
Ecossistema e Facilidade de Uso
A diferença mais significativa para os programadores reside no ecossistema e no fluxo de trabalho.
A Vantagem Ultralytics
YOLOv9 totalmente integrado ao Ultralytics . Isso significa que você pode treinar, validar e implementar o modelo usando a mesma API simples usada para o YOLO11 e YOLO26.
Principais benefícios:
- API unificada: alterne entre tarefas como deteção de objetos e estimativa de pose simplesmente alterando o ficheiro de peso do modelo.
- MLOps automatizado: a integração perfeita com a Ultralytics permite o treinamento em nuvem, o gerenciamento de conjuntos de dados e a implementação de modelos com um clique.
- Eficiência de memória: os loops Ultralytics são altamente otimizados, exigindo frequentemente menos VRAM do que as estruturas concorrentes. Esta é uma vantagem crucial em relação a muitos modelos baseados em transformadores, que exigem recursos computacionais massivos.
- Versatilidade de exportação: Suporte nativo para exportação para ONNX, OpenVINO, CoreML e TensorRT o seu modelo funcione em qualquer lugar.
from ultralytics import YOLO
# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to TensorRT for maximum GPU speed
model.export(format="engine")
Fluxo de Trabalho PP-YOLOE+
O PP-YOLOE+ depende da PaddlePaddle . Embora seja poderoso, requer a adoção de um ecossistema específico que é distinto do fluxo de trabalho PyTorch, preferido por muitos investigadores. A sua configuração envolve frequentemente a clonagem do PaddleDetection repositório e gerenciar arquivos de configuração manualmente, o que pode apresentar uma curva de aprendizagem mais íngreme em comparação com o pip install ultralytics experiência.
Casos de Uso e Recomendações
Quando manter o PP-YOLOE+
- Integração legada: se o seu ambiente de produção já estiver construído na PaddlePaddle da Baidu.
- Hardware específico: se estiver a implementar em hardware com otimização especializada exclusivamente para o Paddle Lite.
Quando escolherYOLO Ultralytics
Para a grande maioria dos novos projetos, YOLOv9 ou o mais recente YOLO26 são as opções recomendadas.
- Investigação e desenvolvimento: A arquitetura PGI no YOLOv9 um ambiente rico para pesquisadores que estudam o fluxo de gradiente.
- Implantação comercial: as opções de exportação robustas no Ultralytics facilitam a transição de um PyTorch para um aplicativo de produção C++ usando TensorRT ou OpenVINO.
- Computação de ponta: com eficiência de parâmetros superior (mAP FLOP), Ultralytics são ideais para dispositivos alimentados por bateria, como drones ou câmaras inteligentes.
Olhando para o Futuro: O Poder do YOLO26
Embora YOLOv9 um modelo excelente, o campo avançou ainda mais com o lançamento do YOLO26. Se você está a iniciar um novo projeto hoje, o YOLO26 oferece várias vantagens críticas em relação ao PP-YOLOE+ e ao YOLOv9.
O YOLO26 representa a vanguarda da eficiência da visão computacional:
- NMS de ponta a ponta: Ao contrário do PP-YOLOE+ e YOLOv9 requerem pós-processamento de supressão não máxima (NMS), o YOLO26 é nativamente NMS. Isso reduz a variabilidade da latência e simplifica significativamente os pipelines de implementação.
- Otimizador MuSGD: Inspirado nas inovações no treinamento de LLM (como o Kimi K2 da Moonshot AI), o YOLO26 utiliza o otimizador MuSGD para uma convergência mais rápida e execuções de treinamento mais estáveis.
- Detecção aprimorada de pequenos objetos: com ProgLoss + STAL, o YOLO26 se destaca na detecção de pequenos objetos, um ponto fraco tradicional para muitos detetores em tempo real.
- CPU : Com a remoção da Distribuição Focal Loss (DFL) e outras otimizações, o YOLO26 alcança CPU até 43% mais rápida, tornando-o a melhor escolha para ambientes sem servidor ou dispositivos de ponta sem NPUs dedicadas.
Resumo
Tanto o PP-YOLOE+ quanto YOLOv9 marcos na história da deteção de objetos. O PP-YOLOE+ refinou a abordagem sem âncora, enquanto YOLOv9 conceitos de supervisão profunda por meio do PGI. No entanto, para os desenvolvedores que buscam o melhor equilíbrio entre precisão, facilidade de uso e implantação preparada para o futuro, o Ultralytics — liderado pelo YOLOv9 e o revolucionário YOLO26— oferece a solução mais robusta.
Explore Mais
Interessado em outras arquiteturas? Confira as nossas comparações para RT-DETR (baseada em transformador) ou YOLO11 para encontrar a opção perfeita para a sua aplicação.