YOLOv9 PP-YOLOE+ : analyse technique approfondie de la détection d'objets moderne
Le domaine de la détection d'objets en temps réel continue d'évoluer rapidement, offrant aux ingénieurs en vision par ordinateur un large éventail de choix pour déployer des modèles hautement précis sur des infrastructures périphériques et cloud. Deux modèles phares dans ce domaine sont YOLOv9 et PP-YOLOE+. Bien que tous deux repoussent les limites de la précision et de la vitesse, ils sont issus de lignées de recherche et d'écosystèmes logiciels différents.
Cette comparaison technique complète examine leurs architectures, leurs méthodologies de formation, leurs indicateurs de performance et leurs applications idéales dans le monde réel. Nous examinerons également comment Ultralytics au sens large offre des avantages significatifs aux développeurs qui privilégient la facilité d'utilisation, l'efficacité de la mémoire et la polyvalence du déploiement.
Origines du modèle et spécifications techniques
Comprendre le contexte de ces modèles permet de contextualiser leurs choix architecturaux et leurs dépendances de framework.
YOLOv9 : Résoudre le goulot d’étranglement de l’information
Lancé début 2024, YOLOv9 la perte de données qui se produit lorsque les informations transitent par des réseaux neuronaux profonds. Il s'agit d'un réseau neuronal convolutif hautement optimisé, conçu pour maximiser l'efficacité des paramètres.
- Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
- Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
- Date : 21 février 2024
- Arxiv :2402.13616
- GitHub :WongKinYiu/yolov9
- Docs :Documentation Ultralytics YOLOv9
PP-YOLOE+ : faire progresser l'écosystème du paddle
Lancé par Baidu en 2022, PP-YOLOE+ est une version améliorée de PP-YOLOv2. Il utilise un paradigme sans ancrage et introduit une stratégie d'attribution dynamique des étiquettes afin d'améliorer la convergence et la précision au sein du PaddlePaddle .
- Auteurs : Auteurs de PaddlePaddle
- Organisation : Baidu
- Date : 2 avril 2022
- Arxiv :2203.16250
- GitHub :PaddleDetection
- Documents :Configuration PP-YOLOE+
Comparaison architecturale
Informations sur le gradient programmable vs CSPRepResStage
La principale innovation de YOLOv9 le système PGI (Programmable Gradient Information). Le PGI agit comme un cadre de supervision auxiliaire, garantissant que les informations essentielles relatives aux gradients sont conservées et transmises avec précision aux couches superficielles pendant l'entraînement. Il est associé au réseau GELAN (Generalized Efficient Layer Aggregation Network), qui combine les atouts des réseaux CSPNet et ELAN pour offrir une grande précision tout en réduisant considérablement le coût de calcul (FLOP).
PP-YOLOE+ s'appuie sur une infrastructure spécialisée appelée CSPRepResStage. Il exploite des techniques de reparamétrage (similaires à celles utilisées dans RepVGG) pour accélérer l'inférence en fusionnant les couches convolutives lors du déploiement. De plus, il utilise la tête alignée sur les tâches efficaces (ET-head) pour équilibrer les tâches de classification et de régression.
Bien que PP-YOLOE+ soit robuste, l'architecture GELAN YOLOv9 nécessite généralement moins de mémoire pendant l'entraînement et l'inférence, ce qui la rend particulièrement adaptée aux appareils d'IA de pointe.
Comparaison des performances
Lors de l'évaluation des modèles pour la production, le compromis entre la précision moyenne mAP ), la vitesse d'inférence et la taille du modèle est crucial.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Analyse
- Efficacité des paramètres : YOLOv9 une efficacité nettement supérieure. Par exemple, YOLOv9c atteint un mAP 53,0 % en utilisant seulement 25,3 millions de paramètres, tandis que PP-YOLOE+l nécessite plus du double de paramètres (52,2 millions) pour atteindre un mAP légèrement inférieur mAP 52,9 %. Cela réduit considérablement les besoins en mémoire de YOLOv9.
- Vitesse d'inférence : YOLOv9 offrent une excellente optimisation pour les accélérateurs matériels tels que TensorRT, offrant des vitesses d'inférence compétitives sur les GPU NVIDIA , ce qui est crucial pour l'inférence en temps réel.
Méthodologies de formation et écosystème
Le choix entre ces modèles dépend souvent de l'écosystème logiciel.
PP-YOLOE+ et PaddlePaddle
PP-YOLOE+ est étroitement lié à la suite PaddleDetection. Bien que puissant, il nécessite que les utilisateurs naviguent dans un environnement lourd en configuration et piloté par ligne de commande. Pour les équipes profondément intégrées dans le PyTorch ou TensorFlow , la transition vers PaddlePaddle des frictions importantes et une courbe d'apprentissage plus raide.
Ultralytics : des flux de travail rationalisés
En revanche, YOLOv9 au sein de Ultralytics , très perfectionné. Conçu pour les développeurs et les chercheurs, Ultralytics une facilité d'utilisation exceptionnelle. Python élimine complètement le code standard complexe.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for production deployment
model.export(format="onnx")
Ce flux de travail met en évidence l'efficacité supérieure des Ultralytics en matière de formation. Prise en charge native de l'augmentation des données, de la formation distribuée et de la journalisation automatique sur des plateformes telles que Weights & Biases ou MLflow est fournie en standard.
Découvrez les dernières nouveautés en matière d'IA visuelle
Bien que YOLOv9 des performances exceptionnelles, nous vous recommandons vivement d'envisager le tout nouveau Ultralytics pour les nouveaux projets. YOLO26 se caractérise par une conception native de bout en bout NMS, ce qui simplifie considérablement son déploiement. Grâce à la suppression du DFL (Distribution Focal Loss, pour une exportation simplifiée et une meilleure compatibilité avec les appareils périphériques/à faible consommation d'énergie), il offre CPU jusqu'à 43 % plus rapide pour l'informatique périphérique. Alimenté par l'optimiseur MuSGD, il garantit un entraînement stable et une convergence rapide. De plus, ProgLoss + STAL offre des fonctions de perte améliorées avec des progrès notables dans la reconnaissance des petits objets, ce qui est essentiel pour l'IoT, la robotique et l'imagerie aérienne.
Polyvalence et prise en charge des tâches
Les projets modernes de vision par ordinateur ne se limitent généralement pas aux simples cadres de sélection.
PP-YOLOE+ est principalement conçu pour la détection d'objets standard. L'adaptation de son architecture à d'autres tâches nécessite une ingénierie personnalisée approfondie.
À l'inverse, le Ultralytics est un véritable concentré de puissance multitâche. Grâce à une API unifiée, les développeurs peuvent passer sans effort de la détection d'objets standard à la segmentation d'instances complexe, à l'estimation de pose hautement précise, à la détection de boîtes englobantes orientées (OBB) pour les images aériennes et à la classification d'images. Cette polyvalence inégalée explique pourquoi les équipes d'entreprise choisissent systématiquement Ultralytics tels que YOLOv9, YOLO11et YOLO26.
Cas d'utilisation et applications idéaux
- Analyse des données des villes intelligentes et gestion du trafic : l'efficacité élevée des paramètres et la faible latence de YOLOv9 (et du YOLO26 qui lui a succédé) les rendent idéaux pour une utilisation sur du matériel périphérique limité (comme les appareils NVIDIA ) afin de surveiller le flux de trafic et la sécurité urbaine.
- Systèmes d'inventaire de vente au détail : pour détecter les configurations denses de petits articles sur les étagères, le PGI YOLOv9 conserve efficacement les détails spatiaux fins, surpassant PP-YOLOE+ dans les tâches de détection de petits objets.
- Déploiements hérités :PP-YOLOE+ reste une option viable uniquement pour les équipes explicitement tenues d'utiliser la pilePaddlePaddle dans l'infrastructure héritée existante.
Pour les chercheurs qui explorent les architectures basées sur Transformer, Ultralytics prend Ultralytics en charge de manière native RT-DETR dans la même API facile à utiliser, vous garantissant ainsi un accès permanent au modèle optimal pour vos besoins de déploiement spécifiques.