YOLOv9 PP-YOLOE+ : analyse technique approfondie de la détection d'objets moderne

Le domaine de la détection d'objets en temps réel continue d'évoluer rapidement, offrant aux ingénieurs en vision par ordinateur un large éventail de choix pour déployer des modèles hautement précis sur des infrastructures périphériques et cloud. Deux modèles phares dans ce domaine sont YOLOv9 et PP-YOLOE+. Bien que tous deux repoussent les limites de la précision et de la vitesse, ils sont issus de lignées de recherche et d'écosystèmes logiciels différents.

Cette comparaison technique complète examine leurs architectures, leurs méthodologies de formation, leurs indicateurs de performance et leurs applications idéales dans le monde réel. Nous examinerons également comment Ultralytics au sens large offre des avantages significatifs aux développeurs qui privilégient la facilité d'utilisation, l'efficacité de la mémoire et la polyvalence du déploiement.

Origines du modèle et spécifications techniques

Comprendre le contexte de ces modèles permet de contextualiser leurs choix architecturaux et leurs dépendances de framework.

YOLOv9 : Résoudre le goulot d’étranglement de l’information

Lancé début 2024, YOLOv9 la perte de données qui se produit lorsque les informations transitent par des réseaux neuronaux profonds. Il s'agit d'un réseau neuronal convolutif hautement optimisé, conçu pour maximiser l'efficacité des paramètres.

Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 21 février 2024
Arxiv :2402.13616
GitHub :WongKinYiu/yolov9
Docs :Documentation Ultralytics YOLOv9

En savoir plus sur YOLOv9

PP-YOLOE+ : faire progresser l'écosystème du paddle

Lancé par Baidu en 2022, PP-YOLOE+ est une version améliorée de PP-YOLOv2. Il utilise un paradigme sans ancrage et introduit une stratégie d'attribution dynamique des étiquettes afin d'améliorer la convergence et la précision au sein du PaddlePaddle .

Auteurs : Auteurs de PaddlePaddle
Organisation : Baidu
Date : 2 avril 2022
Arxiv :2203.16250
GitHub :PaddleDetection
Documentation :Configuration PP-YOLOE+

En savoir plus sur PP-YOLOE+

Comparaison architecturale

Informations sur le gradient programmable vs CSPRepResStage

La principale innovation de YOLOv9 le système PGI (Programmable Gradient Information). Le PGI agit comme un cadre de supervision auxiliaire, garantissant que les informations essentielles relatives aux gradients sont conservées et transmises avec précision aux couches superficielles pendant l'entraînement. Il est associé au réseau GELAN (Generalized Efficient Layer Aggregation Network), qui combine les atouts des réseaux CSPNet et ELAN pour offrir une grande précision tout en réduisant considérablement le coût de calcul (FLOP).

PP-YOLOE+ s'appuie sur une infrastructure spécialisée appelée CSPRepResStage. Il exploite des techniques de re-paramétrisation (similaires à celles observées dans RepVGG) pour accélérer l'inférence en fusionnant les couches de convolution lors du déploiement. De plus, il utilise la tête Efficient Task-aligned (ET-head) pour équilibrer les tâches de classification et de régression.

Bien que PP-YOLOE+ soit robuste, l'architecture GELAN YOLOv9 nécessite généralement moins de mémoire pendant l'entraînement et l'inférence, ce qui la rend particulièrement adaptée aux appareils d'IA de pointe.

Comparaison des performances

Lors de l'évaluation des modèles pour la production, le compromis entre la précision moyenne mAP ), la vitesse d'inférence et la taille du modèle est crucial.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Analyse

Efficacité des paramètres : YOLOv9 atteint une efficacité remarquablement plus élevée. Par exemple, YOLOv9c atteint un mAP de 53,0 % en utilisant seulement 25,3 millions de paramètres, tandis que PP-YOLOE+l nécessite plus du double de paramètres (52,2 millions) pour atteindre un mAP légèrement inférieur de 52,9 %. Cela réduit considérablement les exigences en mémoire pour YOLOv9.
Vitesse d'Inférence : Les modèles YOLOv9 démontrent une excellente optimisation pour les accélérateurs matériels comme TensorRT, offrant des vitesses d'inférence compétitives sur les GPU NVIDIA T4 qui sont cruciales pour l'inférence en temps réel.

Méthodologies de formation et écosystème

Le choix entre ces modèles dépend souvent de l'écosystème logiciel.

PP-YOLOE+ et PaddlePaddle

PP-YOLOE+ est étroitement lié à la suite PaddleDetection. Bien que puissant, il nécessite que les utilisateurs naviguent dans un environnement lourd en configuration et piloté par ligne de commande. Pour les équipes profondément intégrées dans le PyTorch ou TensorFlow , la transition vers PaddlePaddle des frictions importantes et une courbe d'apprentissage plus raide.

Ultralytics : des flux de travail rationalisés

En revanche, YOLOv9 au sein de Ultralytics , très perfectionné. Conçu pour les développeurs et les chercheurs, Ultralytics une facilité d'utilisation exceptionnelle. Python élimine complètement le code standard complexe.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for production deployment
model.export(format="onnx")

Ce flux de travail met en évidence l'efficacité supérieure des Ultralytics en matière de formation. Prise en charge native de l'augmentation des données, de la formation distribuée et de la journalisation automatique sur des plateformes telles que Weights & Biases ou MLflow est fournie en standard.

Découvrez les dernières nouveautés en matière d'IA visuelle

Bien que YOLOv9 des performances exceptionnelles, nous vous recommandons vivement d'envisager le tout nouveau Ultralytics pour les nouveaux projets. YOLO26 se caractérise par une conception native de bout en bout NMS, ce qui simplifie considérablement son déploiement. Grâce à la suppression du DFL (Distribution Focal Loss, pour une exportation simplifiée et une meilleure compatibilité avec les appareils périphériques/à faible consommation d'énergie), il offre CPU jusqu'à 43 % plus rapide pour l'informatique périphérique. Alimenté par l'optimiseur MuSGD, il garantit un entraînement stable et une convergence rapide. De plus, ProgLoss + STAL offre des fonctions de perte améliorées avec des progrès notables dans la reconnaissance des petits objets, ce qui est essentiel pour l'IoT, la robotique et l'imagerie aérienne.

Polyvalence et prise en charge des tâches

Les projets modernes de vision par ordinateur ne se limitent généralement pas aux simples cadres de sélection.

PP-YOLOE+ est principalement conçu pour la détection d'objets standard. L'adaptation de son architecture à d'autres tâches nécessite une ingénierie personnalisée approfondie.

Inversement, le framework Ultralytics est une puissance multitâche. En utilisant une API unifiée, les développeurs peuvent passer sans effort de la détection d'objets standard à la segmentation d'instances complexe, à l'estimation de pose très précise, à la détection de boîtes englobantes orientées (OBB) pour l'imagerie aérienne, et à la classification d'images. Cette polyvalence inégalée est la raison pour laquelle les équipes d'entreprise choisissent constamment les modèles Ultralytics comme YOLOv9, YOLO11 et YOLO26.

Cas d'utilisation et applications idéaux

Analyse des Villes Intelligentes et Gestion du Trafic: La grande efficacité des paramètres et la faible latence de YOLOv9 (et du futur YOLO26) les rendent idéaux pour le déploiement sur du matériel périphérique contraint (comme les appareils NVIDIA Jetson) afin de surveiller le flux de trafic et la sécurité urbaine.
Systèmes d'inventaire de détail : Pour detect des configurations denses de petits articles sur les étagères, le PGI de YOLOv9 maintient efficacement les détails spatiaux fins, surpassant PP-YOLOE+ dans les tâches de détection de petits objets.
Déploiements hérités :PP-YOLOE+ reste une option viable strictement pour les équipes explicitement mandatées d'utiliser la pile logicielle Baidu/PaddlePaddle dans les infrastructures héritées existantes.

Pour les chercheurs qui explorent les architectures basées sur Transformer, Ultralytics prend Ultralytics en charge de manière native RT-DETR dans la même API facile à utiliser, vous garantissant ainsi un accès permanent au modèle optimal pour vos besoins de déploiement spécifiques.