YOLOv7 vs. PP-YOLOE+ : Une comparaison technique pour la détection d'objets
La sélection de l'architecture optimale de détection d'objets est une décision cruciale dans le développement de la vision par ordinateur, car elle influence fortement les performances et l'efficacité des applications en aval. Cette analyse propose une plongée technique approfondie dans l'architecture de YOLOv7 et PP-YOLOE+, deux modèles illustres qui ont façonné le paysage de la détection en temps réel. Nous examinons leurs innovations architecturales, leurs méthodologies de formation et leurs mesures de performance afin d'aider les chercheurs et les ingénieurs à faire des choix éclairés.
YOLOv7: Définir la vitesse et la précision en temps réel
YOLOv7 a marqué une étape importante dans l'évolution de la famille You Only Look Once, conçue pour repousser les limites de la vitesse et de la précision pour les applications en temps réel. Il a introduit des stratégies architecturales qui ont amélioré l'apprentissage des caractéristiques sans augmenter les coûts d'inférence, établissant ainsi une nouvelle référence de pointe dès sa sortie.
- Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
- Organisation :Institut des sciences de l'information, Academia Sinica, Taiwan
- Date : 2022-07-06
- ArXiv :https://arxiv.org/abs/2207.02696
- GitHub :https://github.com/WongKinYiu/yolov7
- Docs :https://docs.ultralytics.com/models/yolov7/
Innovations architecturales
Le cœur de la conception de YOLOv7 est le réseau d'agrégation de couches efficace étendu (E-ELAN). Cette nouvelle architecture dorsale contrôle les chemins de gradient les plus courts et les plus longs afin d'apprendre efficacement les caractéristiques sans perturber le flux de gradient. En optimisant le chemin du gradient, le réseau atteint des capacités d'apprentissage plus profondes tout en conservant son efficacité.
En outre, YOLOv7 utilise une stratégie "bag-of-freebies" pendant la formation. Il s'agit de méthodes d'optimisation qui améliorent la précision sans ajouter de coût de calcul pendant la phase du moteur d'inférence. Les techniques comprennent le re-paramétrage du modèle, qui fusionne des modules séparés en un seul module distinct pour le déploiement, et la perte guidée grossière à fine pour la supervision des têtes auxiliaires.
Points forts et faiblesses
- Points forts : YOLOv7 offre un rapport vitesse/précision exceptionnel, ce qui le rend très efficace pour l'inférence en temps réel sur les GPU. Son approche basée sur l'ancrage est bien adaptée aux ensembles de données standard tels que COCO.
- Points faibles : En tant que détecteur basé sur les ancres, il nécessite une configuration prédéfinie des boîtes d'ancrage, ce qui peut s'avérer sous-optimal pour les ensembles de données personnalisés présentant des rapports d'aspect d'objet inhabituels. La mise à l'échelle efficace du modèle sur des contraintes matérielles très différentes peut également s'avérer complexe par rapport aux itérations plus récentes.
PP-YOLOE+ : Le challenger sans ancrage
PP-YOLOE+ est l'évolution de PP-YOLOE, développé par Baidu dans le cadre de la suite PaddleDetection. Il se distingue par une architecture sans ancrage, visant à simplifier le pipeline de détection et à réduire le nombre d'hyperparamètres que les développeurs doivent régler.
- Auteurs : Auteurs de PaddlePaddle
- Organisation :Baidu
- Date : 2022-04-02
- ArXiv :https://arxiv.org/abs/2203.16250
- GitHub :https://github.com/PaddlePaddle/PaddleDetection/
- Docs :https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Innovations architecturales
PP-YOLOE+ adopte un mécanisme de détection sans ancrage, ce qui élimine la nécessité d'un regroupement de boîtes d'ancrage. Il utilise une épine dorsale CSPRepResNet et une tête simplifiée. La clé de ses performances est l'apprentissage de l'alignement des tâches (TAL), qui attribue dynamiquement des échantillons positifs sur la base de l'alignement de la classification et de la qualité de la localisation.
Le modèle intègre également VariFocal Loss, une fonction de perte spécialisée conçue pour donner la priorité à la formation d'exemples de haute qualité. La version "+" comprend des améliorations pour les structures du cou et de la tête, optimisant la pyramide des caractéristiques pour une meilleure détection multi-échelle.
Points forts et faiblesses
- Points forts : la conception sans ancrage simplifie la configuration de l'entraînement et améliore la généralisation sur diverses formes d'objets. Il s'adapte bien à différentes tailles (s, m, l, x) et est fortement optimisé pour le cadre PaddlePaddle
- Points faibles : Sa dépendance principale à l'égard de l'écosystème PaddlePaddle peut créer des frictions pour les équipes établies dans l'écosystème PyTorch ou TensorFlow . Le soutien de la communauté et les outils tiers en dehors de la Chine sont généralement moins importants que ceux de la communauté YOLO mondiale.
Comparaison des performances
Lors de la comparaison de ces modèles, il est essentiel d'examiner l'équilibre entre la précision moyenne (mAP) et la latence d'inférence. Le tableau ci-dessous met en évidence les mesures clés sur l'ensemble de données COCO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Analyse
Comme nous l'avons observé, YOLOv7l fait preuve d'une efficacité impressionnante, atteignant 51,4 % mAP avec une vitesse TensorRT de 6,84 ms. En revanche, PP-YOLOE+l atteint un mAP légèrement plus élevé de 52,9 %, mais à une vitesse plus lente de 8,36 ms et avec des paramètres nettement plus élevés (52,2M contre 36,9M). Ceci met en évidence l'efficacité supérieure de YOLOv7 dans l'utilisation des paramètres et la vitesse d'inférence pour des niveaux de précision comparables. Si PP-YOLOE+x repousse les limites de la précision, il le fait au prix de près du double des paramètres des modèles YOLO comparables.
L'efficacité compte
Pour les déploiements d'IA en périphérie où la mémoire et le calcul sont limités, le nombre inférieur de paramètres et de FLOP des architectures YOLO se traduit souvent par un fonctionnement plus froid et une consommation d'énergie réduite par rapport aux solutions plus lourdes.
L'avantage Ultralytics : Pourquoi moderniser ?
Bien que YOLOv7 et PP-YOLOE+ soient des modèles performants, le domaine de la vision par ordinateur évolue rapidement. L'adoption des derniers modèles Ultralytics , tels que YOLO11offre des avantages distincts qui vont au-delà des mesures brutes.
1. Une expérience utilisateur simplifiée
Ultralytics privilégie la facilité d'utilisation. Contrairement aux fichiers de configuration complexes et à la gestion des dépendances souvent requis par d'autres frameworks, les modèles Ultralytics peuvent être utilisés avec quelques lignes de Python. Cela réduit la barrière à l'entrée pour les développeurs et accélère le cycle de déploiement des modèles.
2. Écosystème unifié et polyvalence
Les modèles Ultralytics modernes ne se limitent pas à la détection d'objets. Ils prennent nativement en charge un large éventail de tâches au sein d'un cadre unique :
- Segmentation des instances: Masquage précis des objets au niveau des pixels.
- Estimation de la pose: Détection de points clés sur des corps humains ou des animaux.
- Détection d'objets orientés (OBB): traitement des objets en rotation, tels que les navires, dans les images aériennes.
- Classification: Catégorisation de l'image entière.
Cette polyvalence permet aux équipes de standardiser une bibliothèque pour de multiples tâches de vision par ordinateur, ce qui simplifie la maintenance.
3. Entraînement et efficacité de la mémoire
Les modèles Ultralytics sont conçus pour être efficaces en termes de mémoire. Ils nécessitent généralement moins de VRAM pendant l'apprentissage que les architectures plus anciennes ou les modèles basés sur des transformateurs comme le RT-DETR. Cela permet d'entraîner des lots plus importants sur des GPU grand public standard, ce qui rend la création de modèles haute performance accessible à un plus grand nombre de chercheurs.
4. Exemple de code : La méthode moderne
L'exécution de l'inférence avec un modèle Ultralytics moderne est intuitive. Vous trouverez ci-dessous un exemple complet et exécutable utilisant YOLO11, démontrant le peu de lignes de code nécessaires pour charger un modèle pré-entraîné et exécuter une prédiction.
from ultralytics import YOLO
# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")
# Run inference on a local image
# This automatically downloads the model weights if not present
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
boxes = result.boxes # Boxes object for bbox outputs
result.show() # Display results on screen
result.save(filename="result.jpg") # Save results to disk
5. Un écosystème bien entretenu
Choisir Ultralytics , c'est rejoindre une communauté dynamique. Avec des mises à jour fréquentes, une documentation complète et des intégrations avec des outils MLOps comme Ultralytics HUB, les développeurs sont soutenus tout au long du cycle de vie de leur projet d'IA.
Conclusion
Les deux YOLOv7 et PP-YOLOE+ ont tous deux apporté des contributions significatives au domaine de la détection d'objets. YOLOv7 excelle dans l'inférence à grande vitesse sur le matériel GPU grâce à son architecture E-ELAN efficace. PP-YOLOE+ offre une alternative robuste sans ancrage qui est particulièrement forte au sein de l'écosystème PaddlePaddle .
Cependant, pour les développeurs à la recherche d'une solution à l'épreuve du temps qui associe des performances de pointe à une facilité d'utilisation inégalée, Ultralytics YOLO11 est le choix recommandé. Son intégration dans un écosystème complet, sa prise en charge des tâches multimodales et son efficacité supérieure en font la plateforme idéale pour créer des applications de vision par ordinateur évolutives en 2025 et au-delà.
Explorer d'autres modèles
Ces comparaisons vous permettront de mieux comprendre le paysage de la détection d'objets :
- YOLOv7 vs. YOLOv8
- PP-YOLOE+ vs. YOLOv8
- RT-DETR vs. YOLOv7
- YOLOX vs. YOLOv7
- Découvrez les dernières capacités de YOLO11.