Passer au contenu

YOLOv7 PP-YOLOE+ : comparaison complète des détecteurs en temps réel

Lorsqu'ils évaluent les modèles de vision par ordinateur de pointe pour les pipelines de production, les développeurs évaluent souvent les avantages des différentes architectures. Deux modèles notables dans le domaine de la détection d'objets sont YOLOv7 et PP-YOLOE+. Ce guide fournit une comparaison technique détaillée de leurs architectures, de leurs mesures de performance et de leurs scénarios de déploiement idéaux afin de vous aider à prendre une décision éclairée pour votre prochain projet de vision par ordinateur.

Innovations architecturales

Il est essentiel de comprendre les différences structurelles fondamentales entre ces modèles pour prédire leur comportement pendant l'entraînement et l'inférence.

Points forts de YOLOv7

YOLOv7 plusieurs avancées clés conçues pour améliorer la précision sans augmenter considérablement les coûts d'inférence.

  • Réseaux d'agrégation de couches efficaces étendus (E-ELAN) : cette architecture contrôle les chemins de gradient les plus courts et les plus longs. Ce faisant, elle permet au réseau d'apprendre des caractéristiques plus diverses et améliore la capacité d'apprentissage globale sans détruire le chemin de gradient d'origine.
  • Stratégies de mise à l'échelle des modèles : YOLOv7 une mise à l'échelle composite des modèles, ajustant simultanément la profondeur et la largeur tout en concaténant les couches afin de conserver une structure architecturale optimale pour différentes tailles.
  • Trainable Bag-of-Freebies : les auteurs ont intégré une méthode de convolution reparamétrée (RepConv) sans connexions d'identité, qui améliore considérablement la vitesse d'inférence sans compromettre la puissance prédictive du modèle.

YOLOv7 :
Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 06/07/2022
Arxiv : https://arxiv.org/abs/2207.02696

En savoir plus sur YOLOv7

PP-YOLOE+ Points forts de l'architecture

Développé par Baidu au sein de PaddlePaddle , PP-YOLOE+ s'appuie sur son prédécesseur, PP-YOLOv2, en mettant fortement l'accent sur les méthodologies sans ancrage et les représentations améliorées des caractéristiques.

  • Conception sans ancrage : contrairement aux approches basées sur l'ancrage, cette conception simplifie la tête de prédiction et réduit le nombre d'hyperparamètres, ce qui facilite l'ajustement du modèle pour les ensembles de données personnalisés.
  • CSPRepResNet Backbone : cette structure intègre des connexions résiduelles et des réseaux Cross Stage Partial afin d'améliorer les capacités d'extraction des caractéristiques tout en conservant l'efficacité computationnelle.
  • Apprentissage par alignement des tâches (TAL) : PP-YOLOE+ utilise ET-head (Efficient Task-aligned head) pour mieux aligner les tâches de classification et de localisation, remédiant ainsi à un goulot d'étranglement courant dans les détecteurs à une seule étape.

PP-YOLOE+ Détails :
Auteurs : PaddlePaddle
Organisation : Baidu
Date : 02/04/2022
Arxiv : https://arxiv.org/abs/2203.16250

En savoir plus sur PP-YOLOE+

Métriques de performance et benchmarks

Le choix du modèle approprié dépend souvent des contraintes spécifiques de votre matériel et de vos exigences en matière de latence. Le tableau ci-dessous illustre les compromis entre précision (mAP), vitesse et complexité du modèle.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Analyse des résultats

  • Scénarios à haute précision : YOLOv7x affiche d'excellentes performances, avec un mAP élevé mAP le rend compétitif pour les tâches de détection complexes. Si PP-YOLOE+x affiche mAP légèrement supérieur, cela s'accompagne toutefois d'une augmentation substantielle des paramètres et des FLOP.
  • Efficacité et rapidité : les variantes plus petites de PP-YOLOE+ (t et s) offrent TensorRT extrêmement faibles, ce qui les rend particulièrement adaptées aux déploiements en périphérie où les contraintes matérielles sont strictes.
  • Le point idéal : YOLOv7l offre un équilibre convaincant, avec mAP supérieur à 51 % mAP conservant un temps d'inférence inférieur à 7 ms sur les GPU T4, ce qui en fait un choix robuste pour les applications serveur standard en temps réel.

Optimisation pour la production

Lors du déploiement de ces modèles, l'utilisation de formats d'exportation tels que TensorRT ou ONNX peut réduire considérablement la latence par rapport à PyTorch native PyTorch .

L'avantage Ultralytics

Si YOLOv7 PP-YOLOE+ offrent tous deux d'excellentes performances de référence, l'expérience de développement et le soutien de l'écosystème sont tout aussi essentiels à la réussite du projet.

Expérience utilisateur simplifiée

Ultralytics privilégient la facilité d'utilisation grâce à une Python unifiée. Contrairement à PP-YOLOE+, qui nécessite de naviguer dans PaddlePaddle et ses fichiers de configuration spécifiques, Ultralytics vous Ultralytics de passer de la formation au déploiement de manière transparente.

from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolov7.pt")

# Train the model effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized deployment
model.export(format="engine")  # TensorRT export

Efficacité des ressources

L'un des principaux atoutsYOLO Ultralytics réside dans leurs faibles besoins en mémoire, tant pendant l'entraînement que pendant l'inférence. Cette efficacité permet aux chercheurs et aux développeurs d'utiliser des lots plus volumineux sur du matériel grand public, ce qui accélère le processus d'entraînement par rapport à des modèles plus lourds ou à des architectures Transformer complexes telles que RT-DETR.

Écosystème et polyvalence

Ultralytics est exceptionnellement bien entretenu, avec des mises à jour fréquentes, une documentation complète et une prise en charge native de diverses tâches allant au-delà de la détection standard. Avec Ultralytics, un seul cadre prend en charge la segmentation d'instances, l'estimation de pose, la classification et les boîtes englobantes orientées (OBB), offrant une polyvalence inégalée qui fait souvent défaut aux modèles concurrents.

L'avenir de l'IA visuelle : YOLO26

Avec l'évolution rapide de la vision par ordinateur, de nouvelles architectures ont vu le jour, redéfinissant les normes en matière de vitesse et d'efficacité. Lancé en janvier 2026, Ultralytics représente le summum de cette évolution et constitue le choix hautement recommandé pour tous les nouveaux projets.

Principales innovations du YOLO26 :

  • Conception NMS de bout en bout : YOLO26 élimine le post-traitement par suppression non maximale (NMS). Cette approche native de bout en bout simplifie considérablement la logique de déploiement et réduit la latence variable, une avancée révolutionnaire introduite pour la première fois dans YOLOv10.
  • Performances de pointe sans précédent : en supprimant la perte focale de distribution (DFL), YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui le rend supérieur aux générations précédentes pour l'IoT et les appareils de pointe.
  • Dynamique d'entraînement avancée : l'intégration de l'optimiseur MuSGD, inspiré des innovations LLM telles que Kimi K2 de Moonshot AI, garantit un entraînement plus stable et une convergence plus rapide.
  • Détection supérieure des petits objets : les fonctions de perte améliorées, en particulier ProgLoss + STAL, remédient aux faiblesses historiques dans la reconnaissance des petits objets, ce qui est crucial pour des applications telles que l'imagerie aérienne.

Applications concrètes

Le choix entre ces architectures dépend souvent de l'environnement de déploiement spécifique.

Quand choisir PP-YOLOE+

  • PaddlePaddle : si votre infrastructure est déjà profondément intégrée à PaddlePaddle de Baidu, PP-YOLOE+ offre une solution native parfaitement adaptée.
  • Inspection industrielle en Asie : souvent utilisée dans les centres de fabrication asiatiques où les piles matérielles et logicielles sont préconfigurées pour les outils Baidu.

Quand choisir YOLOv7

  • SystèmesGPU: offre des performances exceptionnelles sur les GPU de niveau serveur pour les tâches nécessitant un débit élevé, telles que l'analyse vidéo.
  • Intégration robotique : Idéal pour intégrer la vision par ordinateur dans la robotique, permettant une prise de décision rapide dans des environnements dynamiques.
  • Recherche universitaire : largement soutenu et fréquemment utilisé comme référence fiable dans la recherche PyTorch.

Si les anciens modèles ont une importance historique, la transition vers des architectures modernes telles que YOLO26 ou YOLO11 via la Ultralytics garantit l'accès aux dernières optimisations, aux workflows de formation les plus simples et à la prise en charge multitâche la plus étendue disponible à ce jour.


Commentaires