PP-YOLOE+ vs YOLOv7: exploration des architectures de détection d'objets en temps réel
Lors de la création de pipelines de vision par ordinateur, il est essentiel de choisir le bon modèle de détection d'objets. Deux architectures importantes de 2022, PP-YOLOE+ et YOLOv7, ont apporté des avancées considérables dans le domaine de la détection d'objets en temps réel. Cette comparaison technique fournit un aperçu détaillé de leurs architectures, de leurs méthodologies d'entraînement et de leurs performances dans le monde réel afin de vous aider à prendre des décisions éclairées pour vos applications.
Aperçu des modèles
PP-YOLOE+ et YOLOv7 tous deux YOLOv7 conçus pour repousser les limites de la précision et de la vitesse, mais ils proviennent d'écosystèmes de développement et de philosophies de conception différents.
PP-YOLOE+
Développé par les PaddlePaddle chez Baidu, PP-YOLOE+ s'appuie sur le PP-YOLOv2 original. Il a été introduit afin de fournir un détecteur d'objets efficace et très précis, optimisé pour PaddlePaddle .
- Auteurs : Auteurs de PaddlePaddle
- Organisation :Baidu
- Date : 2022-04-02
- Arxiv :2203.16250
- GitHub :Dépôt PaddleDetection
- Documentation :Documentation PP-YOLOE+
YOLOv7
Développé par Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao, YOLOv7 le concept de « trainable bag-of-freebies » (sac de cadeaux entraînables) afin d'établir de nouvelles références de pointe pour les détecteurs d'objets en temps réel au moment de sa sortie.
- Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
- Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
- Date : 2022-07-06
- Arxiv :2207.02696
- GitHub :Dépôt YOLOv7
- Documents :Ultralytics YOLOv7
Innovations architecturales
Architecture de PP-YOLOE+
PP-YOLOE+ s'appuie fortement sur un paradigme sans ancrage, ce qui simplifie le processus de déploiement en éliminant la nécessité d'ajuster les boîtes d'ancrage pour les ensembles de données personnalisés. Il intègre une puissante structure RepResNet et un PAN (Path Aggregation Network) de type CSPNet pour une fusion efficace des caractéristiques à plusieurs échelles. De plus, il exploite le concept d'apprentissage par alignement des tâches (TAL) pour aligner dynamiquement les tâches de classification et de localisation pendant l'entraînement, garantissant ainsi une grande précision dans diverses tâches de vision par ordinateur.
Architecture YOLOv7
YOLOv7 une approche différente en introduisant le réseau E-ELAN (Extended Efficient Layer Aggregation Network). Cette architecture permet au réseau d'apprendre des caractéristiques plus diverses sans détruire le chemin de gradient d'origine, ce qui conduit à une meilleure convergence. YOLOv7 utilise YOLOv7 de manière intensive la reparamétrisation des modèles, en particulier les convolutions reparamétrées planifiées, qui fusionnent les couches convolutives pendant l'inférence afin d'accélérer l'exécution sans sacrifier la précision. Cela rend YOLOv7 performant dans des tâches telles que le suivi multi-objets et les systèmes d'alarme de sécurité complexes.
Différences entre les écosystèmes
Alors que PP-YOLOE+ est étroitement intégré au PaddlePaddle de Baidu, YOLOv7 développé en PyTorch, qui offre historiquement une communauté plus large et une compatibilité prête à l'emploi plus étendue avec des pipelines de déploiement tels que ONNX et TensorRT.
Analyse des performances
Lorsqu'il s'agit d'équilibrer la vitesse, les paramètres et la précision (mAP), les modèles s'affrontent en fonction de la variante spécifique et du matériel cible. Vous trouverez ci-dessous une comparaison complète de leurs métriques.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Alors que le modèle PP-YOLOE+x atteint un mAP légèrement supérieur, YOLOv7 offrent un très bon rapport paramètres/précision. YOLOv7 reste la préférée pour le GPU , où TensorRT offre une latence exceptionnellement faible.
L'avantage Ultralytics
Lors de la formation et du déploiement de ces modèles, le cadre que vous choisissez est tout aussi important que le modèle lui-même. L'utilisation Ultralytics une expérience utilisateur simplifiée grâce à une Python hautement unifiée qui simplifie l'ensemble du cycle de vie de l'apprentissage automatique.
- Écosystème bien entretenu :YOLO Ultralytics bénéficient d'un écosystème continuellement mis à jour, d'une documentation complète et d'une communauté active.
- Exigences en matière de mémoire : Ultralytics optimise Ultralytics le chargement des données et les régimes d'entraînement. L'entraînementYOLO Ultralytics nécessite généralement beaucoup moins CUDA que les architectures lourdes basées sur des transformateurs, ce qui permet aux développeurs d'utiliser des lots plus importants sur du matériel grand public.
- Efficacité de la formation : grâce à des stratégies robustes d'augmentation des données et à un réglage intégré des hyperparamètres, Ultralytics une convergence rapide des modèles avec des poids pré-entraînés facilement disponibles.
Implémentation simple de l'API
La formation d'un YOLOv7 avec Ultralytics que quelques lignes de code, ce qui permet d'abstraire complètement les scripts de formation complexes :
from ultralytics import YOLO
# Load a pretrained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to TensorRT for deployment
model.export(format="engine", device=0)
La nouvelle norme : présentation de YOLO26
Si PP-YOLOE+ et YOLOv7 des étapes importantes dans le domaine de la détection d'objets, le paysage de l'IA évolue rapidement. Pour tout nouveau projet de vision par ordinateur, nous recommandons vivement Ultralytics . Lancé en janvier 2026, YOLO26 représente une avancée considérable dans le domaine de l'IA de vision « edge-first ».
Pourquoi YOLO26 surpasse les architectures plus anciennes :
- Conception NMS de bout en bout : YOLO26 est nativement de bout en bout. En éliminant le post-traitementNMS(Non-Maximum Suppression), il garantit une latence d'inférence prévisible et déterministe, une avancée révolutionnaire apparue pour la première fois dans YOLOv10.
- Suppression du DFL : la suppression du Distribution Focal Loss simplifie le processus d'exportation et améliore considérablement la compatibilité avec les appareils périphériques à faible consommation d'énergie.
- CPU jusqu'à 43 % plus rapide : pour les scénarios ne disposant pas de GPU dédiés, tels que les capteurs IoT des villes intelligentes, YOLO26 est fortement optimisé pour fonctionner efficacement directement sur les CPU.
- Optimiseur MuSGD : inspiré des techniques avancées d'entraînement LLM (comme Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD Muon pour un entraînement incroyablement stable et une convergence rapide.
- ProgLoss + STAL : ces fonctions de perte améliorées apportent des gains remarquables dans la détection de petits objets, ce qui est essentiel pour des cas d'utilisation tels que l'imagerie aérienne par drone et la détection des défauts de fabrication.
Cas d'utilisation et scénarios de déploiement idéaux
Quand utiliser PP-YOLOE+
PP-YOLOE+ excelle lorsque vous êtes profondément ancré dans PaddlePaddle Baidu et PaddlePaddle . Si votre cible de déploiement utilise du matériel spécialisé adapté aux modèles Paddle (par exemple, dans certaines chaînes de fabrication asiatiques), PP-YOLOE+ offre une excellente précision et une intégration transparente. Il est très efficace pour l'automatisation de la fabrication industrielle.
Quand utiliser YOLOv7
YOLOv7 un excellent choix pour l'inférence générique haute performance, en particulier lors du déploiement sur NVIDIA utilisant TensorRT. Son intégration dans PyTorch le rend très polyvalent pour la recherche universitaire et les pipelines commerciaux personnalisés, tels que la gestion des foules en temps réel ou les tâches complexes d'estimation de pose où l'intégrité structurelle du réseau est primordiale.
Autres modèles à considérer
En fonction de vos besoins précis, vous pourriez également être intéressé par une comparaison de ces architectures avec YOLO11 pour une flexibilité étendue et prête à la production, ou RT-DETR si votre projet nécessite les avantages spécifiques des transformateurs de vision par rapport aux réseaux convolutifs traditionnels.
Conclusion
PP-YOLOE+ et YOLOv7 tous deux YOLOv7 des améliorations significatives au monde de la détection d'objets en temps réel. Alors que PP-YOLOE+ excelle dans les environnements standardisés autour de PaddlePaddle, YOLOv7 une flexibilité et des performances incroyables via les Ultralytics PyTorch Ultralytics .
Cependant, à mesure que les solutions de vision par ordinateur continuent de progresser, il est essentiel d'utiliser des outils modernes. En adoptant Ultralytics et des architectures de nouvelle génération telles que YOLO26, les développeurs peuvent s'assurer que leurs applications restent à la pointe en termes de vitesse, de précision et de facilité d'utilisation.