PP-YOLOE+ vs YOLOv7: exploration des architectures de détection d'objets en temps réel

Lors de la création de pipelines de vision par ordinateur, il est essentiel de choisir le bon modèle de détection d'objets. Deux architectures importantes de 2022, PP-YOLOE+ et YOLOv7, ont apporté des avancées considérables dans le domaine de la détection d'objets en temps réel. Cette comparaison technique fournit un aperçu détaillé de leurs architectures, de leurs méthodologies d'entraînement et de leurs performances dans le monde réel afin de vous aider à prendre des décisions éclairées pour vos applications.

Aperçu des modèles

PP-YOLOE+ et YOLOv7 ont tous deux été conçus pour repousser les limites de la précision et de la vitesse, mais ils proviennent d'écosystèmes de développement et de philosophies de conception différents.

PP-YOLOE+

Développé par les auteurs de PaddlePaddle chez Baidu, PP-YOLOE+ s'appuie sur le PP-YOLOv2 original. Il a été introduit pour fournir un détecteur d'objets efficace et très précis, optimisé pour l'écosystème PaddlePaddle.

Auteurs : Auteurs de PaddlePaddle
Organisation :Baidu
Date : 2022-04-02
Arxiv :2203.16250
GitHub :Dépôt PaddleDetection
Documentation :Documentation PP-YOLOE+

En savoir plus sur PP-YOLOE+

YOLOv7

Développé par Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao, YOLOv7 a introduit des « bag-of-freebies » entraînables pour établir de nouvelles références de pointe pour les détecteurs d'objets en temps réel au moment de sa publication.

Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 2022-07-06
Arxiv :2207.02696
GitHub :Dépôt YOLOv7
Documentation :Documentation Ultralytics YOLOv7

En savoir plus sur YOLOv7

Innovations architecturales

Architecture de PP-YOLOE+

PP-YOLOE+ s'appuie fortement sur un paradigme sans ancrage, ce qui simplifie le processus de déploiement en éliminant la nécessité d'ajuster les boîtes d'ancrage pour les ensembles de données personnalisés. Il intègre une puissante structure RepResNet et un PAN (Path Aggregation Network) de type CSPNet pour une fusion efficace des caractéristiques à plusieurs échelles. De plus, il exploite le concept d'apprentissage par alignement des tâches (TAL) pour aligner dynamiquement les tâches de classification et de localisation pendant l'entraînement, garantissant ainsi une grande précision dans diverses tâches de vision par ordinateur.

Architecture YOLOv7

YOLOv7 une approche différente en introduisant le réseau E-ELAN (Extended Efficient Layer Aggregation Network). Cette architecture permet au réseau d'apprendre des caractéristiques plus diverses sans détruire le chemin de gradient d'origine, ce qui conduit à une meilleure convergence. YOLOv7 utilise YOLOv7 de manière intensive la reparamétrisation des modèles, en particulier les convolutions reparamétrées planifiées, qui fusionnent les couches convolutives pendant l'inférence afin d'accélérer l'exécution sans sacrifier la précision. Cela rend YOLOv7 performant dans des tâches telles que le suivi multi-objets et les systèmes d'alarme de sécurité complexes.

Différences d'écosystème

Alors que PP-YOLOE+ est étroitement intégré au PaddlePaddle de Baidu, YOLOv7 développé en PyTorch, qui offre historiquement une communauté plus large et une compatibilité prête à l'emploi plus étendue avec des pipelines de déploiement tels que ONNX et TensorRT.

Analyse des performances

Lorsqu'il s'agit d'équilibrer la vitesse, les paramètres et la précision (mAP), les modèles s'affrontent en fonction de la variante spécifique et du matériel cible. Vous trouverez ci-dessous une comparaison complète de leurs métriques.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Alors que le modèle PP-YOLOE+x atteint un mAP légèrement supérieur, YOLOv7 offrent un très bon rapport paramètres/précision. YOLOv7 reste la préférée pour le GPU , où TensorRT offre une latence exceptionnellement faible.

L'avantage Ultralytics

Lors de la formation et du déploiement de ces modèles, le cadre que vous choisissez est tout aussi important que le modèle lui-même. L'utilisation Ultralytics une expérience utilisateur simplifiée grâce à une Python hautement unifiée qui simplifie l'ensemble du cycle de vie de l'apprentissage automatique.

Écosystème bien entretenu : Les modèles Ultralytics YOLO bénéficient d'un écosystème continuellement mis à jour, d'une documentation robuste et d'une communauté active.
Exigences de mémoire : Ultralytics optimise fortement le chargement des données et les régimes d'entraînement. L'entraînement des modèles Ultralytics YOLO nécessite généralement beaucoup moins de mémoire CUDA par rapport aux architectures lourdes basées sur des transformeurs, ce qui permet aux développeurs d'utiliser des tailles de lot plus importantes sur du matériel grand public.
Efficacité de l'entraînement : En tirant parti de robustes stratégies d'augmentation de données et d'un réglage intégré des hyperparamètres, Ultralytics garantit que les modèles convergent rapidement grâce à des poids pré-entraînés facilement disponibles.

Implémentation simple de l'API

La formation d'un YOLOv7 avec Ultralytics que quelques lignes de code, ce qui permet d'abstraire complètement les scripts de formation complexes :

from ultralytics import YOLO

# Load a pretrained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to TensorRT for deployment
model.export(format="engine", device=0)

La nouvelle norme : présentation de YOLO26

Si PP-YOLOE+ et YOLOv7 des étapes importantes dans le domaine de la détection d'objets, le paysage de l'IA évolue rapidement. Pour tout nouveau projet de vision par ordinateur, nous recommandons vivement Ultralytics . Lancé en janvier 2026, YOLO26 représente une avancée considérable dans le domaine de l'IA de vision « edge-first ».

Pourquoi YOLO26 surpasse les architectures plus anciennes :

Conception de bout en bout sans NMS : YOLO26 est nativement de bout en bout. En éliminant le post-traitement par Non-Maximum Suppression (NMS), il garantit une latence d'inférence prévisible et déterministe—une avancée majeure apparue pour la première fois dans YOLOv10.
Suppression du DFL : La suppression de la Distribution Focal Loss simplifie le processus d'exportation et améliore significativement la compatibilité avec les appareils périphériques à faible consommation.
Jusqu'à 43 % plus rapide pour l'inférence CPU : Pour les scénarios dépourvus de GPU dédiés — tels que les capteurs IoT de ville intelligente — YOLO26 est fortement optimisé pour fonctionner efficacement directement sur les CPU.
Optimiseur MuSGD : Inspiré par des techniques d'entraînement avancées des LLM (comme Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD et de Muon pour un entraînement incroyablement stable et une convergence rapide.
ProgLoss + STAL: Ces fonctions de perte améliorées apportent des gains remarquables dans la détection de petits objets, ce qui est vital pour des cas d'utilisation comme l'imagerie aérienne par drone et la détection de défauts de fabrication.

En savoir plus sur YOLO26

Cas d'utilisation et scénarios de déploiement idéaux

Quand utiliser PP-YOLOE+

PP-YOLOE+ excelle lorsque vous êtes profondément ancré dans PaddlePaddle Baidu et PaddlePaddle . Si votre cible de déploiement utilise du matériel spécialisé adapté aux modèles Paddle (par exemple, dans certaines chaînes de fabrication asiatiques), PP-YOLOE+ offre une excellente précision et une intégration transparente. Il est très efficace pour l'automatisation de la fabrication industrielle.

Quand utiliser YOLOv7

YOLOv7 un excellent choix pour l'inférence générique haute performance, en particulier lors du déploiement sur NVIDIA utilisant TensorRT. Son intégration dans PyTorch le rend très polyvalent pour la recherche universitaire et les pipelines commerciaux personnalisés, tels que la gestion des foules en temps réel ou les tâches complexes d'estimation de pose où l'intégrité structurelle du réseau est primordiale.

Autres modèles à considérer

Selon vos besoins précis, vous pourriez également être intéressé de comparer ces architectures à YOLO11 pour une flexibilité large et prête pour la production, ou à RT-DETR si votre projet exige les avantages spécifiques des transformeurs de vision par rapport aux réseaux convolutifs traditionnels.

Conclusion

PP-YOLOE+ et YOLOv7 ont tous deux apporté des améliorations significatives au monde de la détection d'objets en temps réel. Alors que PP-YOLOE+ excelle dans les environnements standardisés autour de PaddlePaddle, YOLOv7 offre une flexibilité et des performances incroyables via les écosystèmes PyTorch et Ultralytics.

Cependant, à mesure que les solutions de vision par ordinateur continuent de progresser, il est essentiel d'utiliser des outils modernes. En adoptant Ultralytics et des architectures de nouvelle génération telles que YOLO26, les développeurs peuvent s'assurer que leurs applications restent à la pointe en termes de vitesse, de précision et de facilité d'utilisation.