Passer au contenu

PP-YOLOE+ vs YOLOv7: exploration des architectures de détection d'objets en temps réel

La vision par ordinateur a évolué rapidement, fournissant aux développeurs des outils de plus en plus puissants pour la détection d'objets en temps réel. Deux étapes importantes dans cette évolution sont PP-YOLOE+ de Baidu et YOLOv7 des auteurs de YOLOv4. Les deux modèles visent à trouver un équilibre entre vitesse et précision, mais ils y parviennent grâce à des philosophies architecturales et des méthodologies d'entraînement fondamentalement différentes.

Ce guide complet analyse ces deux architectures, en comparant leurs performances, leur facilité d'utilisation et leur adéquation aux applications IA modernes. Nous explorons également comment les innovations récentes telles que YOLO26 établissent de nouvelles normes en matière d'efficacité et de déploiement.

Résumé : principales différences

FonctionnalitéPP-YOLOE+YOLOv7
ArchitectureSans ancre, CSPRepResStageBasé sur une ancre, E-ELAN
Innovation fondamentaleApprentissage par alignement des tâches (TAL)Sac de cadeaux à personnaliser
Cadre principalPaddlePaddlePyTorch
Meilleur cas d'utilisationEnvironnements industriels utilisant l'inférence PaddleRecherche et déploiement à usage général

PP-YOLOE+: Détection sans ancres affinée

PP-YOLOE+ est une évolution de laYOLO , développée par l'équipe de Baidu afin d'optimiser la précision et la vitesse d'inférence sur divers matériels. Lancée en 2022, elle utilise largement des mécanismes sans ancrage afin de simplifier la tête de détection.

Détails techniques :

Architecture et points forts

PP-YOLOE+ introduit une structure CSPRepResStage, qui combine des connexions résiduelles avec des réseaux CSP (Cross Stage Partial). L'une de ses principales caractéristiques est le mécanisme d'apprentissage par alignement des tâches (TAL), qui aligne dynamiquement les tâches de classification et de localisation pendant l'entraînement. Cela permet de résoudre le problème courant selon lequel les détections à haut niveau de confiance ne correspondent pas nécessairement au meilleur chevauchement des cadres de sélection.

Le modèle est pris en charge de manière native par PaddlePaddle , ce qui le rend très efficace lorsqu'il est déployé sur les moteurs d'inférence spécifiques de Baidu ou sur du matériel tel que les dispositifs FPGA et NPU souvent utilisés sur les marchés industriels asiatiques.

YOLOv7 : L'ensemble d'optimisations entraînables

Sorti peu après PP-YOLOE+, YOLOv7 s'est concentré sur l'optimisation du processus d'entraînement lui-même sans augmenter le coût de l'inférence, un concept que les auteurs ont appelé « bag-of-freebies ».

Détails techniques :

Architecture et points forts

YOLOv7 le réseau E-ELAN (Extended Efficient Layer Aggregation Network). Contrairement à l'ELAN traditionnel, l'E-ELAN permet au réseau d'apprendre des caractéristiques plus diverses en contrôlant les longueurs des chemins de gradient. Il utilise également la mise à l'échelle des modèles composites, qui ajuste simultanément la profondeur et la largeur afin de maintenir une efficacité optimale.

Malgré ses performances élevées, YOLOv7 sur des boîtes d'ancrage, qui peuvent nécessiter un réglage minutieux des hyperparamètres pour les ensembles de données personnalisés comportant des objets de formes inhabituelles.

En savoir plus sur YOLOv7

Bancs d'essai de performance

Le tableau suivant compare les modèles sur l'COCO , une référence standard pour la détection d'objets. Il convient de noter que si PP-YOLOE+ affiche mAP élevé, YOLOv7 offre YOLOv7 des vitesses d'inférence compétitives sur GPU standard.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Formation et comparaison des écosystèmes

Lors du choix d'un modèle pour un projet de vision par ordinateur, la facilité d'entraînement et l'écosystème environnant sont souvent aussi importants que les mesures brutes.

Cadre et facilité d'utilisation

PP-YOLOE+ nécessite le PaddlePaddle . Bien que puissant, il peut présenter une courbe d'apprentissage abrupte pour les développeurs habitués à PyTorch . Sa configuration implique souvent le clonage de dépôts spécifiques tels que PaddleDetection et gérer les dépendances qui diffèrent des paquets pip globaux standard.

YOLOv7, basé PyTorch, s'intègre plus naturellement dans les flux de travail de recherche occidentaux standard. Cependant, le référentiel d'origine ne offre pas l'expérience « zero-to-hero » (de zéro à héros) que l'on trouve dans Ultralytics modernes.

L'avantage Ultralytics

Ultralytics , tels que YOLOv8 et le nouveau YOLO26, offrent une Python unifiée qui simplifie la complexité de l'entraînement. Cela permet aux développeurs de se concentrer sur les données plutôt que sur le code standard.

Formation simplifiée avec Ultralytics

La formation d'un modèle de pointe avec Ultralytics que quelques lignes de code, et gère automatiquement l'augmentation des données et la journalisation.

from ultralytics import YOLO

# Load a pretrained model (YOLO26 recommended for best performance)
model = YOLO("yolo26s.pt")

# Train on your custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Cette simplicité s'étend aux options de déploiement, permettant une exportation simplifiée vers des formats tels que ONNX et TensorRT pour des performances maximales.

L'avenir de la détection : YOLO26

Si PP-YOLOE+ et YOLOv7 à la pointe de la technologie lors de leur sortie, le domaine a considérablement évolué depuis. Sorti en janvier 2026, YOLO26 représente le summum en matière d'efficacité et de précision.

Principales innovations du YOLO26 :

  • NMS de bout en bout : contrairement à YOLOv7 nécessite un post-traitement par suppression non maximale (NMS), YOLO26 est nativement de bout en bout. Cela élimine la variabilité de latence causée par NMS les scènes encombrées, ce qui le rend idéal pour les applications de ville intelligente et la surveillance du trafic.
  • Optimiseur MuSGD : inspiré des techniques d'entraînement LLM, cet optimiseur combine SGD Muon pour garantir une dynamique d'entraînement stable, une fonctionnalité qui n'était pas disponible dans les architectures plus anciennes.
  • Optimisation de la périphérie : en supprimant la perte focale de distribution (DFL), YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui le rend bien supérieur pour les appareils périphériques par rapport aux exigences de calcul plus lourdes de PP-YOLOE+.
  • ProgLoss + STAL : des fonctions de perte avancées améliorent la détection des petits objets, ce qui est crucial dans des domaines tels que l'agriculture et l'imagerie aérienne.

En savoir plus sur YOLO26

Applications concrètes

Le choix du modèle détermine souvent le succès d'applications spécifiques.

Cas d'utilisation de PP-YOLOE+

  • Inspection industrielle en Asie : grâce au solide PaddlePaddle dans les centres de fabrication asiatiques, PP-YOLOE+ est souvent utilisé pour détecter les défauts sur les chaînes de montage où le matériel est préconfiguré pour la pile Baidu.
  • Analyse d'images statiques : son mAP élevé le mAP adapté au traitement hors ligne, où la latence en temps réel est moins critique que la précision absolue.

Cas YOLOv7

  • Recherche à usage général : largement utilisé comme référence dans les articles universitaires en raison de son PyTorch .
  • SystèmesGPU: fonctionne bien sur les GPU de niveau serveur pour des tâches telles que l'analyse vidéo.

Cas d'utilisation Ultralytics (YOLO26)

  • IA en périphérie et IoT : grâce à leur faible empreinte mémoire et CPU élevée, Ultralytics sont parfaitement adaptés aux déploiements sur Raspberry Pi et mobiles.
  • Tâches multimodales : au-delà des simples boîtes, Ultralytics l'estimation de pose et les boîtes englobantes orientées (OBB), ce qui permet des applications complexes telles que la préhension robotique ou l'analyse de documents.
  • Prototypage rapide : la Ultralytics permet aux équipes de passer de l'annotation des ensembles de données au déploiement du modèle en quelques minutes, réduisant ainsi considérablement les délais de mise sur le marché.

Conclusion

PP-YOLOE+ et YOLOv7 tous deux contribué de manière significative au paysage de la vision par ordinateur. PP-YOLOE+ a repoussé les limites de la détection sans ancrage, tandis que YOLOv7 l'efficacité des architectures basées sur l'ancrage.

Cependant, pour les développeurs à la recherche d'une solution pérenne qui combine le meilleur des deux mondes (vitesse, précision et facilité d'utilisation),YOLO26 est le choix recommandé. Avec sa conception NMS, ses capacités d'exportation robustes et son intégration transparente dans Ultralytics , il offre l'ensemble d'outils le plus polyvalent pour relever les défis actuels de l'IA.

Pour découvrir d'autres options hautement performantes, consultez la documentation relative à YOLOv9 ou YOLOv10.


Commentaires