Passer au contenu

YOLOv6.0 vs PP-YOLOE+ : optimisation de la détection d'objets industriels

Le domaine de la détection d'objets en temps réel a évolué rapidement, poussé par le besoin de modèles capables d'équilibrer une grande précision et une faible latence sur divers matériels. Deux architectures importantes ont défini ce domaine : YOLOv6.YOLOv6, développée par Meituan pour des applications industrielles, et PP-YOLOE+, un modèle avancé sans ancrage issu de PaddlePaddle de Baidu.

Cette comparaison examine leurs innovations architecturales, leurs performances et leur aptitude au déploiement afin de vous aider à choisir l'outil le mieux adapté à vos projets de vision par ordinateur.

Aperçu du modèle

YOLOv6-3.0

Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, et Xiangxiang Chu
Organisation :Meituan
Date : 13 janvier 2023
Liens :Arxiv | GitHub

YOLOv6.YOLOv6, souvent appelé « A Full-Scale Reloading » (rechargement à grande échelle), est un détecteur d'objets à étape unique spécialement conçu pour les applications industrielles. Son objectif principal est d'optimiser le débit sur des matériels tels que les GPU NVIDIA T4. Il introduit un réseau d'agrégation de chemins bidirectionnels (Bi-PAN) et des stratégies d'apprentissage assisté par ancrage (AAT) afin de repousser les limites en matière de vitesse et de précision.

En savoir plus sur YOLOv6

PP-YOLOE+

Auteurs : PaddlePaddle
Organisation :Baidu
Date : 2 avril 2022
Liens :Arxiv | GitHub

PP-YOLOE+ est une évolution de laYOLO , qui tire parti de l'infrastructure évolutive de CSPRepResNet et d'une tête alignée sur les tâches. Il fait partie de la suite PaddleDetection plus large et se concentre sur le fait d'être un détecteur sans ancrage, de haute précision et à faible latence. Il est particulièrement performant lorsqu'il est déployé dans PaddlePaddle , utilisant PaddleLite pour un support backend diversifié, y compris l'optimisation FPGA et NPU.

En savoir plus sur PP-YOLOE

Comparaison des performances

Lors du choix d'un modèle pour la production, il est essentiel de comprendre le compromis entre la précision moyenne (mAP) et la vitesse d'inférence. Le tableau ci-dessous met en évidence la comparaison de ces modèles selon différentes tailles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Analyse critique

  1. Efficacité des petits modèles : dans le domaine nano/minuscule, PP-YOLOE+t offre une précision nettement supérieure (39,9 % mAP 37,5 % mAP) pour un nombre de paramètres comparable. Cependant, YOLOv6.YOLOv6 est optimisé de manière agressive pour la latence sur les GPU, avec un temps de réponse incroyable de 1,17 ms sur un T4.
  2. Équilibre moyen : à moyenne échelle, la concurrence s'intensifie. YOLOv6. YOLOv6 devance légèrement PP-YOLOE+m en termes de précision (50,0 % contre 49,8 %) et de vitesse (5,28 ms contre 5,56 ms), ce qui en fait un choix redoutable pour les tâches d'inspection industrielle à usage général.
  3. Précision à grande échelle : pour les applications nécessitant un niveau de détail maximal, telles que l'analyse d'images satellites, PP-YOLOE+ propose une variante X-large atteignant 54,7 % mAP, une taille que YOLOv6. YOLOv6 n'égale pas explicitement dans cette comparaison de référence spécifique.

Architecture et innovation

YOLOv6.0 : le spécialiste industriel

YOLOv6 plusieurs techniques d'optimisation agressives conçues pour les environnements à haut débit.

  • RepBi-PAN : réseau d'agrégation de chemins bidirectionnel équipé de blocs de type RepVGG. Cela permet au modèle d'avoir des ramifications complexes pendant l'entraînement, mais de fusionner en convolutions 3x3 simples pendant l'inférence, réduisant ainsi les coûts d'accès à la mémoire.
  • Formation assistée par ancrage (AAT) : bien que l'inférence du modèle soit sans ancrage, YOLOv6 une branche basée sur l'ancrage pendant la formation afin de stabiliser la convergence, combinant ainsi le meilleur des deux mondes.
  • Tête découplée : elle sépare les tâches de régression et de classification, ce qui est courant dans les détecteurs modernes afin d'améliorer la vitesse de convergence et la précision.

PP-YOLOE+ : le raffinement sans ancrage

PP-YOLOE+ affine le paradigme sans ancrage en mettant l'accent sur la représentation des caractéristiques.

  • CSPRepResNet Backbone : il utilise une structure évolutive qui combine des réseaux Cross Stage Partial avec des connexions résiduelles, offrant un flux de gradient puissant.
  • TAL (Task Alignment Learning) : cette stratégie dynamique d'attribution d'étiquettes garantit la sélection des ancres de la plus haute qualité sur la base d'un score combiné de qualité de classification et de localisation.
  • ET-Head : une tête efficace alignée sur les tâches qui rationalise les couches de prédiction pour gagner en vitesse sans sacrifier les avantages de l'alignement des tâches.

Considérations matérielles

YOLOv6 fortement optimisé pour NVIDIA (TensorRT) et affiche souvent les meilleursmAP sur les puces T4 et A100. PP-YOLOE+ excelle lorsque vous avez besoin d'une prise en charge matérielle plus large via PaddleLite, notamment les processeurs ARM et les NPU que l'on trouve dans les appareils périphériques.

L'avantage Ultralytics

Si YOLOv6 PP-YOLOE+ constituent d'excellentes avancées en matière de recherche, les développeurs sont souvent confrontés à des défis en matière d'intégration, de déploiement et de maintenance lorsqu'ils passent du stade de la théorie à celui de la production. Ultralytics répond directement à ces difficultés.

Facilité d'utilisation et écosystème

Python Ultralytics vous permet de former, valider et déployer des modèles avec un minimum de code. Contrairement aux fichiers de configuration complexes souvent requis par PaddleDetection ou les référentiels de recherche, Ultralytics le flux de travail.

from ultralytics import YOLO

# Load a model (YOLOv8, YOLO11, or YOLO26)
model = YOLO("yolo26s.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)

De plus, la Ultralytics (anciennement HUB) offre une solution sans code pour la gestion des ensembles de données, l'annotation automatique et la formation cloud en un clic, rationalisant ainsi le cycle de vie MLOps pour les équipes.

Polyvalence et prise en charge des tâches

YOLOv6 PP-YOLOE+ sont principalement axés sur la détection d'objets. En revanche, Ultralytics tels que YOLO11 et YOLO26 prennent en charge de manière native un éventail complet de tâches de vision par ordinateur au sein d'une seule bibliothèque :

Efficacité de l'entraînement et mémoire

Ultralytics sont réputés pour leur utilisation efficace de la mémoire. En optimisant l'architecture et les chargeurs de données, les modèles tels que YOLO26 permettent des tailles de lots plus importantes sur les GPU grand public par rapport aux architectures plus anciennes ou aux modèles à forte intensité de transformateurs tels que RT-DETR. Cela rend l'IA haute performance accessible même sans centre de données.

Recommandation : pourquoi choisir YOLO26 ?

Pour les développeurs qui lancent de nouveaux projets en 2026, Ultralytics représente le summum de l'efficacité et de la précision. Il remédie aux limites spécifiques rencontrées dans les générations précédentes et les modèles concurrents :

  • NMS de bout en bout : contrairement à YOLOv6 PP-YOLOE+, qui peuvent nécessiter un post-traitement NMS Non-Maximum Suppression), YOLO26 est nativement de bout en bout. Cela simplifie la logique de déploiement et réduit la variabilité de la latence dans les scènes encombrées.
  • Optimiseur MuSGD : inspiré des innovations dans le domaine des grands modèles linguistiques (LLM), cet optimiseur garantit un apprentissage stable, même pour les ensembles de données personnalisés complexes.
  • Optimisation des bords : grâce à la suppression de la perte focale de distribution (DFL) et d'autres composants lourds, YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour les applications mobiles et IoT où les GPU ne sont pas disponibles.
  • ProgLoss + STAL : ces fonctions de perte avancées améliorent considérablement la détection des petits objets, qui constitue traditionnellement un point faible des détecteurs à usage général.

En savoir plus sur YOLO26

Conclusion

YOLOv6.YOLOv6 et PP-YOLOE+ jouent tous deux un rôle important dans l'histoire de la détection d'objets. Choisissez YOLOv6.YOLOv6 si votre infrastructure est strictement liée aux NVIDIA et que vous avez besoin de maximiser le débit pour l'inspection industrielle. Choisissez PP-YOLOE+ si vous êtes profondément intégré à PaddlePaddle Baidu PaddlePaddle ou si vous avez besoin d'une prise en charge spécifique pour les accélérateurs matériels chinois.

Cependant, pour une solution pérenne offrant polyvalence, facilité d'utilisation et performances de pointe tant sur CPU sur GPU, Ultralytics est le choix recommandé. Son intégration à la Ultralytics vous permet de passer moins de temps à configurer des environnements et plus de temps à résoudre des problèmes concrets.

Lectures complémentaires

  • YOLOv8: le modèle classique de pointe largement utilisé dans l'industrie.
  • YOLOv10: le pionnier des stratégies d'entraînement NMS.
  • RT-DETR: transformateur de détection en temps réel pour les scénarios à haute précision.
  • YOLO : détection à vocabulaire ouvert pour trouver des objets sans formation personnalisée.

Commentaires