Passer au contenu

PP-YOLOE+ vs. EfficientDet : Une comparaison technique pour la détection d'objets

Le choix du bon modèle de détection d'objets est une décision critique qui a un impact sur les performances, l'évolutivité et l'efficacité des applications de vision par ordinateur. Dans cette comparaison technique, nous analysons deux architectures de premier plan : PP-YOLOE+, un détecteur sans ancrage très performant issu de l'écosystème PaddlePaddle de Baidu, et EfficientDet, l'architecture évolutive de Google connue pour sa méthode de mise à l'échelle composée.

PP-YOLOE+ : Optimisé pour la vitesse et la précision

PP-YOLOE+ représente une évolution significative de la série YOLO , développée pour offrir un équilibre optimal entre la précision et la vitesse d'inférence. Basé sur le paradigme de l'absence d'ancrage, il simplifie le pipeline de détection tout en tirant parti de techniques avancées telles que l'apprentissage de l'alignement des tâches (TAL).

Principales caractéristiques architecturales

PP-YOLOE+ intègre une épine dorsale CSPRepResNet, qui combine l'efficacité de CSPNet avec les capacités de re-paramétrage de ResNet. Cela permet au modèle de capturer des représentations de caractéristiques riches sans encourir de coûts de calcul excessifs. Le cou utilise un réseau d'agrégation de chemins (PAN) pour une fusion efficace des caractéristiques à plusieurs échelles, ce qui permet de détecter les petits objets avec une plus grande fiabilité.

L'une des caractéristiques les plus remarquables est la tête efficace alignée sur les tâches (ET-Head). Contrairement aux têtes couplées traditionnelles, la tête ET dissocie les tâches de classification et de localisation, en utilisant TAL pour aligner dynamiquement les meilleures ancres sur les objets de la vérité terrain. Cette approche améliore considérablement la vitesse de convergence et la précision finale.

En savoir plus sur PP-YOLOE+

EfficientDet : Efficacité évolutive

EfficientDet a introduit une nouvelle approche de la mise à l'échelle des modèles, axée sur l'optimisation simultanée de la précision et de l'efficacité. Il s'appuie sur l'épine dorsale EfficientNet et introduit un réseau bidirectionnel pondéré de pyramides de caractéristiques (BiFPN).

Principales caractéristiques architecturales

L'innovation principale d'EfficientDet est le BiFPN, qui permet une fusion facile et rapide des caractéristiques à plusieurs échelles. Contrairement aux FPN précédents qui additionnaient les caractéristiques de manière égale, le BiFPN attribue des poids à chaque caractéristique d'entrée, ce qui permet au réseau d'apprendre l'importance des différentes caractéristiques d'entrée. En outre, EfficientDet utilise une méthode de mise à l'échelle composée qui met uniformément à l'échelle la résolution, la profondeur et la largeur pour tous les réseaux de base, les réseaux de caractéristiques et les réseaux de prédiction de boîtes/classes, fournissant une famille de modèles (D0 à D7) adaptés aux différentes contraintes de ressources.

En savoir plus sur EfficientDet

Analyse des performances : Vitesse vs. Précision

Lors de l'évaluation de ces modèles, le compromis entre la vitesse d'inférence et la précision moyennemAP devient évident. Alors qu'EfficientDet a établi des normes élevées lors de sa sortie, des architectures plus récentes comme PP-YOLOE+ ont tiré parti des conceptions matérielles pour atteindre des performances supérieures sur les GPU modernes.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Les données soulignent que PP-YOLOE+ surpasse de manière significative EfficientDet en termes de latence d'inférence sur GPU . Par exemple, PP-YOLOE+l atteint un mAP plus élevé (52,9) que EfficientDet-d6 (52,6) tout en étant plus de 10 fois plus rapide sur un GPU T4 (8,36 ms vs. 89,29 ms). EfficientDet reste pertinent dans les scénarios où les FLOPs sont la contrainte principale, tels que les CPU mobiles à très faible consommation, mais il a du mal à être compétitif dans les environnements de serveurs à haut débit.

Optimisation du matériel

Les choix architecturaux de PP-YOLOE+ sont spécifiquement conçus pour être compatibles avec les accélérateurs matériels de GPU tels que TensorRT. Les opérations sont structurées de manière à maximiser le parallélisme, alors que les connexions complexes du BiFPN d'EfficientDet peuvent parfois créer des goulets d'étranglement au niveau de l'accès à la mémoire sur les GPU.

Points forts et faiblesses

Comprendre les avantages et les inconvénients de chaque modèle permet de sélectionner l'outil adéquat pour des tâches spécifiques de vision par ordinateur.

PP-YOLOE+

  • Points forts :
    • Rapport précision-vitesse élevé : Fournit un mAP pointe avec des capacités d'inférence en temps réel sur les GPU.
    • Sans ancrage : Supprime la nécessité d'un réglage complexe de la boîte d'ancrage, ce qui simplifie la mise en place de la formation.
    • Attribution dynamique d'étiquettes : Utilise TAL pour un meilleur alignement entre la classification et la localisation.
  • Faiblesses :
    • Spécificité de l'écosystème : Fortement optimisé pour le framework PaddlePaddle , qui peut présenter une courbe d'apprentissage pour les utilisateurs habitués à PyTorch.
    • Intensité des ressources : Les variantes les plus grandes (L et X) nécessitent beaucoup de mémoire, ce qui peut limiter le déploiement sur les appareils périphériques dont la mémoire vive est strictement limitée.

EfficientDet

  • Points forts :
    • Efficacité des paramètres : Obtention d'une grande précision avec un nombre relativement réduit de paramètres par rapport aux anciens détecteurs.
    • Évolutivité : La méthode de mise à l'échelle composée permet aux utilisateurs de passer facilement d'une taille de modèle à l'autre (d0 à d7) en fonction de la puissance de calcul disponible.
    • BiFPN : Fusion innovante de caractéristiques permettant de traiter efficacement des objets à différentes échelles.
  • Faiblesses :
    • Lenteur de l'inférence : Malgré le faible nombre de FLOP, la structure complexe du graphe entraîne souvent des temps d'inférence plus lents dans le monde réel, en particulier sur les GPU.
    • Vitesse de formation : La formation peut être plus lente que celle des détecteurs modernes à un étage en raison de la complexité de l'architecture.

Cas d'utilisation concrets

Ces modèles excellent dans différents environnements en fonction de leurs atouts architecturaux.

  • Fabrication et automatisation industrielle : PP-YOLOE+ est un excellent choix pour le contrôle de la qualité dans la fabrication. Sa vitesse d'inférence élevée permet de détecter les défauts en temps réel sur les chaînes de montage rapides où les millisecondes comptent.

  • Vente au détail et inventaire intelligents : Pour l'analyse de la vente au détail, comme les caisses automatisées ou la surveillance des rayons, la précision de PP-YOLOE+ garantit que les produits sont correctement identifiés, même dans les scènes encombrées.

  • Télédétection et imagerie aérienne : La capacité d'EfficientDet à s'adapter à des résolutions plus élevées (par exemple, D7) le rend utile pour l'analyse d'images satellite ou de drone à haute résolution où la vitesse de traitement est moins critique que la détection de petites caractéristiques dans de grandes images.

  • Dispositifs de pointe à faible consommation : Les variantes plus petites d'EfficientDet (D0-D1) sont parfois préférées pour le matériel d'IA de pointe existant où le nombre total de FLOP est la limite absolue et où l'accélération GPU n'est pas disponible.

L'avantage Ultralytics : Pourquoi choisir YOLO11 ?

Alors que PP-YOLOE+ et EfficientDet offrent des solutions robustes, le système Ultralytics YOLO11 offre une expérience supérieure pour la plupart des développeurs et des chercheurs. Il combine le meilleur des innovations architecturales modernes avec un écosystème centré sur l'utilisateur.

En savoir plus sur YOLO11

Pourquoi YOLO11 se démarque

  1. Facilité d'utilisation : Les modèles Ultralytics sont réputés pour leur facilité d'utilisation. Avec une APIPython simple et un CLI intuitif, vous pouvez former, valider et déployer des modèles en quelques minutes, contrairement aux fichiers de configuration souvent complexes requis par d'autres frameworks.
  2. Un écosystème bien entretenu : La communauté Ultralytics est active et en pleine croissance. Des mises à jour régulières assurent la compatibilité avec les dernières versions de PyTorch, ONNX et CUDA, fournissant une base stable pour les projets à long terme.
  3. Équilibre des performances : YOLO11 atteint un équilibre remarquable, dépassant souvent PP-YOLOE+ en vitesse tout en égalant ou en dépassant la précision. Il est conçu pour être agnostique sur le plan matériel, et fonctionne exceptionnellement bien sur les CPU, les GPU et les NPU.
  4. Efficacité de la mémoire : Par rapport aux modèles à base de transformateurs ou aux architectures plus anciennes, les modèlesYOLO d'Ultralytics sont optimisés pour consommer moins de mémoire pendant l'apprentissage. Cela permet d'augmenter la taille des lots et d'accélérer la convergence sur du matériel standard.
  5. Polyvalence : Contrairement à EfficientDet, qui est avant tout un détecteur d'objets, YOLO11 prend en charge un large éventail de tâches, notamment la segmentation des instances, l'estimation de la pose, la détection d'objets orientés (OBB) et la classification, dans un cadre unique et unifié.
  6. Efficacité de la formation : Grâce aux augmentations avancées et aux chargeurs de données optimisés, l'apprentissage d'un modèle YOLO11 est rapide et efficace. De nombreux poids pré-entraînés sont disponibles, ce qui permet d'obtenir de puissants résultats d'apprentissage par transfert avec un minimum de données.

Exemple : Exécution de YOLO11 en Python

Il suffit de quelques lignes de code pour charger un modèle YOLO11 pré-entraîné et lancer l'inférence, ce qui démontre la simplicité du flux de travail d'Ultralytics .

from ultralytics import YOLO

# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Conclusion

PP-YOLOE+ et EfficientDet ont tous deux contribué de manière significative au domaine de la vision par ordinateur. PP-YOLOE+ est un concurrent de taille pour les utilisateurs profondément intégrés dans l'écosystème de Baidu et qui ont besoin d'un débit élevé du GPU . EfficientDet reste un exemple classique d'efficacité des paramètres et de conception évolutive.

Cependant, pour ceux qui recherchent une solution polyvalente, performante et facile à développer, Ultralytics YOLO11 est le choix recommandé. Sa combinaison de précision de pointe, de vitesse en temps réel et d'un écosystème favorable en fait la plateforme idéale pour créer des applications d'IA de nouvelle génération.

Pour d'autres comparaisons, il est possible d'explorer YOLO11 par rapport à EfficientDet ou PP-YOLOE+ par rapport à YOLOv10 pour voir comment ces modèles se situent par rapport à d'autres architectures de pointe.


Commentaires