Passer au contenu

PP-YOLOE+ vs EfficientDet : une analyse approfondie des architectures de détection d'objets

Pour s'y retrouver dans le paysage des modèles de détection d'objets, il faut souvent choisir entre des architectures traditionnelles bien établies et des cadres plus récents et optimisés. Cette comparaison explore les nuances techniques entre PP-YOLOE+, un détecteur raffiné sans ancrage de Baidu, et EfficientDet, l'architecture évolutive Google qui a introduit la mise à l'échelle composée. Si les deux ont apporté une contribution significative à la vision par ordinateur, leurs approches en matière d'efficacité et de précision diffèrent considérablement.

Analyse des performances et benchmarks

Le compromis entre la vitesse d'inférence et la précision de détection, souvent mesuré par la précision moyenne (mAP), est le principal indicateur utilisé pour évaluer ces modèles.

Le tableau ci-dessous montre que PP-YOLOE+ offre généralement une latence supérieure sur GPU grâce à sa conception TensorRT, tandis qu'EfficientDet, bien qu'efficace en termes de paramètres, souffre souvent d'une latence plus élevée en raison de la complexité des connexions de sa pyramide de caractéristiques.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Architecture et philosophie de conception

La différence fondamentale entre ces deux modèles réside dans la manière dont ils gèrent la fusion et la mise à l'échelle des caractéristiques.

EfficientDet : Compound Scaling et BiFPN

Développé par l'équipe Google , EfficientDet a introduit le concept de mise à l'échelle composite, qui adapte uniformément la résolution, la profondeur et la largeur du réseau.

La caractéristique distinctive d'EfficientDet est le BiFPN (Weighted Bidirectional Feature Pyramid Network, réseau pyramidal bidirectionnel pondéré). Contrairement à un FPN standard, le BiFPN permet une fusion de caractéristiques multi-échelles descendante et ascendante. Bien que cela se traduise par une grande efficacité des paramètres (faible nombre de FLOP), les modèles d'accès mémoire irréguliers du BiFPN peuvent ralentir considérablement l'inférence sur les GPU, ce qui le rend moins idéal pour les applications en temps réel malgré son efficacité théorique.

PP-YOLOE+: Détection sans ancres affinée

PP-YOLOE+ est une évolution de l'architecture PP-YOLOE, conçue par l'équipe de Baidu pour fonctionner spécifiquement sur le PaddlePaddle .

Ce modèle utilise un paradigme sans ancrage, qui élimine le besoin de boîtes d'ancrage prédéfinies. Il utilise une structure CSPRepResStage et une stratégie d'apprentissage par alignement de tâches (TAL) pour mieux aligner la classification et la localisation. La version « + » introduit spécifiquement une structure réduite (multiplicateur de largeur 0,75) et des stratégies d'entraînement améliorées, ce qui la rend plus compétitive dans le régime à faible paramètre.

Évolution architecturale

PP-YOLOE+ représente une évolution vers des architectures « reparamétrées » où les structures complexes utilisées pendant la phase d'apprentissage sont réduites à des blocs plus simples utilisés pendant la phase d'inférence. Cela contraste avec la complexité statique des graphes d'EfficientDet, offrant de meilleures vitesses de déploiement sur du matériel tel que NVIDIA TensorRT.

Méthodologies de formation et écosystème

Le choix du cadre détermine souvent la facilité de développement.

  • PP-YOLOE+ est étroitement lié au PaddlePaddle . Bien que puissant, les utilisateurs en dehors de cet écosystème peuvent rencontrer des difficultés lors de l'intégration avec des outils MLOps standard ou lors de la conversion de modèles pour des cibles de déploiement non natives.
  • EfficientDet s'appuie sur TensorFlow (plus précisément la bibliothèque AutoML). Bien que largement pris en charge, le référentiel a été moins fréquemment mis à jour que YOLO modernes, et la reproduction des résultats peut parfois nécessiter de naviguer dans des chaînes de dépendances héritées.

En revanche, les développeurs qui privilégient la facilité d'utilisation et un écosystème bien entretenu se tournent souvent vers Ultralytics. Ultralytics permet une formation transparente sur PyTorch, offrant des intégrations robustes avec des outils tels que Weights & Biases et des parcours clairs pour le déploiement de modèles.

Cas d'utilisation idéaux

Quand choisir EfficientDet

EfficientDet reste un choix pertinent pour la recherche universitaire où l'efficacité des paramètres est une contrainte stricte plutôt que la latence. On le trouve également dans les applications mobiles héritées (vers 2020) où les accélérateurs matériels spécifiques ont été optimisés pour les blocs de type MobileNet.

Quand choisir PP-YOLOE+

PP-YOLOE+ excelle dans les environnements où GPU est essentiel, tels que le contrôle qualité industriel ou le traitement vidéo côté serveur. Sa tête sans ancrage simplifie l'espace de recherche d'hyperparamètres par rapport aux anciennes méthodes basées sur l'ancrage.

Quand choisir Ultralytics ?

Pour les développeurs qui recherchent un équilibre entre vitesse et précision avec un minimum de frais d'ingénierie, Ultralytics tels que YOLO11 et le nouveau YOLO26 sont recommandés. Ces modèles offrent des exigences en mémoire réduites pendant l'entraînement par rapport aux détecteurs basés sur des transformateurs et offrent unegrande polyvalence, prenant en charge des tâches telles que l'estimation de la pose et la segmentation dès leur installation.

De plus, l'efficacité de l'entraînement Ultralytics est renforcée par des poids pré-entraînés facilement disponibles et une API simple qui évite le code standard complexe.

from ultralytics import YOLO

# Load the recommended YOLO26 model
model = YOLO("yolo26n.pt")

# Perform inference on an image
results = model("path/to/image.jpg")

En savoir plus sur YOLO26

La norme moderne : Ultralytics

Si PP-YOLOE+ et EfficientDet ont constitué des étapes importantes, le domaine a continué à progresser. Lancé en 2026, Ultralytics introduit des fonctionnalités révolutionnaires qui pallient les limites des architectures précédentes.

Conception de bout en bout sans NMS

Contrairement à EfficientDet et à la plupart YOLO qui nécessitent un post-traitement par suppression non maximale (NMS), YOLO26 est nativement de bout en bout. Cette conception, lancée pour la première fois dans YOLOv10, élimine la latence et la complexité associées à NMS, garantissant des vitesses d'inférence plus rapides et déterministes, essentielles pour l'IA en périphérie.

Optimisé pour l'Edge et le CPU

YOLO26 est conçu pour un déploiement à grande échelle. Il intègre la suppression DFL (Distribution Focal Loss), qui simplifie le graphe du modèle pour les formats d'exportation tels que ONNX CoreML. Associé à des optimisations qui accélèrent jusqu'à 43 % CPU , il constitue le choix idéal pour les appareils allant des Raspberry Pi aux téléphones mobiles.

Formation avancée avec MuSGD et ProgLoss

Empruntant des innovations à la formation des grands modèles linguistiques (LLM), YOLO26 utilise l'optimiseur MuSGD, un hybride de SGD Muon. Il en résulte une dynamique de formation plus stable et une convergence plus rapide. De plus, l'introduction de ProgLoss et STAL (Soft Task Alignment Learning) améliore considérablement la détection des petits objets, un point faible courant dans les détecteurs antérieurs tels que EfficientDet-d0.

Spécificité des tâches

YOLO26 ne sert pas uniquement à délimiter des cadres. Il comprend des améliorations spécifiques à certaines tâches, telles que l'estimation de la vraisemblance résiduelle (RLE) pour une estimation très précise de la pose et une perte d'angle spécialisée pour les tâches OBB (Oriented Bounding Box), garantissant une détection précise des objets pivotés dans les images aériennes.

Conclusion

PP-YOLOE+ et EfficientDet offrent tous deux des avantages uniques en fonction des contraintes spécifiques du matériel et des préférences en matière d'infrastructure. EfficientDet prouve que la mise à l'échelle composée est un concept théorique puissant, tandis que PP-YOLOE+ démontre les avantages pratiques en termes de vitesse des architectures sans ancrage et reparamétrées sur les GPU.

Cependant, pour une solution holistique alliant précision de pointe, facilité de déploiement et communauté dynamique, Ultralytics s'impose comme le choix numéro un. Grâce à son architecture de bout en bout NMS et à sa prise en charge native de la Ultralytics , il permet aux développeurs de passer du concept à la production avec une efficacité inégalée.

Pour explorer d'autres options hautes performances, consultez la documentation relative à YOLO11 ou YOLOv10.


Commentaires