Passer au contenu

YOLO11 vs PP-YOLOE+ : Comparaison technique détaillée

Le choix de l'architecture optimale de détection d'objets est une décision cruciale qui influe sur la vitesse, la précision et la faisabilité du déploiement des projets de vision par ordinateur. Ce guide fournit une comparaison technique approfondie entre Ultralytics YOLO11le dernier modèle de pointe d'Ultralytics, et PP-YOLOE+, un détecteur robuste issu de l'écosystème PaddlePaddle de Baidu. Bien que les deux modèles offrent des performances élevées, YOLO11 se distingue par son efficacité de calcul exceptionnelle, l'intégration transparente de PyTorch et un écosystème complet conçu pour accélérer le développement des chercheurs et des ingénieurs.

Ultralytics YOLO11: l'efficacité au service de la polyvalence

YOLO11 représente la dernière évolution de la célèbre série YOLO (You Only Look Once), lancée par Ultralytics pour repousser les limites de la détection d'objets en temps réel. Conçu par Glenn Jocher et Jing Qiu, ce modèle affine l'architecture sans ancrage pour offrir une précision supérieure avec une surcharge de calcul considérablement réduite.

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHubultralytics
Docsyolo11

Architecture et points forts

YOLO11 utilise un réseau rationalisé qui optimise l'extraction et la fusion des caractéristiques. Contrairement aux détecteurs traditionnels basés sur l'ancrage qui s'appuient sur des boîtes prédéfinies, YOLO11 prédit directement les centres et les échelles des objets. Cette approche simplifie la tête du modèle et réduit le nombre d'hyperparamètres nécessaires au réglage.

L'architecture du modèle est très polyvalente et prend en charge un large éventail de tâches de vision par ordinateur au-delà de la simple détection. Il gère nativement la segmentation d'instances, l'estimation de la pose, la classification d'images et les boîtes de délimitation orientées (OBB), le tout dans un cadre unique et unifié.

Expérience des développeurs

L'un des avantages les plus significatifs de YOLO11 est son intégration dans le système d'information de la Commission européenne. ultralytics Paquet Python . Il fournit une API cohérente pour l'entraînement, la validation et le déploiement, permettant aux développeurs de passer d'une tâche à l'autre ou d'exporter des modèles dans des formats tels que ONNX et TensorRT avec une seule ligne de code.

Principaux avantages

  • Équilibre supérieur des performances : YOLO11 réalise un compromis inégalé dans l'industrie entre mAP et la latence d'inférence, ce qui le rend adapté aux applications en temps réel sur les appareils périphériques.
  • Efficacité de calcul : Le modèle nécessite moins de paramètres et de FLOP (Floating Point Operations) par rapport à des concurrents comme PP-YOLOE+, ce qui se traduit par une exécution plus rapide et une consommation d'énergie plus faible.
  • Faible empreinte mémoire : Optimisé pour une utilisation efficace de la mémoire, YOLO11 s'entraîne plus rapidement et peut fonctionner sur du matériel doté d'une VRAM limitée, contrairement aux modèles de transformateurs gourmands en ressources.
  • Un écosystème solide : Les utilisateurs bénéficient d'une maintenance active, d'une documentation complète et du soutien de la communauté, ce qui garantit la viabilité à long terme des projets d'entreprise.

En savoir plus sur YOLO11

PP-YOLOE+ : Haute précision dans l'écosystème PaddlePaddle

PP-YOLOE+ est une évolution de la série YOLO développée par les chercheurs de Baidu. Sorti en 2022, il fait partie de la boîte à outils PaddleDetection et est conçu pour fonctionner efficacement dans le cadre d'apprentissage profond PaddlePaddle .

Auteurs : PaddlePaddle Auteurs
Organisation:Baidu
Date : 2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
Docs:PaddleDetection Documentation

Architecture et fonctionnalités

PP-YOLOE+ utilise une épine dorsale CSPRepResNet et une tête alignée sur les tâches (ET-Head). Il intègre l'attribution dynamique d'étiquettes via l'apprentissage de l'alignement des tâches (TAL) et utilise la perte varifocale pour améliorer la qualité de la classification des objets. Le modèle est optimisé spécifiquement pour le moteur d'inférence PaddlePaddle , en tirant parti de l'intégration de TensorRT pour le déploiement.

Points forts et limites

Alors que PP-YOLOE+ offre une précision compétitive sur des benchmarks tels que COCOil se heurte à des obstacles à l'adoption en raison de sa dépendance à l'égard du cadre de travail. La majeure partie de la communauté mondiale des chercheurs s'appuie sur PyTorchce qui fait du passage à PaddlePaddle une source de friction. En outre, les modèles PP-YOLOE+ nécessitent généralement un plus grand nombre de paramètres pour atteindre la précision des architectures plus récentes comme YOLO11, ce qui entraîne une augmentation des coûts de calcul à la fois pendant l'apprentissage et l'inférence.

En savoir plus sur PP-YOLOE+

Analyse des performances : Efficacité et rapidité

Une comparaison directe des mesures de performance révèle que YOLO11 surpasse systématiquement PP-YOLOE+ en termes d'efficacité et de vitesse, tout en conservant une précision de pointe.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Observations critiques

  1. Dominance de l'efficacité : L'efficacité des paramètres de YOLO11 est frappante. Par exemple, YOLO11x atteint un mAP 54,7 par rapport à PP-YOLOE+x, mais il le fait avec seulement 56,9 millions de paramètres contre 98,42 millions. Cela signifie que YOLO11x est plus petit d'environ 42 %, ce qui facilite le déploiement sur des appareils à capacité de stockage limitée.
  2. Vitesse d'inférence : dans les scénarios de déploiement réels, la vitesse est cruciale. YOLO11n offre un temps d'inférence incroyable de 1,5 ms sur un GPU T4, ce qui est nettement plus rapide que les 2,84 ms de la solution comparable PP-YOLOE+t. Cet avantage en termes de vitesse permet un traitement plus rapide des images dans des applications telles que les véhicules autonomes et la robotique.
  3. Performance de lCPU : La disponibilité de benchmarks CPU optimisés pour YOLO11 met en évidence sa flexibilité. Atteindre 56,1 ms sur le CPU avec YOLO11n permet des applications temps réel viables même sans accélération GPU dédiée, une métrique souvent absente ou moins optimisée dans les frameworks concurrents.

Cas d'utilisation concrets

Les avantages architecturaux de YOLO11 se traduisent directement par des avantages pour diverses industries.

  • Infrastructure de ville intelligente : Le débit élevé de YOLO11 permet de surveiller le trafic en temps réel et d'analyser les embouteillages sur plusieurs flux de caméras en utilisant moins de serveurs.
  • Fabrication industrielle : Avec une précision supérieure et des temps de latence réduits, YOLO11 excelle dans le contrôle de la qualité et la détection des défauts sur les lignes d'assemblage à grande vitesse.
  • Analyse de la vente au détail : La capacité du modèle à gérer efficacement le comptage d'objets et la génération de cartes thermiques permet aux détaillants d'optimiser l'agencement des magasins et la gestion des stocks.
  • Imagerie médicale : La polyvalence de la segmentation facilite l'analyse précise des images médicales, comme l'identification des tumeurs ou l'analyse des structures cellulaires.

Formation et intégration des écosystèmes

La facilité avec laquelle les développeurs peuvent former et déployer des modèles est un facteur de différenciation majeur. L'écosystème Ultralytics est construit autour de la simplification du parcours de l'utilisateur.

Flux de travail rationalisé

L'entraînement d'un modèle YOLO11 sur un ensemble de données personnalisé nécessite un minimum de code. Le cadre gère automatiquement les tâches complexes telles que l'augmentation des données, l'évolution des hyperparamètres et l'entraînement GPU .

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

En revanche, l'utilisation de PP-YOLOE+ implique souvent de naviguer dans les complexités de l'écosystème PaddlePaddle , des fichiers de configuration et des scripts de conversion potentiels si le pipeline de données d'origine est PyTorch.

Flexibilité du déploiement

Ultralytics fournit des modes d'exportation intégrés pour une vaste gamme de formats, notamment ONNX, OpenVINO, CoreML et TFLite. Cela garantit qu'un modèle formé une fois peut être déployé n'importe où, qu'il s'agisse d'un appareil NVIDIA Jetson edge, d'un smartphone iOS ou d'une API dans le nuage.

Conclusion

Alors que PP-YOLOE+ reste un modèle capable dans le contexte de l'écosystème de Baidu, Ultralytics YOLO11 d'Ultralytics s'impose comme le meilleur choix pour l'ensemble de la communauté de la vision par ordinateur. Sa combinaison d'un nombre de paramètres nettement inférieur, de vitesses d'inférence plus rapides et d'une convivialité PyTorch élimine les barrières à l'entrée et accélère la mise sur le marché.

Pour les développeurs à la recherche d'une solution à l'épreuve du temps qui concilie performances de pointe et facilité d'utilisation, YOLO11 constitue une plateforme robuste, polyvalente et très efficace pour créer la prochaine génération d'applications d'IA.

Explorer d'autres modèles

Si vous souhaitez explorer d'autres architectures au sein de l'écosystème Ultralytics , prenez en compte ces comparaisons :


Commentaires