YOLO11 vs YOLOv5 : Une évolution technique dans la détection d'objets
Choisir le bon modèle de détection d'objets est une décision cruciale qui équilibre le besoin de précision, de vitesse et de facilité de déploiement. Cette page offre une comparaison technique complète entre deux modèles phares d'Ultralytics : le Ultralytics YOLO11 de pointe et le Ultralytics YOLOv5 largement adopté. Alors que YOLOv5 a établi une norme industrielle pour ses performances et sa convivialité, YOLO11 représente la prochaine étape évolutive, offrant une précision supérieure, une polyvalence accrue et les dernières innovations architecturales, le tout au sein de l'écosystème Ultralytics robuste et convivial.
Ultralytics YOLO11 : La nouvelle référence
YOLO11, créé par Glenn Jocher et Jing Qiu, est le modèle le plus récent et le plus avancé de la série Ultralytics YOLO. Sorti en 2024, il s'appuie sur les bases solides de ses prédécesseurs comme YOLOv8 pour établir une nouvelle référence en matière de performances et d'efficacité. Il est conçu non seulement pour la détection d'objets, mais aussi comme un cadre complet pour une multitude de tâches de vision par ordinateur.
- Auteurs : Glenn Jocher, Jing Qiu
- Organisation : Ultralytics
- Date : 2024-09-27
- GitHub : https://github.com/ultralytics/ultralytics
- Docs : https://docs.ultralytics.com/models/yolo11/
Architecture et principales fonctionnalités
YOLO11 introduit d'importantes améliorations architecturales, notamment une head de détection sans ancres et une structure de réseau optimisée. Ce choix de conception moderne simplifie le processus d'entraînement en éliminant le besoin de prédéfinir des boîtes d'ancrage, ce qui permet une meilleure généralisation sur divers ensembles de données. Le modèle atteint une précision moyenne (mAP) plus élevée que YOLOv5 avec moins de paramètres et d'exigences de calcul (FLOPs) dans de nombreux cas, ce qui démontre une efficacité supérieure.
Une caractéristique remarquable de YOLO11 est sa polyvalence. Il s'agit d'un framework unifié qui prend nativement en charge la détection d'objets, la segmentation d'instance, la classification d'images, l'estimation de pose et les boîtes englobantes orientées (OBB). Cette capacité multitâche en fait un outil incroyablement puissant et flexible pour les systèmes d'IA complexes.
Points forts
- Précision à la pointe de la technologie : Fournit des scores mAP significativement plus élevés par rapport à YOLOv5, établissant une nouvelle norme de performance.
- Haute efficacité : Atteint une meilleure précision avec une architecture plus efficace, nécessitant souvent moins de paramètres et d’opérations en virgule flottante par seconde (FLOPs).
- Conception sans ancres : Simplifie l'entraînement et améliore les performances en supprimant la dépendance à la configuration des boîtes d'ancrage.
- Polyvalence multi-tâches : Un cadre unique pour un large éventail de tâches de vision, rationalisant le développement d'applications à multiples facettes.
- Écosystème bien maintenu : Bénéficie d'un développement continu, d'une documentation exhaustive, d'un fort soutien de la communauté et d'une intégration transparente avec des outils tels que Ultralytics HUB pour le MLOps.
- Efficacité de l'entraînement : Offre des processus d'entraînement efficaces avec des poids pré-entraînés facilement disponibles et nécessite généralement une utilisation de la mémoire inférieure à celle des architectures plus complexes comme les transformateurs.
Faiblesses
- En tant que modèle de pointe, les variantes plus grandes de YOLO11 peuvent être gourmandes en calcul et nécessiter un matériel GPU moderne pour des performances optimales.
Cas d'utilisation idéaux
YOLO11 est le choix idéal pour les nouveaux projets qui exigent une précision et une flexibilité maximales :
- Robotique avancée : Pour une interaction précise avec les objets et la navigation dans des environnements dynamiques.
- Automatisation industrielle : Contrôle qualité et détection de défauts de haute précision.
- Soins de santé : Aide à l’analyse d’images médicales pour des tâches telles que la détection de tumeurs.
- Villes intelligentes : Alimenter des systèmes complexes pour la gestion du trafic et la sécurité publique.
YOLOv5 : L'outil établi et polyvalent
Lancé en 2020 par Glenn Jocher chez Ultralytics, YOLOv5 est rapidement devenu l'un des modèles de détection d'objets les plus populaires au monde. Il est reconnu pour son équilibre exceptionnel entre vitesse et précision, sa facilité d'utilisation et son implémentation robuste et bien documentée dans PyTorch.
- Auteur : Glenn Jocher
- Organisation : Ultralytics
- Date : 2020-06-26
- GitHub : https://github.com/ultralytics/yolov5
- Documentation : https://docs.ultralytics.com/models/yolov5/
Architecture et principales fonctionnalités
YOLOv5 utilise une architecture basée sur un backbone CSPDarknet53 et un neck PANet pour une agrégation efficace des caractéristiques. Sa tête de détection est basée sur des ancres, ce qui était une approche standard et efficace au moment de sa sortie. L'une des plus grandes forces de YOLOv5 est son évolutivité, offrant une gamme de modèles allant de la minuscule version 'n' (nano) à la grande version 'x' (extra-large), permettant aux développeurs de facilement arbitrer entre vitesse et précision.
Points forts
- Vitesse d'inférence exceptionnelle : Hautement optimisé pour les performances en temps réel, ce qui en fait un choix de prédilection pour les applications sur des appareils périphériques comme NVIDIA Jetson.
- Facilité d'utilisation : Reconnu pour son API simple, ses tutoriels exhaustifs et ses flux de travail d'entraînement et de déploiement simplifiés.
- Écosystème mature : Soutenu par une communauté massive, des années de développement actif et d’innombrables déploiements réels, garantissant la stabilité et la fiabilité.
- Flexibilité : La large gamme de tailles de modèles le rend adaptable à presque toutes les contraintes matérielles.
Faiblesses
- Précision inférieure : bien qu’elle reste puissante, sa précision est dépassée par les modèles plus récents comme YOLO11.
- Détection basée sur les ancres : Repose sur des boîtes d'ancrage prédéfinies, ce qui peut parfois nécessiter un réglage manuel pour des performances optimales sur les ensembles de données personnalisés par rapport aux détecteurs sans ancres modernes.
Cas d'utilisation idéaux
YOLOv5 reste un excellent choix pour des scénarios spécifiques :
- Edge Computing : Déploiement sur des appareils aux ressources limitées comme un Raspberry Pi où la vitesse d’inférence est la priorité absolue.
- Prototypage rapide : Sa simplicité et sa rapidité le rendent parfait pour créer et tester rapidement des applications de validation de concept.
- Systèmes existants : Maintien ou mise à jour des projets existants basés sur le framework YOLOv5.
- Surveillance en temps réel : Alimente les systèmes de sécurité où un FPS élevé est crucial.
Performances et analyses comparatives : YOLO11 vs. YOLOv5
Les mesures de performance illustrent clairement l'évolution de YOLOv5 à YOLO11. Sur le jeu de données COCO, les modèles YOLO11 atteignent systématiquement des scores mAP plus élevés que leurs homologues YOLOv5 de taille similaire. Par exemple, YOLO11m atteint 51,5 mAP, surpassant significativement les 45,4 mAP de YOLOv5m. De plus, YOLO11 le fait souvent avec une plus grande efficacité de calcul. Notamment, le plus petit modèle, YOLO11n, est plus rapide sur CPU que YOLOv5n tout en offrant une augmentation massive de 11,5 points du mAP.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Conclusion : Quel modèle devriez-vous choisir ?
Le choix entre YOLO11 et YOLOv5 dépend des besoins spécifiques de votre projet.
YOLOv5 est un modèle éprouvé, fiable et incroyablement rapide. Elle reste une option fantastique pour les applications où la vitesse est la priorité absolue, en particulier sur du matériel plus ancien ou aux ressources limitées. Sa maturité et le vaste soutien de la communauté fournissent une base stable pour de nombreux projets.
Cependant, pour presque tous les nouveaux projets, YOLO11 est le choix clair et recommandé. Il représente un bond en avant significatif, offrant une précision de pointe, une efficacité supérieure et une polyvalence inégalée. Son architecture sans ancrage et sa prise en charge native de multiples tâches de vision en font une solution plus puissante, flexible et pérenne. En choisissant YOLO11, les développeurs tirent parti des dernières avancées en matière d'IA pour construire des applications de vision par ordinateur plus performantes et précises, tout en bénéficiant de l'écosystème Ultralytics rationalisé et bien entretenu.
Explorer d’autres comparaisons de modèles
Si vous souhaitez savoir comment ces modèles se comparent à d'autres architectures de pointe, consultez nos autres pages de comparaison :