YOLO11 vs YOLOv6-3.0 : Une comparaison détaillée des modèles
Choisir le bon modèle de vision par ordinateur est crucial pour obtenir des performances optimales dans les tâches de détection d'objets. Cette page fournit une comparaison technique entre Ultralytics YOLO11 et YOLOv6-3.0, en se concentrant sur leurs architectures, leurs mesures de performance, leurs méthodologies d'entraînement et leurs cas d'utilisation idéaux afin de vous aider à choisir la solution la mieux adaptée à votre projet. Bien que les deux soient des détecteurs puissants, YOLO11 se distingue comme une solution plus polyvalente, efficace et conviviale, intégrée dans un écosystème complet et activement maintenu.
Ultralytics YOLO11
Auteurs : Glenn Jocher et Jing Qiu
Organisation : Ultralytics
Date : 2024-09-27
GitHub : https://github.com/ultralytics/ultralytics
Docs : https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 est le dernier modèle de pointe d’Ultralytics, représentant la plus récente évolution de la série YOLO. Sorti en septembre 2024, il s’appuie sur les versions précédentes telles que YOLOv8 avec des améliorations architecturales visant à améliorer à la fois la vitesse et la précision. YOLO11 est conçu pour offrir des performances et une efficacité supérieures dans un large éventail de tâches de vision par ordinateur, notamment la détection d’objets, la segmentation d’instances, la classification d’images, l’estimation de pose et les boîtes englobantes orientées (OBB).
Architecture et principales fonctionnalités
YOLO11 dispose d'une architecture optimisée qui permet d'atteindre un équilibre affiné entre la taille du modèle, la vitesse d'inférence et la précision. Les principales améliorations comprennent des couches d'extraction de caractéristiques améliorées et une structure de réseau simplifiée, ce qui minimise la surcharge de calcul. Cette conception garantit des performances efficaces sur divers matériels, des appareils périphériques aux serveurs cloud. En tant que détecteur sans ancres, YOLO11 simplifie le processus de détection et améliore souvent la généralisation, ce qui en fait un choix plus moderne et plus efficace.
Points forts
- Équilibre supérieur des performances : Atteint des scores mAP plus élevés avec moins de paramètres par rapport à de nombreux concurrents, offrant un excellent compromis entre la vitesse et la précision, comme le montre le tableau de performances ci-dessous.
- Polyvalence : Prend en charge plusieurs tâches de vision au sein d'un framework unique et unifié, offrant une solution complète qui va bien au-delà de la simple détection d'objets. Il s'agit d'un avantage significatif par rapport aux modèles à tâche unique comme YOLOv6.
- Facilité d'utilisation : Bénéficie de l'écosystème Ultralytics simplifié, comprenant une API Python simple, une documentation exhaustive et des poids pré-entraînés facilement disponibles.
- Écosystème bien maintenu : Développé et pris en charge activement par Ultralytics, avec des mises à jour fréquentes, un fort soutien de la communauté via GitHub et Discord, et une intégration transparente avec Ultralytics HUB pour la formation et le déploiement sans code.
- Efficacité de l'entraînement : Offre des processus d'entraînement très efficaces, nécessitant souvent moins de mémoire que d'autres architectures comme les modèles basés sur des transformateurs, qui sont plus lents à entraîner et plus gourmands en ressources.
Faiblesses
- Nouveau modèle : En tant que dernière version, le volume de tutoriels communautaires et d’outils tiers est encore en pleine croissance par rapport aux modèles plus établis comme YOLOv5.
- Détection de petits objets : Comme la plupart des détecteurs à une étape, peut rencontrer des difficultés avec les objets extrêmement petits par rapport aux détecteurs spécialisés à deux étapes, bien qu’il offre toujours des performances robustes dans la plupart des scénarios.
Cas d'utilisation idéaux
Le mélange de précision, de vitesse et de polyvalence de YOLO11 le rend idéal pour un large éventail d'applications modernes :
- Applications en temps réel nécessitant une haute précision (par exemple, les systèmes autonomes, la robotique).
- Scénarios multi-tâches nécessitant la détection, la segmentation et l'estimation de pose simultanément, comme dans les systèmes de sécurité avancés.
- Déploiement sur diverses plateformes, des appareils périphériques aux ressources limitées (NVIDIA Jetson, Raspberry Pi) à la puissante infrastructure infonuagique.
- Applications dans la sécurité, le commerce de détail, la santé et la fabrication.
YOLOv6-3.0
Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation : Meituan
Date : 2023-01-13
Arxiv : https://arxiv.org/abs/2301.05586
GitHub : https://github.com/meituan/YOLOv6
Docs : https://docs.ultralytics.com/models/yolov6/
YOLOv6-3.0, développé par Meituan, est un framework de détection d'objets conçu principalement pour les applications industrielles. Lancé début 2023, il visait à fournir un équilibre entre la vitesse et la précision, adapté aux scénarios de déploiement réels de l'époque.
Architecture et principales fonctionnalités
YOLOv6 a introduit des modifications architecturales telles qu'un backbone et une conception de neck efficaces. La version 3.0 a affiné davantage ces éléments et intégré des techniques telles que l'auto-distillation pendant l'entraînement afin d'améliorer les performances. Il propose également des modèles spécifiques optimisés pour le déploiement mobile (YOLOv6Lite), ce qui témoigne de son intérêt pour les optimisations spécifiques au matériel.
Points forts
- Bon compromis vitesse-précision : Offre des performances compétitives, en particulier pour les tâches de détection d'objets industrielles où la vitesse est une préoccupation majeure.
- Prise en charge de la quantification : Fournit des outils et des tutoriels pour la quantification de modèle, ce qui est bénéfique pour le déploiement sur du matériel doté de ressources limitées.
- Optimisation mobile : Inclut les variantes YOLOv6Lite spécialement conçues pour l'inférence mobile ou basée sur le CPU.
Faiblesses
- Polyvalence limitée : Principalement axé sur la détection d'objets, il ne prend pas en charge nativement la segmentation, la classification ou l'estimation de pose que l'on retrouve dans le framework complet Ultralytics YOLO11. Cela limite son applicabilité dans les projets d'IA modernes et multifacettes.
- Écosystème et maintenance : Bien qu'il soit open source, l'écosystème n'est ni aussi complet ni aussi activement maintenu que la plateforme Ultralytics. Cela peut entraîner des mises à jour plus lentes, moins d'intégrations et un soutien communautaire moindre pour les développeurs.
- Utilisation plus importante des ressources : Comme le montre le tableau ci-dessous, les modèles YOLOv6 plus volumineux peuvent avoir beaucoup plus de paramètres et de FLOP que les équivalents YOLO11 pour une mAP similaire, ce qui peut nécessiter davantage de ressources de calcul pour l’entraînement et le déploiement.
Cas d'utilisation idéaux
YOLOv6-3.0 est adapté pour :
- Applications industrielles où la vitesse de détection d'objets est le facteur le plus critique.
- Scénarios de déploiement tirant parti de la quantification ou nécessitant des modèles optimisés pour les systèmes existants.
- Projets qui sont exclusivement axés sur la détection d'objets et qui ne nécessitent pas de capacités multi-tâches.
Comparaison des performances : YOLO11 vs YOLOv6-3.0
Le tableau suivant fournit une comparaison détaillée des performances entre les modèles YOLO11 et YOLOv6-3.0 sur le jeu de données COCO.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Les données montrent clairement que les modèles YOLO11 atteignent systématiquement des scores mAP plus élevés que leurs homologues YOLOv6-3.0 à des échelles similaires, tout en utilisant beaucoup moins de paramètres et de FLOPs. Par exemple, YOLO11m surpasse YOLOv6-3.0m en précision (51,5 contre 50,0 mAP) avec près de la moitié des paramètres (20,1M contre 34,9M). Cette efficacité supérieure fait de YOLO11 une solution plus puissante et plus rentable pour le déploiement. Bien que YOLOv6-3.0n montre une inférence GPU très rapide, YOLO11 offre un bien meilleur équilibre global entre la précision, la taille du modèle et la polyvalence.
Conclusion et recommandation
Bien que YOLOv6-3.0 ait été un contributeur solide dans le domaine de la détection d'objets, Ultralytics YOLO11 est le grand gagnant pour les développeurs et les chercheurs à la recherche d'une solution de vision par ordinateur à la fois moderne, polyvalente et efficace.
YOLO11 offre non seulement une plus grande précision avec moins de ressources de calcul, mais étend également ses capacités à un large éventail de tâches, notamment la segmentation, la classification et l'estimation de pose, au sein d'un cadre unique et facile à utiliser. L'écosystème Ultralytics robuste et activement maintenu, avec sa documentation complète, son support communautaire et des outils comme Ultralytics HUB, assure une expérience de développement et de déploiement fluide.
Pour tout nouveau projet, YOLO11 est le choix recommandé. Pour ceux qui s'intéressent à d'autres architectures modernes, l'exploration de comparaisons avec des modèles tels que YOLOv10 ou RT-DETR peut également fournir des informations précieuses.