YOLO26 vs YOLO11 : Une comparaison technique pour les ingénieurs en vision par ordinateur
Le paysage de la détection d'objets en temps réel et de la vision par ordinateur continue d'évoluer rapidement. Ultralytics reste à l'avant-garde de cette évolution, repoussant constamment les limites de la vitesse, de la précision et de la facilité d'utilisation. Cette comparaison technique explore les avancées architecturales, les métriques de performance et les cas d'utilisation idéaux pour YOLO26 et YOLO11, aidant ainsi les développeurs et les chercheurs à sélectionner le modèle optimal pour leurs besoins de déploiement.
Résumé
YOLO26, lancé en janvier 2026, représente l'état de l'art (SOTA) le plus récent de la famille YOLO. Il introduit une architecture nativement de bout en bout (sans NMS), simplifiée pour le déploiement en périphérie et optimisée pour les performances CPU. YOLO11, son prédécesseur de septembre 2024, reste une option puissante et robuste, bien que YOLO26 le surpasse en vitesse d'inférence, en particulier sur le matériel non-GPU, et en simplicité architecturale.
Pour la plupart des nouveaux projets, YOLO26 est le choix recommandé en raison de son compromis vitesse-précision supérieur et de son pipeline de déploiement simplifié.
Évolution architecturale
La transition de YOLO11 à YOLO26 implique des changements structurels significatifs visant à réduire la latence et la complexité tout en maintenant une grande précision.
YOLO26 : Simplifié et de bout en bout
YOLO26 marque un changement de paradigme en adoptant une conception nativement de bout en bout. Contrairement aux modèles YOLO traditionnels qui reposent sur la suppression non maximale (NMS) pour filtrer les boîtes englobantes qui se chevauchent, YOLO26 élimine entièrement cette étape. Cette avancée, pionnière dans YOLOv10, simplifie le pipeline de déploiement et réduit la latence d'inférence, ce qui la rend particulièrement avantageuse pour les applications en temps réel.
Les innovations architecturales clés de YOLO26 incluent :
- Suppression du DFL : Le module Distribution Focal Loss (DFL) a été supprimé. Cette simplification améliore la compatibilité avec les appareils périphériques et accélère l'exportation vers des formats comme ONNX et TensorRT en supprimant les opérations mathématiques complexes qui peuvent ralentir les processeurs à faible puissance.
- Optimiseur MuSGD : Inspiré par les techniques d'entraînement des grands modèles de langage (LLM), YOLO26 utilise un optimiseur hybride combinant SGD et Muon (de Kimi K2 de Moonshot AI). Cela se traduit par une dynamique d'entraînement plus stable et une convergence plus rapide.
- ProgLoss + STAL : L'équilibrage progressif des pertes (ProgLoss) et l'attribution d'étiquettes sensibles aux petites cibles (STAL) améliorent considérablement les performances sur les petits objets, un facteur critique pour l'imagerie par drone et la télédétection.
YOLO11 : Le prédécesseur robuste
YOLO11 s'appuie sur les modules C3k2 et SPPF (Spatial Pyramid Pooling - Fast) pour offrir une grande efficacité. Il utilise un bloc C2PSA raffiné avec des mécanismes d'attention pour améliorer l'extraction des caractéristiques. Bien que très efficace, sa dépendance au post-traitement NMS introduit une légère surcharge computationnelle lors de l'inférence par rapport à l'approche de bout en bout de YOLO26.
Pourquoi le bout en bout est important
La suppression du NMS dans YOLO26 signifie que la sortie du modèle nécessite moins de code de post-traitement. Cela réduit le risque de bugs de déploiement et assure une latence constante, car le temps d'inférence ne fluctue pas en fonction du nombre d'objets détectés.
Bancs d'essai de performance
Le tableau suivant met en évidence les différences de performance entre les deux modèles sur le jeu de données COCO. YOLO26 démontre des avantages clairs en termes de précision (mAP) et de vitesse d'inférence CPU.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Analyse des métriques
- Vitesse d'inférence CPU : YOLO26n est environ 43 % plus rapide sur CPU que YOLO11n (38,9 ms contre 56,1 ms). Cela fait de YOLO26 le choix supérieur pour les déploiements sur Raspberry Pi, les appareils mobiles et les CPU standards.
- Précision (mAP) : À toutes les échelles, YOLO26 atteint systématiquement une précision moyenne (Mean Average Precision) plus élevée. Le modèle 'nano' enregistre un saut significatif de 39,5 à 40,9 mAP, offrant une meilleure qualité de détection à des vitesses supérieures.
- Efficacité du modèle : YOLO26 nécessite généralement moins de paramètres et de FLOPs pour de meilleures performances, illustrant les gains d'efficacité résultant de l'élagage architectural et de la suppression de la tête DFL.
Entraînement et Optimisation
Les deux modèles bénéficient de l'écosystème robuste d'Ultralytics, rendant l'entraînement accessible et efficace.
- Facilité d'utilisation : YOLO26 et YOLO11 partagent la même API Python unifiée et interface CLI. Basculer entre eux est aussi simple que de changer la chaîne du modèle de
yolo11n.ptàyolo26n.pt. - Efficacité de l'entraînement : L'optimiseur MuSGD de YOLO26 aide à stabiliser les exécutions d'entraînement, réduisant potentiellement le nombre d'époques nécessaires pour atteindre la convergence. Cela permet d'économiser sur les coûts de calcul et le temps, en particulier pour les grands ensembles de données comme ImageNet.
- Exigences de mémoire : Les modèles Ultralytics sont reconnus pour leur faible empreinte mémoire par rapport aux alternatives basées sur des transformeurs. YOLO26 optimise davantage cela en supprimant les calculs de tête redondants, permettant des tailles de lot plus importantes sur les GPU grand public.
Exemple d'entraînement
Voici comment vous pouvez entraîner le dernier modèle YOLO26 à l'aide du package Python Ultralytics :
from ultralytics import YOLO
# Load the YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Polyvalence des tâches et cas d'utilisation
Les deux familles de modèles prennent en charge un large éventail de tâches de vision par ordinateur, y compris la détection, la segmentation, la classification, l'estimation de pose et la détection d'objets orientés (OBB).
Cas d'utilisation idéaux pour YOLO26
- Informatique en périphérie (Edge Computing) : Avec des vitesses CPU jusqu'à 43 % plus rapides, YOLO26 est parfait pour les appareils IoT, les caméras intelligentes et les applications mobiles où les ressources GPU sont indisponibles.
- Détection de petits objets : Grâce à ProgLoss et STAL, YOLO26 excelle dans des scénarios tels que la surveillance aérienne, l'inspection qualité et l'imagerie médicale où la détection de détails minimes est cruciale.
- Robotique en temps réel : La conception sans NMS assure une latence déterministe, critique pour les boucles de contrôle dans la navigation autonome et la manipulation robotique.
Cas d'utilisation idéaux pour YOLO11
- Systèmes hérités : Pour les flux de travail déjà optimisés pour les architectures YOLO11 ou lorsque des pipelines de post-traitement spécifiques sont codés en dur autour des sorties NMS, YOLO11 reste un choix stable et pris en charge.
- Inférence GPU à usage général : Sur les GPU puissants des centres de données (comme le T4), YOLO11 offre des performances compétitives, ce qui le rend adapté au traitement par lots côté serveur où la latence CPU est moins préoccupante.
Écosystème et support
L'un des plus grands avantages de l'utilisation des modèles Ultralytics est l'écosystème qui les entoure. YOLO26 et YOLO11 sont tous deux entièrement intégrés à la Plateforme Ultralytics, permettant une gestion, une visualisation et un déploiement fluides des modèles.
- Documentation : Des guides complets couvrent tout, de l'annotation de données à l'exportation de modèles.
- Communauté : Une communauté dynamique sur GitHub et Discord garantit aux développeurs l'accès à du support et à des connaissances partagées.
- Intégrations : Les deux modèles prennent en charge l'exportation facile vers des formats comme ONNX, OpenVINO et TensorRT, facilitant le déploiement dans divers environnements matériels.
Conclusion
Bien que YOLO11 reste un modèle très performant, YOLO26 représente un bond significatif en avant en termes d'efficacité et de simplicité architecturale. Sa conception de bout en bout, sa latence CPU réduite et sa précision améliorée sur les petits objets en font le choix supérieur pour les applications de vision par ordinateur modernes. Que vous déployiez en périphérie ou que vous entraîniez sur le cloud, YOLO26 offre le meilleur équilibre entre performance et convivialité disponible aujourd'hui.
Détails du modèle
YOLO26
Auteur : Glenn Jocher et Jing Qiu
Organisation : Ultralytics
Date : 2026-01-14
GitHub | Docs
YOLO11
Auteur : Glenn Jocher et Jing Qiu
Organisation : Ultralytics
Date : 2024-09-27
GitHub | Docs
Les développeurs à la recherche d'autres options pourraient également explorer YOLOv10 pour des concepts de bout en bout antérieurs ou YOLO-World pour les tâches de détection à vocabulaire ouvert.