YOLOv10 YOLO26 : l'évolution de la détection d'objets de bout en bout
Le domaine de la vision par ordinateur a connu des avancées remarquables ces dernières années, passant d'architectures complexes nécessitant un post-traitement intensif à des modèles rationalisés de bout en bout. Cette comparaison technique se penche sur deux étapes majeures de cette évolution : la percée académique de YOLOv10 le modèle YOLO26, à la pointe de la technologie et prêt à l'emploi en entreprise. En examinant leurs architectures, leurs méthodologies de formation et leurs capacités de déploiement dans le monde réel, les développeurs peuvent prendre des décisions éclairées lors de la création de leur prochaine application d'IA visuelle.
YOLOv10: pionnier de la détection d'objets de bout en bout
Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation : Université Tsinghua
Date : 23 mai 2024
Liens : Article arXiv | Référentiel GitHub
Sorti mi-2024, YOLOv10 une avancée significative dans la recherche universitaire en vision par ordinateur en s'attaquant à l'un des goulots d'étranglement les plus persistants dans la détection d'objets en temps réel : la suppression non maximale (NMS). Les détecteurs d'objets traditionnels s'appuyaient fortement sur NMS filtrer les boîtes englobantes redondantes, ce qui ajoutait une latence variable pendant l'inférence et compliquait le déploiement en périphérie.
L'équipe de l'université Tsinghua a introduit une stratégie d'affectation double cohérente pour la formation NMS. Cela a permis au modèle de prédire avec précision les cadres de sélection sans nécessiter d'étape de filtrage post-traitement, améliorant directement la latence d'inférence et réduisant les obstacles au déploiement sur des accélérateurs matériels. Bien que très efficace pour les tâches de détection standard, le modèle se concentrait principalement sur la prédiction des cadres de sélection et ne prenait pas en charge de manière native les tâches plus complexes telles que la segmentation d'instances ou l'estimation de poses.
YOLO26 : la nouvelle norme pour l'IA de vision en périphérie et dans le cloud
Auteurs : Glenn Jocher et Jing Qiu
Organisation : Ultralytics
Date : 14/01/2026
Liens : Référentiel GitHub | Ultralytics
S'appuyant sur les concepts NMS mis au point précédemment, le nouveau YOLO26 représente le summum en matière de performances et de polyvalence. Conçu à la fois pour la recherche universitaire et le déploiement en entreprise, il intègre nativement une conception NMS de bout en bout, éliminant complètement NMS pour un déploiement plus rapide et plus simple sur tous les matériels pris en charge.
YOLO26 introduit plusieurs améliorations architecturales révolutionnaires. La suppression de la perte focale de distribution (DFL) simplifie considérablement le processus d'exportation du modèle et améliore la compatibilité avec les appareils périphériques à faible consommation d'énergie. Associé à ces changements structurels, YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui en fait un choix exceptionnel pour les applications IoT et robotiques où GPU peut ne pas être disponible.
De plus, la stabilité de l'entraînement et la vitesse de convergence ont été révolutionnées grâce à l'utilisation de l'optimiseur MuSGD, un hybride de SGD Muon inspiré des techniques d'entraînement LLM. Combiné à des fonctions de perte avancées telles que ProgLoss + STAL, YOLO26 offre des améliorations notables dans la reconnaissance des petits objets. Il introduit également des améliorations spécifiques à certaines tâches, notamment le prototypage multi-échelle pour la segmentation, l'estimation de la vraisemblance résiduelle (RLE) pour l'estimation de la pose et une perte d'angle spécialisée pour résoudre les problèmes de limites dans la détection des boîtes englobantes orientées (OBB).
Déploiement en entreprise
Pour les équipes qui cherchent à faire évoluer leurs workflows de vision par ordinateur, la Ultralytics offre une intégration transparente avec YOLO26, proposant une annotation intuitive des données, une formation automatisée dans le cloud et des options de déploiement en un clic sans nécessiter d'infrastructure MLOps importante.
Comparaison technique des performances
Lors de l'évaluation de ces modèles, l'équilibre entre la précision, la taille du modèle et la vitesse d'inférence est essentiel. Le tableau ci-dessous met en évidence les performances des deux familles de modèles à différentes échelles, évaluées sur l'COCO standard COCO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Les données démontrent clairement l'avantage évolutif de la nouvelle architecture. YOLO26 atteint mAP précision moyenne) plus élevé dans toutes les catégories de taille tout en conservant des vitesses d'inférence très compétitives. La suppression du DFL dans YOLO26 contribue spécifiquement à sesONNX CPU ONNX exceptionnelles, un indicateur où les générations précédentes avaient souvent des difficultés.
Méthodologies de formation et écosystème
Un modèle n'est utile que dans la mesure où l'écosystème qui le soutient l'est également. Alors que YOLOv10 une excellente implémentation académique basée sur PyTorch, il nécessite souvent une configuration manuelle pour les tâches allant au-delà de la détection de base.
En revanche, YOLO26 est entièrement intégré à Ultralytics , qui est très bien entretenu. Cela garantit des besoins en mémoire nettement inférieurs pendant l'entraînement par rapport aux modèles basés sur des transformateurs tels que RT-DETR, ce qui permet aux chercheurs de former des réseaux de pointe sur du matériel grand public. Sa facilité d'utilisation est inégalée, offrant une API unifiée qui gère automatiquement l'augmentation des données, le réglage des hyperparamètres et la journalisation.
Exemple de code : Entraînement de YOLO26
Quelques lignes de Python suffisent pour entraîner un modèle polyvalent et très précis :
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")
Applications et cas d'utilisation réels
Le choix de l'architecture appropriée dépend entièrement des contraintes de déploiement.
Informatique de pointe à haute vitesse
Pour les applications nécessitant un déploiement rapide sur des microcontrôleurs, des robots ou des appareils mobiles hérités, CPU 43 % plus rapide de YOLO26 en fait le choix incontournable. Son architecture NMS ni DFL se convertit de manière transparente en formats tels que OpenVINO et TensorRT, idéaux pour l'analyse vidéo en temps réel dans les infrastructures des villes intelligentes.
Vision multitâche avancée
Alors que YOLOv10 dans la détection pure de boîtes englobantes, les projets nécessitant une compréhension visuelle riche doivent s'appuyer sur YOLO26. De la segmentation d'instances en imagerie médicale à l'estimation précise des poses pour l'analyse sportive, YOLO26 fournit des fonctions de perte spécifiques à chaque tâche qui garantissent une précision supérieure dans divers domaines.
Options alternatives
Si votre projet nécessite une détection robuste à vocabulaire ouvert, pensez à explorer YOLO. Pour les utilisateurs qui conservent des pipelines hérités, YOLO11 reste une alternative puissante et entièrement prise en charge dans le Ultralytics .
Cas d'utilisation et recommandations
Le choix entre YOLOv10 YOLO26 dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.
Quand choisir YOLOv10
YOLOv10 un choix judicieux pour :
- Détection en temps réelNMS: applications bénéficiant d'une détection de bout en bout sans suppression non maximale, réduisant ainsi la complexité du déploiement.
- Compromis équilibré entre vitesse et précision : projets nécessitant un équilibre solide entre la vitesse d'inférence et la précision de détection à différentes échelles de modèle.
- Applications à latence constante : scénarios de déploiement où des temps d'inférence prévisibles sont essentiels, tels que la robotique ou les systèmes autonomes.
Quand choisir YOLO26
YOLO26 est recommandé pour :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Conclusion
Le passage de YOLOv10 YOLO26 marque un tournant décisif, passant d'une preuve de concept académique à des solutions d'entreprise prêtes à être mises en production. En adoptant une conception novatrice NMS et en l'enrichissant de l'optimiseur MuSGD, de ProgLoss et d'une compatibilité edge simplifiée, YOLO26 établit une nouvelle référence en matière de vision par ordinateur en temps réel. Pour les développeurs qui cherchent à atteindre le meilleur équilibre entre vitesse, précision et facilité d'utilisation, YOLO26 s'impose comme la recommandation ultime.