YOLOv10 YOLO26 : l'évolution de la détection d'objets de bout en bout

Le domaine de la vision par ordinateur a connu des avancées remarquables ces dernières années, passant d'architectures complexes nécessitant un post-traitement intensif à des modèles rationalisés de bout en bout. Cette comparaison technique se penche sur deux étapes majeures de cette évolution : la percée académique de YOLOv10 le modèle YOLO26, à la pointe de la technologie et prêt à l'emploi en entreprise. En examinant leurs architectures, leurs méthodologies de formation et leurs capacités de déploiement dans le monde réel, les développeurs peuvent prendre des décisions éclairées lors de la création de leur prochaine application d'IA visuelle.

YOLOv10: pionnier de la détection d'objets de bout en bout

Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation : Université Tsinghua
Date : 2024-05-23
Liens : Article arXiv | Dépôt GitHub

Sorti mi-2024, YOLOv10 une avancée significative dans la recherche universitaire en vision par ordinateur en s'attaquant à l'un des goulots d'étranglement les plus persistants dans la détection d'objets en temps réel : la suppression non maximale (NMS). Les détecteurs d'objets traditionnels s'appuyaient fortement sur NMS filtrer les boîtes englobantes redondantes, ce qui ajoutait une latence variable pendant l'inférence et compliquait le déploiement en périphérie.

L'équipe de l'université Tsinghua a introduit une stratégie d'affectation double cohérente pour la formation NMS. Cela a permis au modèle de prédire avec précision les cadres de sélection sans nécessiter d'étape de filtrage post-traitement, améliorant directement la latence d'inférence et réduisant les obstacles au déploiement sur des accélérateurs matériels. Bien que très efficace pour les tâches de détection standard, le modèle se concentrait principalement sur la prédiction des cadres de sélection et ne prenait pas en charge de manière native les tâches plus complexes telles que la segmentation d'instances ou l'estimation de poses.

En savoir plus sur YOLOv10

YOLO26 : la nouvelle norme pour l'IA de vision en périphérie et dans le cloud

Auteurs : Glenn Jocher et Jing Qiu
Organisation : Ultralytics
Date : 2026-01-14
Liens : Dépôt GitHub | Plateforme Ultralytics

S'appuyant sur les concepts sans NMS pionniers précédemment, le nouveau YOLO26 représente l'apogée de la performance et de la polyvalence. Conçu pour la recherche universitaire et le déploiement en entreprise, il intègre nativement une conception sans NMS de bout en bout, éliminant complètement le post-traitement NMS pour un déploiement plus rapide et plus simple sur tous les matériels pris en charge.

YOLO26 introduit plusieurs améliorations architecturales révolutionnaires. La suppression de la perte focale de distribution (DFL) simplifie considérablement le processus d'exportation du modèle et améliore la compatibilité avec les appareils périphériques à faible consommation d'énergie. Associé à ces changements structurels, YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui en fait un choix exceptionnel pour les applications IoT et robotiques où GPU peut ne pas être disponible.

De plus, la stabilité de l'entraînement et la vitesse de convergence ont été révolutionnées grâce à l'utilisation de l'optimiseur MuSGD, un hybride de SGD Muon inspiré des techniques d'entraînement LLM. Combiné à des fonctions de perte avancées telles que ProgLoss + STAL, YOLO26 offre des améliorations notables dans la reconnaissance des petits objets. Il introduit également des améliorations spécifiques à certaines tâches, notamment le prototypage multi-échelle pour la segmentation, l'estimation de la vraisemblance résiduelle (RLE) pour l'estimation de la pose et une perte d'angle spécialisée pour résoudre les problèmes de limites dans la détection des boîtes englobantes orientées (OBB).

En savoir plus sur YOLO26

Déploiement en entreprise

Pour les équipes qui cherchent à faire évoluer leurs workflows de vision par ordinateur, la Ultralytics offre une intégration transparente avec YOLO26, proposant une annotation intuitive des données, une formation automatisée dans le cloud et des options de déploiement en un clic sans nécessiter d'infrastructure MLOps importante.

Comparaison technique des performances

Lors de l'évaluation de ces modèles, l'équilibre entre la précision, la taille du modèle et la vitesse d'inférence est essentiel. Le tableau ci-dessous met en évidence les performances des deux familles de modèles à différentes échelles, évaluées sur l'COCO standard COCO .

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

Les données démontrent clairement l'avantage évolutif de la nouvelle architecture. YOLO26 atteint mAP précision moyenne) plus élevé dans toutes les catégories de taille tout en conservant des vitesses d'inférence très compétitives. La suppression du DFL dans YOLO26 contribue spécifiquement à sesONNX CPU ONNX exceptionnelles, un indicateur où les générations précédentes avaient souvent des difficultés.

Méthodologies de formation et écosystème

L'utilité d'un modèle est proportionnelle à l'écosystème qui le soutient. Bien que YOLOv10 ait fourni une excellente implémentation académique basée sur PyTorch, il nécessite souvent une configuration manuelle pour les tâches allant au-delà de la détection de base.

En revanche, YOLO26 est entièrement intégré à Ultralytics , qui est très bien entretenu. Cela garantit des besoins en mémoire nettement inférieurs pendant l'entraînement par rapport aux modèles basés sur des transformateurs tels que RT-DETR, ce qui permet aux chercheurs de former des réseaux de pointe sur du matériel grand public. Sa facilité d'utilisation est inégalée, offrant une API unifiée qui gère automatiquement l'augmentation des données, le réglage des hyperparamètres et la journalisation.

Exemple de code : Entraînement de YOLO26

Quelques lignes de Python suffisent pour entraîner un modèle polyvalent et très précis :

from ultralytics import YOLO

# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with automatic memory management
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
)

# Export natively to TensorRT without NMS complexities
model.export(format="engine")

Applications et cas d'utilisation réels

Le choix de la bonne architecture dépend entièrement des contraintes de déploiement.

Informatique de pointe à haute vitesse

Pour les applications nécessitant un déploiement rapide sur des microcontrôleurs, des robots ou des appareils mobiles hérités, CPU 43 % plus rapide de YOLO26 en fait le choix incontournable. Son architecture NMS ni DFL se convertit de manière transparente en formats tels que OpenVINO et TensorRT, idéaux pour l'analyse vidéo en temps réel dans les infrastructures des villes intelligentes.

Vision multi-tâches avancée

Alors que YOLOv10 dans la détection pure de boîtes englobantes, les projets nécessitant une compréhension visuelle riche doivent s'appuyer sur YOLO26. De la segmentation d'instances en imagerie médicale à l'estimation précise des poses pour l'analyse sportive, YOLO26 fournit des fonctions de perte spécifiques à chaque tâche qui garantissent une précision supérieure dans divers domaines.

Options alternatives

Si votre projet nécessite une détection robuste à vocabulaire ouvert, pensez à explorer YOLO. Pour les utilisateurs qui conservent des pipelines hérités, YOLO11 reste une alternative puissante et entièrement prise en charge dans le Ultralytics .

Cas d'utilisation et recommandations

Le choix entre YOLOv10 et YOLO26 dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.

Quand choisir YOLOv10

YOLOv10 un choix judicieux pour :

Détection en temps réel sans NMS : Applications qui bénéficient d'une détection de bout en bout sans Non-Maximum Suppression, réduisant ainsi la complexité du déploiement.
Compromis équilibrés vitesse-précision: Projets nécessitant un équilibre solide entre la vitesse d'inférence et la précision de détection sur diverses échelles de modèles.
Applications à latence constante : Scénarios de déploiement où des temps d'inférence prévisibles sont critiques, tels que la robotique ou les systèmes autonomes.

Quand choisir YOLO26

YOLO26 est recommandé pour :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Conclusion

Le passage de YOLOv10 YOLO26 marque un tournant décisif, passant d'une preuve de concept académique à des solutions d'entreprise prêtes à être mises en production. En adoptant une conception novatrice NMS et en l'enrichissant de l'optimiseur MuSGD, de ProgLoss et d'une compatibilité edge simplifiée, YOLO26 établit une nouvelle référence en matière de vision par ordinateur en temps réel. Pour les développeurs qui cherchent à atteindre le meilleur équilibre entre vitesse, précision et facilité d'utilisation, YOLO26 s'impose comme la recommandation ultime.