YOLO26 vs. DAMO-YOLO: Faire progresser la détection d'objets en temps réel
Dans le paysage en constante évolution de la vision par ordinateur, le choix du bon modèle de détection d'objets est crucial pour équilibrer la précision, la vitesse et la faisabilité du déploiement. Cette comparaison explore YOLO26, la dernière offre d'Ultralytics optimisée pour l'edge, et DAMO-YOLO, un détecteur haute performance développé par Alibaba Group. Les deux modèles introduisent des innovations architecturales significatives, mais ils ciblent des priorités légèrement différentes dans le pipeline de déploiement.
Aperçu du modèle
Ultralytics YOLO26
YOLO26 représente un changement de paradigme vers la simplicité et l'efficacité en périphérie. Lancé en janvier 2026, il est conçu pour éliminer les complexités du post-traitement traditionnel tout en offrant des performances de pointe sur les appareils contraints par le CPU. Il prend en charge nativement un large éventail de tâches, notamment la détection d'objets, la segmentation d'instances, l'estimation de pose, la classification et la détection de boîtes englobantes orientées (OBB).
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation :Ultralytics
- Date : 14 janvier 2026
- GitHub :Dépôt Ultralytics
DAMO-YOLO
DAMO-YOLO se concentre sur l'optimisation du compromis entre vitesse et précision grâce à la recherche avancée d'architecture neuronale (NAS) et à une re-paramétrisation intensive. Développé par l'équipe TinyVision d'Alibaba, il introduit de nouveaux composants tels que le RepGFPN et le ZeroHead pour maximiser l'efficacité de l'extraction des caractéristiques, ciblant principalement les scénarios GPU à usage général.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Alibaba Group
- Date : 23 novembre 2022
- Arxiv :Article DAMO-YOLO
- GitHub :Dépôt DAMO-YOLO
Comparaison des architectures techniques
De bout en bout vs. NMS traditionnelle
La différence opérationnelle la plus significative réside dans la manière dont les prédictions sont finalisées.
YOLO26 utilise une conception nativement de bout en bout sans NMS. En générant les prédictions finales directement à partir du réseau, il élimine le besoin de suppression non maximale (NMS). Cette suppression du post-traitement réduit la variabilité de la latence et simplifie les pipelines de déploiement, en particulier sur le matériel edge comme le Raspberry Pi ou les appareils mobiles où les opérations NMS peuvent constituer un goulot d'étranglement. Cette approche a été pionnière avec succès dans YOLOv10 et affinée ici.
DAMO-YOLO s'appuie sur une tête de prédiction dense plus traditionnelle (ZeroHead) qui nécessite NMS pour filtrer les boîtes superposées. Bien qu'efficace, cela ajoute une étape de calcul pendant l'inférence qui évolue avec le nombre d'objets détectés, introduisant potentiellement une gigue de latence dans les scènes encombrées.
Innovation en matière d'entraînement: MuSGD vs. NAS
YOLO26 introduit l'optimiseur MuSGD, un hybride de SGD et de Muon. Inspiré par les avancées en matière d'entraînement des LLM, comme le Kimi K2 de Moonshot AI, cet optimiseur offre une dynamique d'entraînement plus stable et une convergence plus rapide, permettant aux utilisateurs d'atteindre des performances optimales avec moins d'époques.
DAMO-YOLO exploite la recherche d'architecture neuronale (NAS) via sa méthode MAE-NAS pour découvrir automatiquement des structures de backbone efficaces. Il utilise également l'Efficient RepGFPN, un neck de re-paramétrisation intensive qui fusionne les caractéristiques à plusieurs échelles. Bien que puissantes, ces architectures dérivées de NAS peuvent parfois être moins intuitives à modifier ou à affiner par rapport aux blocs rationalisés et conçus manuellement dans les modèles Ultralytics.
Fonctions de perte
YOLO26 supprime la Distribution Focal Loss (DFL) pour simplifier l'exportation vers des formats comme CoreML et TensorRT. Au lieu de cela, il utilise ProgLoss et Small-Target-Aware Label Assignment (STAL), qui améliorent considérablement les performances sur les petits objets, un problème courant dans des secteurs tels que l'imagerie aérienne et l'analyse médicale.
DAMO-YOLO utilise AlignedOTA, une stratégie d'attribution d'étiquettes qui résout le désalignement entre les tâches de classification et de régression. Elle vise à garantir que les ancres de haute qualité sont attribuées aux vérités terrain les plus pertinentes pendant l'entraînement.
Optimisation Edge dans YOLO26
En supprimant DFL et NMS, YOLO26 atteint jusqu'à 43 % d'inférence CPU plus rapide par rapport aux générations précédentes. Cela le rend particulièrement adapté aux applications d'« Edge AI » où les ressources GPU ne sont pas disponibles, comme la gestion intelligente du stationnement sur appareil.
Mesures de performance
Le tableau suivant met en évidence les différences de performances. YOLO26 démontre une efficacité supérieure, notamment en termes de nombre de paramètres et de FLOPs, tout en maintenant une précision compétitive ou supérieure.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Points clés à retenir
- Efficacité : YOLO26n (Nano) est environ 3,5 fois plus petit en termes de paramètres et 3,3 fois inférieur en FLOPs que DAMO-YOLOt, tout en atteignant une précision comparable. Cette réduction drastique du poids computationnel rend YOLO26 significativement meilleur pour le déploiement mobile et IoT.
- Mise à l'échelle de la précision : À mesure que les modèles évoluent, YOLO26m surpasse DAMO-YOLOm de près de 4,0 mAP tout en utilisant moins de paramètres (20,4 M contre 28,2 M).
- Vitesse : YOLO26 offre systématiquement des temps d'inférence plus rapides sur les GPU T4 à toutes les échelles, ce qui est crucial pour les applications à haut débit comme l'analyse vidéo.
Facilité d'utilisation et écosystème
Simplicité et documentation
L'une des caractéristiques de Ultralytics modèles est la facilité d'utilisation. YOLO26 est intégré au ultralytics package python, permettant aux utilisateurs d'entraîner, de valider et de déployer des modèles avec seulement quelques lignes de code.
from ultralytics import YOLO
# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)
En revanche, DAMO-YOLO est un dépôt orienté recherche. Bien qu'il fournisse des scripts pour l'entraînement et l'inférence, il lui manque l'API unifiée, les guides exhaustifs et le support étendu des systèmes d'exploitation (Windows, Linux, macOS) qu'offre l'écosystème Ultralytics.
Déploiement et exportation
YOLO26 prend en charge l'exportation en un clic vers plus de 10 formats, y compris ONNX, OpenVINO, CoreML et TFLite. Cette flexibilité est vitale pour les ingénieurs passant de la recherche à la production. La suppression de modules complexes comme DFL garantit que ces exportations sont robustes et compatibles avec une plus large gamme d'accélérateurs matériels.
DAMO-YOLO s'appuie sur des étapes de re-paramétrisation spécifiques qui doivent être gérées avec soin lors de l'exportation. Si le passage du mode entraînement au mode déploiement n'est pas effectué correctement, les performances du modèle peuvent se dégrader ou le modèle peut ne pas fonctionner, ajoutant une couche de complexité pour l'utilisateur.
Cas d'utilisation concrets
Scénarios Idéaux pour YOLO26
- Appareils Edge et IoT : Grâce à son empreinte mémoire minimale (à partir de 2,4 millions de paramètres), YOLO26 est parfait pour les caméras de sécurité et les drones où la puissance et la RAM sont limitées.
- Analyse Sportive en Temps Réel : La conception sans NMS garantit une latence constante, ce qui est essentiel pour le suivi d'objets en mouvement rapide dans les applications sportives.
- Systèmes Multitâches : Étant donné que YOLO26 prend en charge nativement la segmentation, la pose et l'obb, il est le choix privilégié pour les pipelines complexes comme la manipulation robotique nécessitant des points d'orientation et de préhension.
Scénarios idéaux pour DAMO-YOLO
- Recherche Académique : Son utilisation du NAS et de techniques de distillation avancées en fait un candidat solide pour les chercheurs qui étudient les méthodologies de recherche d'architecture.
- Serveurs GPU Haut de Gamme : Dans les scénarios où les contraintes matérielles sont inexistantes et où chaque fraction de précision compte sur des benchmarks spécifiques, le backbone lourd de DAMO-YOLO peut être exploité efficacement.
Conclusion
Alors que DAMO-YOLO a introduit des concepts impressionnants en matière de recherche d'architecture et de re-paramétrisation en 2022, YOLO26 représente l'état de l'art pour 2026. En se concentrant sur la simplicité de bout en bout, en éliminant les goulots d'étranglement comme NMS et DFL, et en réduisant drastiquement le nombre de paramètres, YOLO26 offre une solution plus pratique, plus rapide et plus conviviale pour les développeurs d'IA modernes.
Pour les utilisateurs souhaitant déployer des solutions de vision par ordinateur robustes dès aujourd'hui, l'intégration transparente avec la Plateforme Ultralytics et l'efficacité massive en termes de performances par watt font de YOLO26 la recommandation évidente.
Lectures complémentaires
Pour ceux qui s'intéressent à d'autres approches architecturales, explorez ces modèles connexes dans la documentation :
- YOLO11 - La norme de la génération précédente en matière de polyvalence et de précision.
- RT-DETR - Un détecteur en temps réel basé sur des transformeurs qui offre également une inférence sans NMS.
- YOLOv10 - Le pionnier de l'approche d'entraînement de bout en bout sans NMS utilisée dans YOLO26.