DAMO-YOLO vs YOLOv6-3.0 : Une comparaison complète des détecteurs d'objets industriels.
L'évolution rapide de la vision par ordinateur a donné naissance à des architectures hautement spécialisées, adaptées aux applications industrielles. Parmi celles-ci, deux poids lourds se distinguent par leur orientation vers les performances en temps réel et l'efficacité du déploiement : YOLO et YOLOv6.YOLOv6. Cette page propose une comparaison technique approfondie de leurs architectures, de leurs mesures de performance et de leurs méthodologies de formation afin de vous aider à faire votre choix en matière de déploiement.
DAMO-YOLO: La recherche d'architecture neuronale rencontre la détection d'objets
Développé par des chercheurs du groupe Alibaba, DAMO-YOLO introduit une nouvelle approche pour la famille YOLO en intégrant fortement la recherche d'architecture neuronale (NAS) dans la conception de son backbone.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation :Alibaba Group
- Date : 2022-11-23
- Arxiv :2211.15444v2
- GitHub :tinyvision/DAMO-YOLO
Innovations architecturales
DAMO-YOLO utilise un backbone optimisé par NAS nommé MAE-NAS, qui recherche automatiquement les structures de réseau optimales sous des contraintes de latence spécifiques. Cela garantit que le modèle s'adapte efficacement à différents profils matériels. Pour améliorer la fusion des caractéristiques, l'architecture utilise un RepGFPN efficace (Reparameterized Generalized Feature Pyramid Network), améliorant considérablement la représentation multi-échelle.
De plus, le modèle introduit une conception « ZeroHead ». En supprimant les structures complexes à branches multiples dans la tête de détection, il préserve plus efficacement les informations spatiales tout en réduisant la charge de calcul. La méthodologie d'apprentissage s'appuie également sur l'AlignedOTA (Aligned Optimal Transport Assignment) et la distillation robuste des connaissances, permettant à des modèles étudiants plus petits d'apprendre à partir de réseaux enseignants plus lourds.
Complexité de la distillation
Si la distillation des connaissances aideYOLO une grande précision, elle nécessite toutefois un pipeline de formation en plusieurs étapes. Cela augmente considérablement la GPU requise par rapport à la formation de modèles standard en une seule étape.
YOLOv6.0 : optimisation du débit industriel
Développé par le département Meituan Vision AI, YOLOv6.YOLOv6 est explicitement présenté comme un détecteur d'objets industriel, spécialement conçu pour optimiser le débit sur NVIDIA .
- Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
- Organisation :Meituan
- Date : 2023-01-13
- Arxiv :2301.05586
- GitHub :meituan/YOLOv6
Principales fonctionnalités et améliorations
YOLOv6.YOLOv6 s'appuie sur l'infrastructure EfficientRep, compatible avec le matériel, ce qui le rend exceptionnellement rapide lorsqu'il exploite des optimisations telles que TensorRT sur les GPU modernes. Dans sa version 3.0, le réseau intègre un module de concaténation bidirectionnelle (BiC) afin d'améliorer la localisation d'objets de tailles variables.
Une autre caractéristique remarquable est la stratégie d'entraînement assisté par ancres (AAT - Anchor-Aided Training). L'AAT combine la stabilité des détecteurs basés sur des ancres pendant l'entraînement avec la vitesse d'inférence d'une conception sans ancres. Cette approche hybride offre une excellente convergence sans sacrifier la latence de déploiement, ce qui en fait un choix puissant pour le traitement de flux vidéo massifs dans l'analyse des villes intelligentes et les systèmes de caisse automatisés.
Comparaison des performances
Lors de l'évaluation de ces modèles pour l'inférence en temps réel, il est essentiel de trouver le juste équilibre entre les paramètres, les FLOP et la précision. Vous trouverez ci-dessous une évaluation détaillée comparant leurs performances.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Alors queYOLO un léger avantage dans la petite catégorie (46,0 mAP 45,0 mAP), YOLOv6. YOLOv6 démontre une évolutivité supérieure, s'imposant dans les catégories moyenne et grande tout en conservant les paramètres les plus bas dans sa configuration nano.
Choisir entre les deux
Si votre environnement matériel permet d'effectuer des recherches automatisées intensives pour personnaliser votre backbone, l'approche NASYOLO est très efficace. Cependant, si vous vous fiez entièrement à GPU standardisée (comme T4 ou A100), les structures EfficientRep YOLOv6 se traduisent souvent par un FPS brut plus élevé.
Cas d'utilisation et recommandations
Le choix entre DAMO-YOLO et YOLOv6 dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.
Quand choisir DAMO-YOLO
DAMO-YOLO est un excellent choix pour :
- Analyse vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit par lot de 1 est la métrique principale.
- Lignes de Fabrication Industrielles : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, telles que l'inspection qualité en temps réel sur les lignes d'assemblage.
- Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.
Quand choisir YOLOv6
YOLOv6 recommandé pour :
- Déploiement Industriel Optimisé pour le Matériel : Scénarios où la conception du modèle optimisée pour le matériel et la reparamétrisation efficace offrent des performances optimisées sur du matériel cible spécifique.
- Détection rapide en une seule étape : Applications privilégiant une vitesse d'inférence brute sur GPU pour le traitement vidéo en temps réel dans des environnements contrôlés.
- Intégration à l'écosystème Meituan : Équipes travaillant déjà au sein de la pile technologique et de l'infrastructure de déploiement de Meituan.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
- Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
- Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.
Ultralytics : présentation de YOLO26
Bien queYOLO YOLOv6. YOLOv6 soient tous deux très performants, ils souffrent d'écosystèmes fragmentés, de limitations liées à la réalisation d'une seule tâche et de pipelines de déploiement complexes. Pour les équipes d'ingénieurs modernes, Ultralytics offrent une expérience de développement nettement améliorée, qui culmine avec le révolutionnaire YOLO26.
Sorti en janvier 2026, YOLO26 représente la nouvelle norme en matière de déploiement en périphérie et dans le cloud, optimisant considérablement les besoins en mémoire et l'efficacité de calcul.
Pourquoi choisir YOLO26 ?
- Conception de bout en bout sans NMS : S'appuyant sur les concepts de YOLOv10, YOLO26 élimine nativement le post-traitement de la suppression non maximale (NMS). Cela simplifie considérablement le code de déploiement et réduit la variance de latence d'inférence sur tous les appareils périphériques.
- Optimisation supérieure : YOLO26 utilise l'optimiseur MuSGD, un hybride de SGD et de Muon (inspiré par les grands modèles linguistiques), ce qui permet des exécutions d'entraînement très stables et une convergence plus rapide.
- Polyvalence matérielle : grâce à la mise en œuvre de la suppression DFL (Distribution Focal Loss), les têtes de sortie sont simplifiées, ce qui améliore la compatibilité des périphériques. En effet, YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui le rend largement supérieur à YOLOv6 les environnements mobiles ou IoT.
- Précision améliorée : En utilisant ProgLoss + STAL, YOLO26 observe des améliorations spectaculaires dans la détection de petits objets, ce qui en fait le choix optimal pour l'imagerie aérienne et l'inspection des défauts.
- Polyvalence inégalée : Contrairement aux modèles industriels qui ne gèrent que les boîtes englobantes, la famille YOLO26 prend en charge les tâches multimodales, notamment la classification d'images, la segmentation d'instances, l'estimation de pose et les boîtes englobantes orientées (OBB).
Une expérience écosystémique fluide
Ultralytics transforme l'ensemble du cycle de vie de l'apprentissage automatique. L'entraînement d'un modèle n'est plus un casse-tête en plusieurs étapes. Grâce à l'augmentation automatique des données, au réglage unifié des hyperparamètres et à l'exportation en un clic vers des formats tels que ONNX, OpenVINOet CoreML, vous passez du jeu de données à la production en quelques heures, et non plus en plusieurs semaines.
De plus, les modèles Ultralytics sont reconnus pour leur efficacité mémoire, évitant les goulots d'étranglement massifs de la VRAM qui affligent les architectures de transformeurs comme RT-DETR.
Exemple de code de démarrage rapide
La formation et l'inférence avec un Ultralytics tel que YOLO26 sont d'une simplicité élégante. Le Python suivant montre comment vous pouvez immédiatement commencer à suivre des objets à l'aide de quelques lignes de code seulement :
from ultralytics import YOLO
# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")
# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)
Conclusion
DAMO-YOLO et YOLOv6-3.0 sont tous deux des prouesses d'ingénierie impressionnantes qui repoussent les limites de la détection d'objets industrielle. Cependant, ce sont des outils hautement spécialisés qui nécessitent souvent des configurations complexes et des contraintes matérielles rigides.
Pour les développeurs et les chercheurs qui exigent un équilibre parfait entre performances, capacités multitâches et écosystème activement maintenu, Ultralytics YOLO26 est sans égal. En combinant des optimiseurs inspirés du LLM avec une architecture propre et NMS, YOLO26 simplifie le déploiement de l'IA tout en offrant une précision de pointe dans les environnements périphériques et cloud.
Si vous évaluez des modèles pour un nouveau projet de vision par ordinateur, nous vous recommandons vivement d'explorer les capacités de l' Ultralytics YOLO . Vous trouverez peut-être également utile de les comparer à d'autres architectures telles que EfficientDet ou à des jalons précédents tels que YOLO11 , afin de bien comprendre l'évolution de l'IA de vision en temps réel.