Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs YOLOv6-3.0#

L'évolution rapide de la vision par ordinateur a produit des architectures hautement spécialisées adaptées aux applications industrielles. Parmi celles-ci, deux poids lourds se distinguent par leur concentration sur les performances en temps réel et l'efficacité du déploiement : DAMO-YOLO et YOLOv6-3.0. Cette page propose une comparaison technique approfondie de leurs architectures, mesures de performance et méthodologies d'entraînement pour t'aider à orienter tes choix de déploiement.

Link to this sectionDAMO-YOLO : Quand la recherche d'architecture neuronale rencontre la détection d'objets#

Développé par des chercheurs d'Alibaba Group, DAMO-YOLO introduit une approche inédite dans la famille YOLO en intégrant fortement la recherche d'architecture neuronale (NAS) dans la conception de son backbone.

Link to this sectionInnovations architecturales#

DAMO-YOLO utilise un backbone optimisé par NAS nommé MAE-NAS, qui recherche automatiquement les structures de réseau optimales sous des contraintes de latence spécifiques. Cela garantit que le modèle s'adapte efficacement à différents profils matériels. Pour améliorer la fusion des caractéristiques, l'architecture emploie un Efficient RepGFPN (Reparameterized Generalized Feature Pyramid Network), améliorant significativement la représentation multi-échelle.

De plus, le modèle introduit une conception "ZeroHead". En supprimant les structures multi-branches complexes dans la tête de détection, il préserve plus efficacement les informations spatiales tout en réduisant la charge computationnelle. La méthodologie d'entraînement tire également parti d'AlignedOTA (Aligned Optimal Transport Assignment) et d'une distillation de connaissances robuste, permettant à des modèles étudiants plus petits d'apprendre à partir de réseaux enseignants plus lourds.

En savoir plus sur DAMO-YOLO

Complexité de la distillation

Bien que la distillation de connaissances aide DAMO-YOLO à atteindre une précision élevée, elle nécessite un pipeline d'entraînement multi-étapes. Cela augmente considérablement le GPU compute requis par rapport à l'entraînement de modèles standard à étape unique.

Link to this sectionYOLOv6-3.0 : Maximiser le débit industriel#

Pionnier du département Meituan Vision AI, YOLOv6-3.0 est explicitement étiqueté comme un détecteur d'objets industriel, conçu spécifiquement pour maximiser le débit sur le matériel NVIDIA.

  • Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
  • Organisation : Meituan
  • Date : 13/01/2023
  • Arxiv : 2301.05586
  • GitHub : meituan/YOLOv6

Link to this sectionFonctionnalités clés et améliorations#

YOLOv6-3.0 est construit sur le backbone EfficientRep, adapté au matériel, ce qui le rend exceptionnellement rapide lorsqu'il exploite des optimisations comme TensorRT sur les GPU modernes. Dans son itération v3.0, le réseau intègre un module de concaténation bidirectionnelle (BiC) pour améliorer la localisation d'objets de tailles variées.

Une autre caractéristique marquante est la stratégie d'entraînement assisté par ancres (AAT). AAT combine la stabilité des anchor-based detectors pendant l'entraînement avec la vitesse d'inférence d'une conception sans ancres. Cette approche hybride offre une excellente convergence sans sacrifier la latence de déploiement, ce qui en fait un choix puissant pour le traitement de flux vidéo massifs dans l'analyse de villes intelligentes et les systèmes de paiement automatisés.

En savoir plus sur YOLOv6

Link to this sectionComparaison des performances#

Lors de l'évaluation de ces modèles pour une real-time inference, il est crucial d'équilibrer les paramètres, les FLOPs et la précision. Tu trouveras ci-dessous une évaluation détaillée comparant leurs performances.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197,3
YOLOv6-3.0n64037,5-1,174.711.4
YOLOv6-3.0s64045,0-2.6618,545,3
YOLOv6-3.0m64050,0-5,2834,985,8
YOLOv6-3.0l64052.8-8,9559,6150,7

Bien que DAMO-YOLO affiche un léger avantage dans la catégorie petite (46,0 mAP contre 45,0 mAP), YOLOv6-3.0 démontre une évolutivité supérieure, l'emportant dans les catégories moyenne et grande tout en conservant les paramètres les plus bas dans sa configuration nano.

Choisir entre les deux

Si ton environnement matériel permet des recherches automatisées intensives pour personnaliser ton backbone, l'approche NAS de DAMO-YOLO est très efficace. Cependant, si tu comptes entièrement sur l'accélération GPU standardisée (comme T4 ou A100), les structures EfficientRep de YOLOv6 se traduisent souvent par des FPS bruts plus élevés.

Link to this sectionCas d'utilisation et recommandations#

Le choix entre DAMO-YOLO et YOLOv6 dépend de tes exigences de projet spécifiques, de tes contraintes de déploiement et de tes préférences en matière d'écosystème.

Link to this sectionQuand choisir DAMO-YOLO#

DAMO-YOLO est un choix solide pour :

  • Analytique vidéo à haut débit : Traitement de flux vidéo FPS élevés sur une infrastructure GPU NVIDIA fixe où le débit par lot est la mesure principale.
  • Lignes de fabrication industrielle : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, comme l'inspection qualité en temps réel sur les lignes d'assemblage.
  • Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Link to this sectionQuand choisir YOLOv6#

YOLOv6 est recommandé pour :

  • Déploiement industriel conscient du matériel : Les scénarios où la conception du modèle axée sur le matériel et la reparamétrisation efficace offrent des performances optimisées sur un matériel cible spécifique.
  • Détection rapide en une étape : Les applications priorisant la vitesse d'inférence brute sur GPU pour le traitement vidéo en temps réel dans des environnements contrôlés.
  • Intégration à l'écosystème Meituan : Les équipes travaillant déjà au sein de la pile technologique et de l'infrastructure de déploiement de Meituan.

Link to this sectionQuand choisir Ultralytics (YOLO26)#

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
  • Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Link to this sectionL'avantage Ultralytics : Présentation de YOLO26#

Bien que DAMO-YOLO et YOLOv6-3.0 soient très performants, ils souffrent d'écosystèmes fragmentés, de limitations à tâche unique et de pipelines de déploiement complexes. Pour les équipes d'ingénierie modernes, les Ultralytics models offrent une expérience développeur nettement meilleure, aboutissant au révolutionnaire YOLO26.

Sorti en janvier 2026, YOLO26 représente la nouvelle norme pour le déploiement en périphérie (edge) et dans le cloud, optimisant fortement les memory requirements et l'efficacité computationnelle.

Link to this sectionPourquoi choisir YOLO26 ?#

  1. Conception de bout en bout sans NMS : En s'appuyant sur des concepts de YOLOv10, YOLO26 élimine nativement le post-traitement par suppression des non-maxima (NMS). Cela simplifie considérablement le code de déploiement et réduit la variance de la latence d'inférence sur tous les appareils edge.
  2. Optimisation supérieure : YOLO26 emploie l'optimiseur MuSGD, un hybride de SGD et Muon (inspiré par les grands modèles de langage), qui permet des entraînements très stables et une convergence plus rapide.
  3. Polyvalence matérielle : En implémentant la suppression de DFL (Distribution Focal Loss), les têtes de sortie sont simplifiées, augmentant la compatibilité avec les appareils edge. En fait, YOLO26 atteint une inférence CPU jusqu'à 43 % plus rapide, le rendant largement supérieur à YOLOv6 pour les environnements mobiles ou IoT edge.
  4. Précision améliorée : En utilisant ProgLoss + STAL, YOLO26 voit des améliorations spectaculaires dans la small object detection, ce qui en fait le choix optimal pour l' aerial imagery et l'inspection de défauts.
  5. Polyvalence inégalée : Contrairement aux modèles industriels qui ne font que des boîtes englobantes, la famille YOLO26 prend en charge des tâches multimodales, notamment la Image Classification, l' Instance Segmentation, la Pose Estimation et les Oriented Bounding Boxes (OBB).

En savoir plus sur YOLO26

Link to this sectionUne expérience d'écosystème fluide#

La Ultralytics Platform transforme l'ensemble du cycle de vie du machine learning. Entraîner un modèle n'est plus un casse-tête de distillation multi-étapes. Avec l'augmentation automatique des données, le réglage unifié des hyperparamètres et les exportations en un clic vers des formats comme ONNX, OpenVINO et CoreML, tu passes du jeu de données à la production en quelques heures, pas en quelques semaines.

De plus, les modèles Ultralytics sont connus pour leur memory efficiency, évitant les énormes goulots d'étranglement de VRAM qui affectent les architectures Transformer comme RT-DETR.

Link to this sectionExemple de code pour un démarrage rapide#

L'entraînement et l'inférence avec un modèle Ultralytics comme YOLO26 sont élégamment simples. Le script Python suivant démontre comment tu peux immédiatement commencer à suivre des objets avec seulement quelques lignes de code :

from ultralytics import YOLO

# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")

# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)

Link to this sectionConclusion#

DAMO-YOLO et YOLOv6-3.0 sont tous deux des prouesses d'ingénierie impressionnantes qui repoussent les limites de la détection d'objets industrielle. Cependant, ce sont des outils hautement spécialisés qui nécessitent souvent des configurations complexes et des contraintes matérielles rigides.

Pour les développeurs et chercheurs qui exigent un équilibre de performance parfait, des capacités multi-tâches et un well-maintained ecosystem actif, Ultralytics YOLO26 est inégalé. En mélangeant des optimiseurs inspirés des LLM avec une architecture propre et sans NMS, YOLO26 simplifie le AI deployment tout en offrant une précision de pointe dans les environnements edge et cloud.

Si tu évalues des modèles pour un nouveau projet de vision par ordinateur, nous te recommandons vivement d'explorer les capacités de l'écosystème Ultralytics YOLO. Tu pourrais également trouver utile de les comparer avec d'autres architectures comme EfficientDet ou des jalons précédents comme YOLO11 pour saisir pleinement l'évolution de la vision par ordinateur en temps réel.

Contributeurs

Commentaires