Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 vs DAMO-YOLO#

Le paysage de la détection d'objets en temps réel évolue continuellement, les chercheurs et ingénieurs s'efforçant de trouver l'équilibre optimal entre vitesse et précision. Dans cette comparaison technique, nous plongeons au cœur de deux architectures notables de 2022 : YOLOv7 et DAMO-YOLO. Les deux modèles ont introduit des concepts novateurs dans la communauté de la vision par ordinateur, répondant à différents défis en matière d'entraînement de modèles, de conception architecturale et de déploiement.

Link to this sectionContexte des modèles et détails techniques#

Avant d'examiner leurs architectures, il est essentiel de comprendre les origines de ces deux modèles. Tous deux ont été développés par des groupes de recherche de premier plan et ont introduit des méthodologies avancées pour repousser les limites de la détection d'objets en temps réel.

Link to this sectionDétails de YOLOv7#

Développé comme une suite de la famille YOLO, YOLOv7 a introduit le concept de "bag-of-freebies" entraînable pour améliorer significativement la précision sans augmenter le coût de l'inférence.

En savoir plus sur YOLOv7

Link to this sectionDétails sur DAMO-YOLO#

Créé par des chercheurs d'Alibaba Group, DAMO-YOLO s'est fortement concentré sur la recherche d'architecture neuronale (NAS) et la distillation de connaissances avancée pour construire des modèles hautement efficaces pour du matériel varié.

En savoir plus sur DAMO-YOLO

Link to this sectionInnovations architecturales#

Link to this sectionYOLOv7 : Analyse du chemin de gradient et re-paramétrage#

YOLOv7 se concentre énormément sur les Extended Efficient Layer Aggregation Networks (E-ELAN). Les auteurs ont conçu E-ELAN en analysant les chemins de gradient du réseau, garantissant que celui-ci puisse apprendre continuellement sans dégrader le chemin de gradient original. De plus, YOLOv7 utilise efficacement le re-paramétrage de modèle pendant l'inférence, fusionnant harmonieusement les couches pour réduire les FLOPs et accélérer les temps d'exécution. Cela le rend extrêmement performant pour l'inférence en temps réel sur les GPU modernes.

Link to this sectionDAMO-YOLO : Recherche d'architecture neuronale et RepGFPN#

DAMO-YOLO diverge en exploitant fortement la Neural Architecture Search (NAS) sous des contraintes de latence. Il utilise un framework appelé MAE-NAS pour découvrir des backbones optimaux adaptés à du matériel spécifique, comme des appareils mobiles ou des accélérateurs edge spécifiques. Pour son neck, il introduit un RepGFPN (Rep-parameterized Generalized Feature Pyramid Network) efficace, et il emploie une conception ZeroHead pour minimiser la charge computationnelle dans les têtes de prédiction.

Différences de distillation

Alors que YOLOv7 repose sur de fortes optimisations architecturales inhérentes, DAMO-YOLO dépend lourdement d'un processus de distillation de connaissances multi-étapes complexe. Il nécessite l'entraînement d'un grand modèle enseignant pour distiller les connaissances vers un modèle étudiant plus petit, ce qui peut s'avérer coûteux en calcul durant la phase d'entraînement.

Link to this sectionComparaison des performances et des mesures#

Lors de la comparaison de ces modèles, il est crucial d'examiner le mAP (Mean Average Precision), la vitesse d'inférence et la complexité du modèle.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197,3

Le tableau ci-dessus démontre que YOLOv7 s'adapte bien aux domaines de haute précision (YOLOv7x), tandis que DAMO-YOLO fournit des modèles minuscules hautement optimisés pour les environnements contraints.

Link to this sectionEfficacité de l'entraînement et exigences en mémoire#

Une distinction majeure entre les deux architectures réside dans leurs méthodologies d'entraînement. La dépendance de DAMO-YOLO à la distillation signifie que l'entraînement d'un nouveau modèle à partir de zéro ou le réglage fin sur un jeu de données de vision par ordinateur personnalisé exige souvent beaucoup plus de VRAM et de temps de calcul GPU.

En revanche, les modèles intégrés dans l'écosystème Ultralytics, tels que YOLOv7 et les versions ultérieures, sont fortement optimisés pour les besoins en mémoire. Ils permettent aux développeurs d'utiliser des tailles de batch plus grandes sur du matériel grand public sans rencontrer d'erreurs de type out-of-memory, simplifiant ainsi le processus de suivi d'expérimentation et d'itération.

Link to this sectionL'avantage Ultralytics#

Bien que YOLOv7 et DAMO-YOLO offrent tous deux des fonctionnalités convaincantes, le déploiement de modèles au sein de l'écosystème Ultralytics offre une expérience développeur inégalée.

  • Facilité d'utilisation : Le package Python Ultralytics offre une API unifiée et simple. Tu peux rapidement basculer entre différentes architectures de modèles, lancer des boucles d'entraînement ou exécuter une inférence avec quelques lignes de code.
  • Écosystème bien maintenu : Ultralytics fournit des mises à jour fréquentes, assurant une compatibilité native avec les dernières versions de PyTorch et les pilotes CUDA. Il simplifie également l'exportation des modèles vers des formats comme ONNX, TensorRT et OpenVINO.
  • Polyvalence : Contrairement à DAMO-YOLO, qui est strictement un détecteur d'objets, l'écosystème Ultralytics prend en charge nativement diverses tâches. Les modèles de la famille Ultralytics peuvent effectuer de la détection par boîte englobante standard, de l'estimation de pose, de la segmentation d'instance et des boîtes englobantes orientées (OBB).

Link to this sectionExemple de code : Pour bien démarrer rapidement#

Voici à quel point il est facile de charger, entraîner et exécuter une inférence en utilisant les modèles Ultralytics :

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model (or newer models like yolo26n.pt)
model = YOLO("yolov7.pt")

# Train the model on the COCO8 dataset with automated hyperparameter handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX format for deployment
model.export(format="onnx")
Exportation de modèles

Avec Ultralytics, l'exportation de tes poids entraînés vers divers formats accélérés par le matériel (comme TensorRT ou CoreML) est gérée via un seul argument dans la commande d'exportation, économisant des heures de configurations de scripts complexes.

Link to this sectionLa prochaine génération : YOLO26#

Bien que YOLOv7 reste une architecture héritée solide, le domaine a rapidement progressé. Pour les nouveaux déploiements, Ultralytics YOLO26 (sorti en janvier 2026) est le standard recommandé, surpassant les générations précédentes sur presque toutes les métriques.

  • Conception end-to-end sans NMS : Introduit pour la première fois dans YOLOv10, YOLO26 élimine nativement le post-traitement par Non-Maximum Suppression (NMS). Cela garantit une inférence déterministe à latence ultra-faible, critique pour la robotique et les technologies de conduite autonome.
  • Optimiseur MuSGD : Inspiré par des techniques avancées d'entraînement de LLM (comme le Kimi K2 de Moonshot AI), cet optimiseur hybride mélange SGD et Muon pour offrir un entraînement hautement stable et une convergence plus rapide à travers les jeux de données.
  • Inférence CPU jusqu'à 43 % plus rapide : En supprimant stratégiquement la Distribution Focal Loss (DFL), YOLO26 améliore considérablement les performances sur les plateformes de edge computing et les CPU.
  • ProgLoss + STAL : Ces fonctions de perte avancées permettent des améliorations substantielles dans la détection de petits objets, rendant YOLO26 exceptionnellement bien adapté à l'imagerie aérienne et à la surveillance détaillée.

En savoir plus sur YOLO26

Link to this sectionCas d'utilisation idéaux#

Link to this sectionQuand choisir DAMO-YOLO#

  • Recherche académique en NAS : Si ton organisation s'investit massivement dans l'étude des méthodologies de recherche d'architecture neuronale.
  • Latence hyper-contrainte sur du matériel spécifique : Si tu disposes des ressources nécessaires pour mener des recherches NAS exhaustives afin de trouver un backbone sur mesure pour une puce accélératrice IA personnalisée.

Link to this sectionQuand choisir YOLOv7#

  • Pipelines GPU existants : Pour les équipes maintenant des pipelines de production hérités profondément optimisés autour de l'architecture E-ELAN spécifique de YOLOv7 sur du matériel NVIDIA haut de gamme.

Link to this sectionPourquoi migrer vers les modèles Ultralytics modernes (YOLO11 / YOLO26)#

Pour la grande majorité des applications d'entreprise — de l'analyse de vente au détail et de la fabrication intelligente aux soins de santé — les modèles Ultralytics modernes sont inégalés. L'intégration avec la plateforme Ultralytics fournit un pipeline ML complet, offrant une facilité d'utilisation, une documentation supérieure, un support communautaire robuste et une polyvalence multitâche. Que tu suives des stocks sur un Raspberry Pi ou que tu exécutes de lourdes analyses dans le cloud, des modèles comme YOLO26 offrent l'équilibre de performance idéal pour l'avenir de la vision par ordinateur.

Commentaires