Link to this sectionDAMO-YOLO vs YOLOX#

Le paysage de la vision par ordinateur en temps réel est en constante évolution. Deux étapes notables dans ce parcours sont DAMO-YOLO et YOLOX, qui apportent chacune des innovations uniques au problème de la détection d'objets à haute vitesse et haute précision. Bien que les deux modèles aient contribué de manière significative à la communauté open-source, comprendre leurs différences architecturales, leurs méthodologies d'entraînement et leurs scénarios de déploiement idéaux est crucial pour les ingénieurs en apprentissage automatique.

Ce guide complet explore les nuances techniques des deux modèles et souligne pourquoi les alternatives modernes comme la plateforme Ultralytics YOLO26 offrent des performances supérieures et une grande facilité d'utilisation pour les environnements de production actuels.

Link to this sectionAperçus des modèles#

Link to this sectionDétails sur DAMO-YOLO#

Développé par une équipe de chercheurs du groupe Alibaba, DAMO-YOLO a été introduit comme une méthode de détection d'objets hautement efficace qui tire parti de la découverte automatique d'architecture. Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 23/11/2022
Arxiv : https://arxiv.org/abs/2211.15444v2
GitHub : https://github.com/tinyvision/DAMO-YOLO
Docs : Documentation DAMO-YOLO

En savoir plus sur DAMO-YOLO

Link to this sectionDétails de YOLOX#

Créé par des chercheurs de Megvii, YOLOX visait à combler le fossé entre les communautés de recherche et industrielles en faisant passer la série YOLO à une conception sans ancres (anchor-free), simplifiant radicalement l'architecture tout en obtenant de meilleures performances à l'époque. Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation : Megvii
Date : 18/07/2021
Arxiv : https://arxiv.org/abs/2107.08430
GitHub : https://github.com/Megvii-BaseDetection/YOLOX
Docs : Documentation YOLOX

En savoir plus sur YOLOX

Link to this sectionAnalyse architecturale#

Link to this sectionArchitecture de DAMO-YOLO#

DAMO-YOLO repose fortement sur la recherche d'architecture neuronale (NAS). Les composants principaux incluent :

Backbones MAE-NAS : Utilise un algorithme de recherche évolutionnaire multi-objectifs pour découvrir des backbones qui offrent l'équilibre optimal entre vitesse d'inférence et précision.
Efficient RepGFPN : Une conception "heavy-neck" adaptée pour la fusion de caractéristiques, qui aide le modèle à maintenir une précision élevée à travers différentes échelles d'objets.
ZeroHead : Une tête de détection simplifiée et légère qui réduit la charge computationnelle dans les couches de prédiction finales.

Link to this sectionArchitecture de YOLOX#

YOLOX a adopté une approche différente, en se concentrant sur la simplicité structurelle et une conception sans ancres :

Mécanisme sans ancres (Anchor-Free) : En prédisant directement les coordonnées de la bbox sans ancres prédéfinies, YOLOX réduit le nombre de paramètres de conception et les ajustements heuristiques requis.
Tête découplée (Decoupled Head) : Il sépare les tâches de classification et de régression dans différentes branches de caractéristiques, ce qui améliore la vitesse de convergence et la précision globale.
Assignation d'étiquettes SimOTA : Une stratégie avancée d'assignation d'étiquettes qui alloue dynamiquement des échantillons positifs aux vérités terrain, améliorant ainsi l'efficacité de l'entraînement.

Philosophies de conception

Alors que DAMO-YOLO utilise des recherches NAS pilotées par machine pour trouver des architectures optimales sous des contraintes strictes, YOLOX tire parti d'élégantes simplifications conçues par l'homme (comme les têtes sans ancres) pour rationaliser le pipeline de détection d'objets.

Link to this sectionComparaison des performances#

L'évaluation de ces modèles nécessite d'examiner le mAP (mean Average Precision), les vitesses d'inférence et le nombre de paramètres. Vous trouverez ci-dessous un tableau comparatif détaillé des variantes standard et légères pour les deux architectures.

Modèle	taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97,3

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Alors que YOLOXx atteint le mAP absolu le plus élevé à 51,1, DAMO-YOLOl délivre un mAP de 50,8 très compétitif avec moins de la moitié des paramètres (42,1M contre 99,1M) et une exécution TensorRT nettement plus rapide.

Link to this sectionMéthodologies de formation#

Link to this sectionEntraîner DAMO-YOLO#

DAMO-YOLO utilise une amélioration par distillation complexe pendant l'entraînement. Souvent, un grand modèle « enseignant » est entraîné en premier, et ses connaissances sont distillées dans des modèles « étudiants » plus petits. Il emploie également AlignedOTA pour l'assignation dynamique d'étiquettes. Bien que très efficace, ce processus d'entraînement multi-étapes augmente considérablement le temps de calcul GPU et la surcharge de mémoire nécessaire.

Link to this sectionEntraîner YOLOX#

YOLOX repose sur de fortes stratégies d'augmentation de données comme MixUp et Mosaic. Cependant, les auteurs ont découvert que désactiver ces fortes augmentations pour les 15 dernières époques permet au modèle de combler l'écart de réalité, augmentant ainsi considérablement les métriques de précision finale.

Link to this sectionCas d'utilisation idéaux#

DAMO-YOLO : Mieux adapté aux déploiements industriels à enjeux élevés où des pipelines de distillation côté serveur peuvent être pris en charge, et où le matériel cible (comme des GPU NVIDIA spécifiques) bénéficie directement de son architecture NAS à "heavy-neck".
YOLOX : Excellent pour les développeurs recherchant une approche purement sans ancres. Le modèle extrêmement léger YOLOXnano le rend viable pour les appareils Android hérités, le edge computing et les capteurs IoT très contraints où le nombre de paramètres est le goulot d'étranglement absolu.

Link to this sectionL'avantage Ultralytics : place à YOLO26#

Alors que DAMO-YOLO et YOLOX représentent d'excellentes étapes, les développeurs d'aujourd'hui exigent des solutions plus complètes, polyvalentes et faciles à utiliser. C'est là que la plateforme Ultralytics et le tout nouveau Ultralytics YOLO26 brillent.

Sorti en janvier 2026, YOLO26 est le modèle ultime recommandé pour toutes les tâches de vision par ordinateur. Il introduit une série de percées qui surpassent les anciennes architectures :

Conception de bout en bout sans NMS : YOLO26 élimine nativement le post-traitement NMS (Non-Maximum Suppression). Cela permet un déploiement nettement plus simple et plus rapide, évitant les goulots d'étranglement de latence inhérents aux têtes de détection traditionnelles.
Jusqu'à 43% d'inférence CPU plus rapide : En supprimant stratégiquement la Distribution Focal Loss (DFL) et en optimisant les couches, YOLO26 offre des vitesses inégalées sur les CPU et le matériel edge.
Optimiseur MuSGD : Inspiré par les techniques d'entraînement des grands modèles de langage (LLM), YOLO26 introduit l'optimiseur MuSGD (un hybride de SGD et Muon), résultant en des exécutions d'entraînement très stables et une convergence beaucoup plus rapide par rapport aux configurations héritées de YOLOX.
ProgLoss + STAL : Ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance des petits objets, rendant YOLO26 largement supérieur pour les images de drones et la robotique.
Polyvalence : Contrairement à DAMO-YOLO, qui est strictement destiné à la détection d'objets, YOLO26 gère de manière transparente la segmentation d'instance, l'estimation de pose, la classification et les Oriented Bounding Boxes (OBB) nativement au sein du même écosystème bien entretenu.

En savoir plus sur YOLO26

Link to this sectionFacilité d'utilisation avec Ultralytics#

L'API Python d'Ultralytics rationalise l'expérience du développeur. L'entraînement d'un modèle YOLO26 à la pointe de la technologie nécessite beaucoup moins de code répétitif (boilerplate) et évite les pipelines de distillation complexes de DAMO-YOLO. De plus, les modèles Ultralytics présentent des besoins en mémoire CUDA exceptionnellement bas pendant l'entraînement par rapport aux modèles lourds basés sur les Transformer.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Entraînement et déploiement dans le cloud

Tu peux annoter, entraîner et déployer automatiquement des modèles à la périphérie (edge) en utilisant la plateforme Ultralytics, qui gère pour toi tout le versioning des données et l'approvisionnement des GPU cloud.

Link to this sectionConclusion#

Le choix entre DAMO-YOLO et YOLOX dépend de contraintes spécifiques : DAMO-YOLO offre des ratios vitesse/précision exceptionnels sur des GPU spécifiques via NAS, tandis que YOLOX fournit une conception propre et sans ancres, idéale pour les scénarios edge légers.

Cependant, pour les équipes recherchant une solution moderne et pérenne avec une communauté active, l'architecture Ultralytics YOLO26 est le choix définitif. Sa conception sans NMS, son inférence CPU rapide et son API unifiée pour les tâches de détection, de segmentation et de pose le rendent inégalé pour passer en douceur de la recherche à une production réelle robuste.

Pour les développeurs intéressés par l'exploration d'autres architectures modernes, nous recommandons également de consulter Ultralytics YOLO11 ou les modèles basés sur les Transformer comme RT-DETR disponibles dans la documentation complète d'Ultralytics.

Contributeurs

GLglenn-jocher¹³

Créé 27 janv. 2025Mis à jour il y a 3 semaines