Link to this sectionYOLOX vs DAMO-YOLO#
L'évolution de la détection d'objets en temps réel a connu de nombreux changements de paradigmes, des architectures basées sur les ancres à celles sans ancres, et des backbones conçus manuellement à la recherche d'architecture neuronale (NAS) automatisée. Dans cette comparaison technique approfondie, nous analyserons deux étapes importantes de ce parcours : YOLOX et DAMO-YOLO. Nous explorerons leurs innovations architecturales, leurs méthodologies d'entraînement et les compromis de performance, tout en soulignant comment le moderne Ultralytics YOLO26 offre une alternative inégalée pour les développeurs d'aujourd'hui.
Link to this sectionYOLOX : Pionnier du paradigme sans ancres#
Publié le 18 juillet 2021 par Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun chez Megvii, YOLOX a marqué un tournant critique en intégrant avec succès une conception sans ancres dans la famille YOLO. Décrit dans leur rapport technique détaillé sur ArXiv, YOLOX visait à combler le fossé entre la recherche universitaire et le déploiement industriel.
Link to this sectionInnovations architecturales clés#
YOLOX a introduit plusieurs changements structurels fondamentaux qui ont considérablement amélioré ses prédécesseurs :
- Mécanisme sans ancres : En prédisant directement le centre d'un objet et les dimensions de sa boîte englobante, YOLOX a réduit le nombre d'heuristiques de conception et simplifié les processus complexes de clustering d'ancres. Cela le rend hautement adaptable à divers scénarios de vision par ordinateur.
- Tête découplée : Les modèles YOLO traditionnels utilisaient une tête couplée unique pour la classification et la régression. YOLOX a mis en œuvre une tête découplée, traitant la classification et la localisation séparément, ce qui a permis une convergence beaucoup plus rapide et une précision améliorée.
- Assignation d'étiquettes SimOTA : Une version simplifiée de l'Optimal Transport Assignment (OTA) a été utilisée pour assigner dynamiquement les échantillons positifs, réduisant ainsi les temps d'entraînement et surmontant les ambiguïtés liées aux assignations par point central.
La conception de la tête découplée de YOLOX a fortement influencé les générations suivantes de détecteurs d'objets, devenant une fonctionnalité standard dans de nombreux modèles modernes.
Link to this sectionDAMO-YOLO : Recherche d'architecture automatisée à grande échelle#
Développé par Xianzhe Xu et une équipe de chercheurs du Alibaba Group, DAMO-YOLO a été introduit le 23 novembre 2022. Comme détaillé dans leur publication ArXiv, le modèle a largement utilisé la recherche d'architecture neuronale (NAS) pour repousser la frontière de Pareto en matière de vitesse et de précision.
Link to this sectionInnovations architecturales clés#
La stratégie de DAMO-YOLO repose sur l'automatisation de la conception de structures efficaces :
- Backbones MAE-NAS : Utilisant un algorithme évolutionnaire multi-objectifs, DAMO-YOLO a découvert des backbones hautement efficaces, personnalisés pour des budgets de latence spécifiques, notamment lors de l'exportation vers des frameworks comme TensorRT.
- Efficient RepGFPN : Une conception de cou lourd qui améliore considérablement la fusion des caractéristiques à travers différentes résolutions spatiales, ce qui est très bénéfique pour l'analyse d'imagerie aérienne et la détection d'objets à des échelles variables.
- ZeroHead : Une tête de prédiction simplifiée qui réduit la redondance computationnelle sans sacrifier la moyenne de la précision moyenne (mAP) globale du modèle.
- AlignedOTA et Distillation : Intègre une assignation d'étiquettes avancée et une distillation de connaissances enseignant-élève pour extraire une performance maximale des petits modèles étudiants.
Link to this sectionComparaison des performances et des mesures#
Lorsque nous comparons ces deux modèles, nous devons examiner le nombre de leurs paramètres, les FLOPs requis et les profils de latence. Vous trouverez ci-dessous les données de référence comparant YOLOX et DAMO-YOLO à différentes échelles.
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97,3 |
Bien que les deux modèles obtiennent des résultats impressionnants, ils présentent des bémols. YOLOX nécessite un réglage minutieux de sa tête découplée, tandis que la dépendance importante de DAMO-YOLO à la distillation rend le réentraînement sur des jeux de données personnalisés très intensif en ressources, exigeant de grandes quantités de mémoire GPU.
Link to this sectionCas d'utilisation et recommandations#
Le choix entre YOLOX et DAMO-YOLO dépend des exigences spécifiques de ton projet, des contraintes de déploiement et de tes préférences en matière d'écosystème.
Link to this sectionQuand choisir YOLOX#
YOLOX est un choix solide pour :
- Recherche sur la détection sans ancres : La recherche académique utilisant l'architecture propre et sans ancres de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou des fonctions de perte.
- Appareils en périphérie ultra-légers : Le déploiement sur des microcontrôleurs ou du matériel mobile ancien où l'empreinte extrêmement réduite de la variante YOLOX-Nano (0.91 M de paramètres) est critique.
- Études sur l'assignation de labels SimOTA : Les projets de recherche étudiant les stratégies d'assignation de labels basées sur le transport optimal et leur impact sur la convergence de l'entraînement.
Link to this sectionQuand choisir DAMO-YOLO#
DAMO-YOLO est recommandé pour :
- Analytique vidéo à haut débit : Traitement de flux vidéo FPS élevés sur une infrastructure GPU NVIDIA fixe où le débit par lot est la mesure principale.
- Lignes de fabrication industrielle : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, comme l'inspection qualité en temps réel sur les lignes d'assemblage.
- Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.
Link to this sectionQuand choisir Ultralytics (YOLO26)#
Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :
- Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
- Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Link to this sectionL'avantage Ultralytics : Présentation de YOLO26#
Alors que YOLOX et DAMO-YOLO représentent des jalons historiques importants, les développeurs modernes ont besoin d'une solution qui associe une précision de pointe à une facilité d'utilisation inégalée. C'est là que Ultralytics YOLO26 transforme le paysage. Sorti en janvier 2026, YOLO26 s'appuie sur l'héritage des modèles sans NMS pour offrir l'équilibre ultime entre vitesse, précision et expérience développeur.
Link to this sectionPourquoi choisir YOLO26 ?#
L'écosystème Ultralytics intégré surpasse les dépôts universitaires fragmentés en offrant :
- Conception de bout en bout sans NMS : YOLO26 élimine nativement la suppression non maximale (NMS) lors de l'inférence. Cela se traduit par une latence incroyablement rapide et prévisible, cruciale pour les déploiements en périphérie (edge) et les véhicules autonomes.
- Suppression du DFL : En supprimant la Distribution Focal Loss, YOLO26 simplifie les processus d'exportation vers des appareils en périphérie, réduisant considérablement les besoins en mémoire pour les applications légères.
- Optimiseur MuSGD : YOLO26 emprunte des innovations de formation LLM avec son optimiseur hybride SGD et Muon, garantissant une stabilité d'entraînement solide comme le roc et une convergence ultra-rapide.
- Jusqu'à 43 % d'inférence CPU plus rapide : Grâce à des optimisations structurelles profondes, YOLO26 s'exécute de manière fulgurante sur les CPU sans avoir besoin de matériel GPU coûteux.
- Fonctions de perte avancées : L'intégration de ProgLoss + STAL apporte des améliorations majeures dans la reconnaissance des petits objets, ce qui le rend idéal pour des tâches comme les inspections par drone et la surveillance IoT.
- Polyvalence : Contrairement à DAMO-YOLO, qui est strictement un détecteur, YOLO26 prend nativement en charge la segmentation d'instances, l'estimation de pose, la classification d'images et les tâches de boîte englobante orientée (OBB) au sein d'un cadre unique et unifié.
Avec l'API Python Ultralytics, tu n'as pas besoin de configurer manuellement des pipelines de distillation complexes ou d'écrire des centaines de lignes de code C++ pour déployer ton modèle.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")Link to this sectionAutres modèles à considérer#
L'écosystème de vision par ordinateur est vaste. En fonction de tes contraintes spécifiques, tu pourrais également souhaiter explorer d'autres architectures entièrement prises en charge par l'écosystème Ultralytics :
- YOLO11 : Le prédécesseur hautement performant de YOLO26, connu pour sa robustesse dans l'analyse de vente au détail et le contrôle qualité en fabrication.
- YOLOv8 : Un modèle légendaire, hautement stable et sans ancres, qui a popularisé le déploiement en périphérie à grande échelle.
- RT-DETR : Un Transformer de détection en temps réel développé par Baidu, offrant une excellente alternative pour les tâches bénéficiant fortement des mécanismes d'attention globale, bien qu'au prix de besoins plus élevés en mémoire d'entraînement.
Link to this sectionConclusion#
YOLOX et DAMO-YOLO ont tous deux apporté des concepts essentiels à la progression du deep learning : YOLOX validant l'approche découplée sans ancres, et DAMO-YOLO démontrant la puissance de la recherche d'architecture automatisée. Cependant, pour la production réelle, la complexité de leurs bases de code de recherche originales peut ralentir les équipes agiles.
En tirant parti de la plateforme Ultralytics complète, les développeurs peuvent contourner ces obstacles. Avec la conception de bout en bout de YOLO26, ses vitesses CPU supérieures et sa documentation étendue, atteindre une IA de vision de pointe est plus accessible que jamais. Que tu construises des infrastructures de ville intelligente, des diagnostics de santé ou de la robotique avancée, Ultralytics fournit le chemin le plus efficace entre les données brutes et le déploiement robuste en conditions réelles.