YOLOX vs. DAMO-YOLO : un examen approfondi de l’évolution de la détection d’objets

Le paysage de la détection d'objets est en constante évolution, les chercheurs repoussant continuellement les limites de la précision, de la vitesse d'inférence et de l'efficacité architecturale. Deux contributions notables à ce domaine sont YOLOX et DAMO-YOLO. YOLOX a revitalisé la famille YOLO en introduisant un mécanisme sans ancrage, tandis que DAMO-YOLO a exploité la recherche d'architecture neuronale (NAS) pour optimiser les performances spécifiquement pour les applications industrielles.

Ce guide fournit une comparaison technique complète pour aider les développeurs et les chercheurs à comprendre les nuances de chaque modèle, leurs cas d'utilisation idéaux et comment ils se comparent aux solutions modernes comme Ultralytics YOLO11.

YOLOX : Le pionnier sans ancrage

Développé par Megvii, YOLOX a représenté un changement important dans la lignée YOLO lors de sa sortie en 2021. En passant à une conception sans ancrage, il a simplifié le processus de formation et éliminé le besoin de calculs complexes de boîtes d'ancrage, qui étaient un élément essentiel des itérations précédentes comme YOLOv4 et YOLOv5.

Détails techniques :

Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation :Megvii
Date : 2021-07-18
Arxiv :https://arxiv.org/abs/2107.08430
GitHub :https://github.com/Megvii-BaseDetection/YOLOX
Docs :https://yolox.readthedocs.io/en/latest/

En savoir plus sur YOLOX

Principales caractéristiques architecturales

YOLOX intègre plusieurs techniques avancées pour atteindre ses performances:

Mécanisme sans ancres : En prédisant directement les centres des objets, YOLOX réduit le nombre de paramètres de conception et les étapes de réglage heuristiques associées aux méthodes basées sur des ancres.
Tête découplée : Contrairement aux têtes couplées qui gèrent la classification et la régression ensemble, YOLOX sépare ces tâches. Ce découplage améliore la vitesse de convergence et la précision globale.
SimOTA : Une stratégie avancée d'attribution de label appelée Simplified Optimal Transport Assignment (SimOTA) attribue dynamiquement des échantillons positifs aux vérités terrain, optimisant ainsi l'objectif de formation plus efficacement que la correspondance statique.

Pourquoi Anchor-Free ?

Les détecteurs sans ancres simplifient la conception du modèle en supprimant la nécessité d'ajuster manuellement les hyperparamètres des boîtes d'ancrage (comme la taille et le rapport hauteur/largeur) pour des ensembles de données spécifiques. Cela conduit souvent à une meilleure généralisation à travers diverses formes d'objets.

DAMO-YOLO : Recherche d'architecture neuronale optimisée

Lancé par le groupe Alibaba fin 2022, DAMO-YOLO se concentre sur la réduction de l'écart entre les hautes performances et la faible latence. Il utilise des techniques d'apprentissage automatique automatisées pour découvrir des structures de réseau efficaces, ce qui en fait un concurrent de taille pour les applications industrielles nécessitant un traitement en temps réel.

Détails techniques :

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 2022-11-23
Arxiv :https://arxiv.org/abs/2211.15444v2
GitHub :https://github.com/tinyvision/DAMO-YOLO
Docs :https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

En savoir plus sur DAMO-YOLO

Principales caractéristiques architecturales

DAMO-YOLO introduit plusieurs "nouvelles technologies" dans l'écosystème YOLO :

Réseau MAE-NAS : Le modèle utilise une épine dorsale générée par la recherche d'architecture neuronale (NAS) sur la base de la mesure de l'erreur absolue moyenne (MAE). Cela garantit que l'extracteur de caractéristiques est parfaitement adapté à la tâche de détection.
RepGFPN : Une conception de cou lourde basée sur le Generalized Feature Pyramid Network (GFPN) qui utilise la reparamétrisation pour maximiser l'efficacité de la fusion des caractéristiques tout en maintenant une faible latence d'inférence.
ZeroHead : Une tête de détection simplifiée qui réduit la surcharge de calcul sans sacrifier la précision des prédictions.
AlignedOTA : Une évolution de l’attribution d’étiquettes qui aligne mieux les scores de classification avec la précision de la régression, garantissant que les prédictions de haute qualité sont priorisées.

Analyse des performances

Lors de la comparaison de ces deux modèles, il est crucial d'examiner les compromis entre la précision (mAP) et la vitesse d'inférence (latence). Le tableau ci-dessous met en évidence que, bien que YOLOX reste compétitif, l'architecture plus récente de DAMO-YOLO offre généralement une vitesse supérieure sur le matériel GPU pour des niveaux de précision similaires.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Points de comparaison critiques

Vitesse vs. Précision : DAMO-YOLO-Tiny (DAMO-YOLOt) atteint un mAP plus élevé (42,0) que YOLOX-Small (40,5) tout en fonctionnant plus rapidement (2,32 ms vs 2,56 ms) et en utilisant moins de FLOP. Cela démontre l’efficacité du backbone optimisé par NAS.
Efficacité des paramètres : YOLOX-Nano est extrêmement léger (0,91 million de paramètres), ce qui en fait une option viable pour les dispositifs de bord à ressources extrêmement limitées où chaque octet compte, bien que YOLO n'offre pas de concurrent direct à cette échelle spécifique.
Performance haut de gamme : Bien que YOLOX-X pousse la précision à 51,1 mAP, il le fait avec un nombre massif de paramètres (99,1 M). DAMO-YOLO-Large atteint un mAP comparable de 50,8 avec moins de la moitié des paramètres (42,1 M), ce qui met en évidence une conception plus moderne et efficace.

Cas d'utilisation et applications

Le choix entre YOLOX et DAMO-YOLO dépend souvent de l'environnement de déploiement spécifique.

YOLOX est bien adapté aux environnements de recherche et aux scénarios nécessitant une implémentation simple et sans ancrage. Sa maturité signifie qu’il existe de nombreuses ressources communautaires et didacticiels disponibles. C’est un candidat solide pour les tâches de détection d’objets à usage général où la compatibilité héritée est nécessaire.
DAMO-YOLO excelle dans l'automatisation industrielle et les applications de ville intelligente où une faible latence sur le matériel GPU est essentielle. Son architecture optimisée le rend idéal pour l'analyse vidéo à haut débit et la détection de défauts en temps réel dans la fabrication.

Ultralytics YOLO11 : L’alternative supérieure

Bien que YOLOX et DAMO-YOLO offrent des capacités de détection robustes, ils sont largement limités à cette seule tâche et manquent d'un écosystème unifié et de soutien. Pour les développeurs à la recherche d'une solution complète, Ultralytics YOLO11 représente l'état de l'art en matière d'IA de vision.

En savoir plus sur YOLO11

Les modèles Ultralytics sont conçus non seulement comme des architectures, mais aussi comme des outils de développement complets.

Pourquoi choisir Ultralytics YOLO11 ?

Polyvalence entre les tâches : Contrairement à YOLOX et DAMO-YOLO, qui se concentrent principalement sur la detect de boîtes englobantes, YOLO11 prend en charge nativement un large éventail de tâches de vision par ordinateur. Cela comprend la segment d’instance, l’estimation de pose, la detect d’objets orientés (OBB) et la classify d’images.
Facilité d’utilisation inégalée : L’API Python Ultralytics vous permet de former, de valider et de déployer des modèles avec seulement quelques lignes de code. Il n’est pas nécessaire de cloner des référentiels complexes ou de configurer manuellement les chemins d’environnement.
Écosystème bien maintenu : Ultralytics fournit des mises à jour fréquentes, assurant la compatibilité avec les dernières versions de PyTorch, ONNX et TensorRT. La communauté active et la documentation exhaustive signifient que vous n'êtes jamais bloqué sans support.
Efficacité et mémoire lors de l'entraînement : YOLO11 est conçu pour être efficace. Il nécessite généralement moins de mémoire GPU pendant l'entraînement par rapport aux anciennes architectures ou aux modèles lourds basés sur des transformateurs, ce qui permet des itérations plus rapides et réduit les coûts de calcul en nuage.
Équilibre des performances : YOLO11 s'appuie sur l'héritage des versions précédentes de YOLO pour offrir un équilibre optimal entre vitesse et précision, ce qui le rend adapté au déploiement sur tous les types d'appareils, des appareils périphériques NVIDIA Jetson aux serveurs cloud d'entreprise.

Facilité d'utilisation avec Ultralytics

L'entraînement d'un modèle YOLO11 est incroyablement simple par rapport aux frameworks traditionnels.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

Conclusion

YOLOX et DAMO-YOLO ont tous deux gagné leur place dans l'histoire de la vision par ordinateur. YOLOX a popularisé avec succès le paradigme sans ancrage, tandis que DAMO-YOLO a démontré la puissance de la recherche d'architecture neuronale pour optimiser les détecteurs industriels. Cependant, pour les applications modernes nécessitant flexibilité, prise en charge à long terme et capacités multi-tâches, Ultralytics YOLO11 se distingue comme le premier choix. Son intégration dans un écosystème robuste, combinée à des performances de pointe et à un encombrement mémoire minimal, permet aux développeurs de créer facilement des solutions d'IA évolutives et efficaces.

Explorer d'autres modèles

Pour une perspective plus large sur la façon dont ces modèles se comparent à d'autres architectures de pointe, explorez nos pages de comparaison détaillées :

YOLOX vs. DAMO-YOLO : un examen approfondi de l’évolution de la détection d’objets

YOLOX : Le pionnier sans ancrage

Principales caractéristiques architecturales

DAMO-YOLO : Recherche d'architecture neuronale optimisée

Principales caractéristiques architecturales

Analyse des performances

Points de comparaison critiques

Cas d'utilisation et applications

Ultralytics YOLO11 : L’alternative supérieure

Pourquoi choisir Ultralytics YOLO11 ?

Conclusion

Explorer d'autres modèles

Commentaires