YOLOX vs. DAMO-YOLO : Une comparaison technique
Choisir le bon modèle de détection d'objets est une décision cruciale qui équilibre les compromis entre la précision, la vitesse d'inférence et le coût de calcul. Cette page offre une comparaison technique détaillée entre deux modèles puissants dans le paysage de la vision par ordinateur : YOLOX et DAMO-YOLO. Nous examinerons en profondeur leurs conceptions architecturales, leurs mesures de performance et leurs cas d'utilisation idéaux pour vous aider à sélectionner le meilleur modèle pour les besoins de votre projet.
YOLOX : Détecteur haute performance sans ancres
YOLOX est un détecteur sans ancrage haute performance développé par Megvii. Introduit en 2021, il visait à simplifier la conception des modèles YOLO précédents en éliminant les boîtes d'ancrage tout en améliorant simultanément les performances, comblant ainsi efficacement le fossé entre la recherche académique et les applications industrielles.
Détails techniques :
- Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
- Organisation : Megvii
- Date : 2021-07-18
- Arxiv : https://arxiv.org/abs/2107.08430
- GitHub : https://github.com/Megvii-BaseDetection/YOLOX
- Documentation : https://yolox.readthedocs.io/en/latest/
Architecture et principales fonctionnalités
YOLOX a introduit plusieurs innovations architecturales significatives dans la famille YOLO :
- Conception sans ancres : En supprimant les boîtes d'ancrage prédéfinies, YOLOX simplifie le pipeline de détection et réduit le nombre d'hyperparamètres qui nécessitent un réglage. Ce choix de conception peut conduire à une meilleure généralisation sur différents ensembles de données et tailles d'objets.
- Tête découplée : Contrairement aux modèles YOLO précédents qui utilisaient une tête couplée pour la classification et la régression, YOLOX utilise une tête de détection découplée. On pense que cette séparation résout un problème de désalignement entre les deux tâches, ce qui améliore la précision et accélère la convergence pendant l'entraînement.
- Stratégies d'entraînement avancées : YOLOX intègre des techniques fortes d'augmentation des données comme MixUp et Mosaic. Il introduit également SimOTA (Simplified Optimal Transport Assignment), une stratégie d'attribution dynamique des étiquettes qui sélectionne les échantillons positifs optimaux pour chaque objet de vérité terrain, améliorant ainsi les performances.
Points forts et faiblesses
Points forts :
- Haute précision : YOLOX atteint des scores mAP compétitifs, en particulier avec ses plus grandes variantes.
- Pipeline simplifié : L’approche sans ancres réduit la complexité associée à la conception et au réglage des boîtes d’ancrage.
- Établi et mature : En tant que modèle plus ancien, YOLOX possède un historique bien documenté et de nombreux exemples de déploiement et tutoriels tiers disponibles.
Faiblesses :
- Plus lent que les modèles plus récents : Bien qu'il ait été efficace pour son époque, YOLOX peut être dépassé par des architectures plus récentes et hautement optimisées comme les modèles DAMO-YOLO et Ultralytics YOLO en termes de vitesse d'inférence.
- Écosystème externe : YOLOX ne fait pas nativement partie de l'écosystème Ultralytics, ce qui peut entraîner une courbe d'apprentissage plus abrupte et davantage d'efforts pour l'intégration avec des outils tels que Ultralytics HUB pour une MLOps rationalisée.
- Polyvalence limitée : Il s'agit principalement d'un modèle de détection d'objets et il ne prend pas en charge nativement d'autres tâches de vision telles que la segmentation d'instance ou l'estimation de pose que l'on retrouve dans les frameworks modernes.
Cas d'utilisation
YOLOX est un choix judicieux pour les applications où un détecteur éprouvé et de haute précision est nécessaire :
- Automatisation industrielle : Tâches telles que le contrôle qualité sur les chaînes de production où la précision est essentielle.
- Recherche académique : Il constitue une base de référence solide pour la recherche sur les méthodes de détection sans ancrage et les stratégies d'attribution d'étiquettes.
- Sécurité et surveillance : Convient aux systèmes de sécurité qui nécessitent un équilibre fiable entre précision et vitesse.
DAMO-YOLO : Vitesse et précision avec une technologie avancée
DAMO-YOLO, développé par le groupe Alibaba, est une méthode de détection d’objets rapide et précise qui intègre plusieurs nouvelles technologies pour faire progresser l’état de l’art en matière de détection en temps réel. Il se concentre sur la réalisation d’un équilibre optimal entre la vitesse et la précision grâce à des composants architecturaux avancés.
Détails techniques :
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Alibaba Group
- Date : 2022-11-23
- Arxiv : https://arxiv.org/abs/2211.15444
- GitHub : https://github.com/tinyvision/DAMO-YOLO
- Documentation : https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Architecture et principales fonctionnalités
La haute performance de DAMO-YOLO est due à une combinaison de techniques de pointe :
- Colonnes vertébrales basées sur NAS : Elle utilise une colonne vertébrale générée par Neural Architecture Search (NAS), ce qui donne un extracteur de caractéristiques très efficace nommé GiraffeNet.
- Neck RepGFPN efficace : Le modèle intègre une structure de neck efficace basée sur Generalized-FPN avec reparamétrisation, ce qui améliore la fusion des caractéristiques de différentes échelles avec une surcharge de calcul minimale.
- ZeroHead : DAMO-YOLO introduit une conception de tête couplée et légère qui réduit considérablement le nombre de paramètres et la complexité du calcul de la tête de détection tout en maintenant une précision élevée.
- Attribution de label AlignedOTA : Elle utilise une nouvelle stratégie d'attribution de labels qui prend en compte l'alignement de la classification et de la régression pour sélectionner les meilleures ancres, ce qui améliore la stabilité de l'entraînement et les performances finales du modèle.
Analyse des performances
Comme le montre le tableau ci-dessous, les modèles DAMO-YOLO démontrent un équilibre exceptionnel entre précision et vitesse, en particulier sur le matériel GPU. Par exemple, DAMO-YOLO-t atteint un mAP plus élevé que YOLOX-s tout en étant plus rapide. Cette efficacité est constante dans toute sa famille de modèles, offrant souvent de meilleures performances avec moins de paramètres et de FLOPs par rapport aux homologues YOLOX.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Points forts et faiblesses
Points forts :
- Excellent compromis vitesse-précision : DAMO-YOLO est hautement optimisé pour l’inférence GPU rapide, ce qui en fait un excellent choix pour les applications en temps réel.
- Architecture efficace et moderne : L'utilisation de NAS, d'un neck efficace et d'une tête légère se traduit par un modèle puissant mais économe en ressources.
- Techniques innovantes : Des fonctionnalités telles qu'AlignedOTA et ZeroHead représentent la fine pointe de la conception de détecteurs d'objets.
Faiblesses :
- Spécifique à une tâche : Comme YOLOX, il est conçu pour la détection d'objets et n'offre pas de support prêt à l'emploi pour d'autres tâches de vision.
- Effort d’intégration : En tant que projet externe, il nécessite une intégration manuelle dans les pipelines de production et ne dispose pas de la prise en charge et des outils étendus d’un écosystème unifié.
Cas d'utilisation
DAMO-YOLO est idéal pour les scénarios où une détection rapide et précise sur GPU est une priorité :
- Analyse vidéo en temps réel : Surveillance des flux vidéo en direct pour les applications dans les villes intelligentes ou l'analyse de vente au détail.
- Systèmes autonomes : Fournit une perception pour les véhicules autonomes et la robotique où une faible latence est essentielle.
- Services de vision basés sur le cloud : Alimenter des services d'IA évolutifs qui doivent traiter efficacement un volume élevé d'images ou de flux vidéo.
Pourquoi les modèles Ultralytics YOLO sont le choix préféré
Bien que YOLOX et DAMO-YOLO soient de puissants détecteurs d'objets, les modèles Ultralytics YOLO comme YOLOv8 et le dernier Ultralytics YOLO11 offrent une solution plus globale et conviviale pour les développeurs. Ils offrent une combinaison supérieure de performance, de polyvalence et de facilité d'utilisation, ce qui en fait le choix recommandé pour un large éventail de projets.
- Facilité d'utilisation : Les modèles Ultralytics sont dotés d'une API Python simplifiée, d'une documentation complète et de commandes CLI simples, ce qui réduit considérablement le temps de développement et de déploiement.
- Écosystème bien maintenu : Les utilisateurs bénéficient d'un développement actif, d'un fort soutien de la communauté, de mises à jour fréquentes et d'une intégration transparente avec Ultralytics HUB pour l'entraînement et le déploiement de bout en bout.
- Compromis de performance : Les modèles Ultralytics sont conçus pour offrir un excellent compromis entre vitesse et précision, ce qui les rend adaptés à tous les types d’environnements, des appareils périphériques aux serveurs cloud.
- Polyvalence : Contrairement aux modèles monotâches, Ultralytics YOLOv8 et YOLO11 prennent en charge un large éventail de tâches de vision, notamment la détection, la segmentation, la classification, l'estimation de pose et la détection d'objets orientés, le tout au sein d'un framework unique et unifié.
- Efficacité de l'entraînement : Grâce à des processus d'entraînement efficaces, des poids pré-entraînés facilement disponibles sur des ensembles de données comme COCO, et une convergence plus rapide, les développeurs peuvent obtenir des résultats de pointe avec moins d'efforts.
- Besoins en mémoire inférieurs : les modèles Ultralytics YOLO sont conçus pour être économes en mémoire pendant l’entraînement et l’inférence, nécessitant souvent moins de mémoire CUDA que les autres architectures.
Conclusion
YOLOX et DAMO-YOLO sont tous deux des modèles de détection d'objets formidables. YOLOX fournit une base solide et sans ancres qui a été prouvée dans de nombreuses applications. DAMO-YOLO repousse les limites de la vitesse et de l'efficacité grâce à des innovations architecturales modernes, ce qui en fait un excellent choix pour les applications GPU à haut débit.
Cependant, pour les développeurs et les chercheurs à la recherche d'une solution complète qui combine des performances de premier plan avec une facilité d'utilisation, une polyvalence et un écosystème de support robustes inégalés, les modèles Ultralytics tels que YOLOv8 et YOLO11 se distinguent comme le choix supérieur. Leur framework unifié pour plusieurs tâches et leur flux de travail simplifié en font la plateforme idéale pour la création de la prochaine génération d'applications de vision basées sur l'IA.
Explorer d’autres comparaisons de modèles
Si vous souhaitez savoir comment YOLOX et DAMO-YOLO se comparent à d'autres modèles de pointe, consultez ces autres comparaisons dans notre documentation :
- YOLOv8 vs. DAMO-YOLO
- YOLOv10 vs. DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOX vs. YOLOv8
- YOLOX vs. RT-DETR
- YOLOX vs. YOLOv10