Passer au contenu

YOLOX vsYOLO: comparaison entre les détecteurs d'objets sans ancrage et les détecteurs d'objets basés sur le NAS

L'évolution de la détection d'objets en temps réel a connu de nombreux changements de paradigmes, passant d'architectures basées sur des ancrages à des architectures sans ancrages, et de structures conçues manuellement à la recherche automatisée d'architectures neuronales (NAS). Dans cette comparaison technique exhaustive, nous analyserons deux étapes importantes de cette évolution : YOLOX et YOLO. Nous explorerons leurs innovations architecturales, leurs méthodologies de formation et leurs compromis en termes de performances, tout en soulignant comment le Ultralytics moderne Ultralytics offre une alternative inégalée aux développeurs modernes.

YOLOX : pionnier du paradigme sans ancre

Publié le 18 juillet 2021 par Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun chez Megvii, YOLOX a marqué un tournant décisif en intégrant avec succès une conception sans ancrage dans la YOLO . Décrit dans leur rapport technique détaillé sur ArXiv, YOLOX visait à combler le fossé entre la recherche universitaire et le déploiement industriel.

Principales innovations architecturales

YOLOX a introduit plusieurs changements structurels fondamentaux qui ont considérablement amélioré ses prédécesseurs :

  • Mécanisme sans ancres : En prédisant directement le centre d'un objet et les dimensions de sa boîte englobante, YOLOX a réduit le nombre d'heuristiques de conception et simplifié les processus complexes de clustering d'ancres. Cela le rend très adaptable à divers scénarios de vision par ordinateur.
  • Tête découplée : Les modèles YOLO traditionnels utilisaient une seule tête couplée pour la classification et la régression. YOLOX a implémenté une tête découplée, traitant la classification et la localisation séparément, ce qui a convergé beaucoup plus rapidement et amélioré la précision.
  • Assignation d'étiquettes SimOTA: Une version simplifiée de l'assignation par transport optimal (OTA) a été utilisée pour assigner dynamiquement des échantillons positifs, réduisant les temps d'entraînement et surmontant les ambiguïtés des assignations par point central.

L'héritage de YOLOX

La conception à tête découplée de YOLOX a fortement influencé les générations suivantes de détecteurs d'objets, devenant une caractéristique standard dans de nombreux modèles modernes.

En savoir plus sur YOLOX

DAMO-YOLO: Recherche d'architecture automatisée à l'échelle

Développé par Xianzhe Xu et une équipe de chercheurs de l'Alibaba Group, DAMO-YOLO a été introduit le 23 novembre 2022. Comme détaillé dans leur publication ArXiv, le modèle a fortement utilisé la recherche d'architecture neuronale (NAS) pour repousser la frontière de Pareto en termes de vitesse et de précision.

Principales innovations architecturales

La stratégie de DAMO-YOLO a été construite sur l'automatisation de la conception de structures efficaces :

  • Backbones MAE-NAS : En utilisant un algorithme évolutionnaire multi-objectif, DAMO-YOLO a découvert des backbones très efficaces, personnalisés pour des budgets de latence spécifiques, particulièrement lors de l'exportation vers des frameworks comme TensorRT.
  • RepGFPN Efficace : Une conception de type "heavy-neck" qui améliore considérablement la fusion des caractéristiques sur différentes résolutions spatiales, ce qui est très bénéfique pour l'analyse d'imagerie aérienne et la détection d'objets à différentes échelles.
  • ZeroHead: Une tête de prédiction simplifiée qui réduit la redondance computationnelle sans sacrifier la mean Average Precision (mAP) globale du modèle.
  • AlignedOTA et distillation : Intègre une attribution d'étiquettes avancée et une distillation de connaissances enseignant-étudiant pour tirer le maximum de performances des modèles étudiants plus petits.

En savoir plus sur DAMO-YOLO

Comparaison des performances et des indicateurs

Pour comparer ces deux modèles, nous devons examiner leur nombre de paramètres, les FLOP requis et leurs profils de latence. Vous trouverez ci-dessous les données de référence comparant YOLOX etYOLO plusieurs échelles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Bien que les deux modèles obtiennent des résultats impressionnants, ils présentent toutefois certaines limites. YOLOX nécessite un réglage minutieux de sa tête découplée, tandis que la forte dépendanceYOLO à la distillation rend le réentraînement sur des ensembles de données personnalisés très gourmand en ressources, nécessitant d'énormes quantités de GPU .

Cas d'utilisation et recommandations

Le choix entre YOLOX et DAMO-YOLO dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir YOLOX

YOLOX est un choix judicieux pour :

  • Recherche sur la détection sans ancres : Recherche académique utilisant l'architecture propre et sans ancres de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
  • Appareils Edge Ultra-Légers : Déploiement sur des microcontrôleurs ou du matériel mobile hérité où l'empreinte extrêmement réduite (0,91M paramètres) de la variante YOLOX-Nano est critique.
  • Études d'assignation d'étiquettes SimOTA: Projets de recherche étudiant les stratégies d'assignation d'étiquettes basées sur le transport optimal et leur impact sur la convergence de l'entraînement.

Quand choisir DAMO-YOLO

DAMO-YOLO est recommandé pour :

  • Analyse vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit par lot de 1 est la métrique principale.
  • Lignes de Fabrication Industrielles : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, telles que l'inspection qualité en temps réel sur les lignes d'assemblage.
  • Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
  • Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
  • Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Ultralytics : présentation de YOLO26

Si YOLOX etYOLO des étapes historiques importantes, les développeurs modernes ont besoin d'une solution qui allie une précision de pointe à une facilité d'utilisation inégalée. C'est là Ultralytics transforme le paysage. Lancé en janvier 2026, YOLO26 s'appuie sur l'héritage des modèlesNMS pour offrir un équilibre parfait entre vitesse, précision et expérience développeur.

Pourquoi choisir YOLO26 ?

Ultralytics intégré Ultralytics surpasse les référentiels universitaires fragmentés en offrant :

  • Conception de bout en bout sans NMS : YOLO26 élimine nativement la Non-Maximum Suppression (NMS) pendant l'inférence. Il en résulte une latence incroyablement rapide et prévisible, essentielle pour les déploiements embarqués et les véhicules autonomes.
  • Suppression de la DFL : En supprimant la Distribution Focal Loss, YOLO26 simplifie les processus d'exportation vers les appareils périphériques, réduisant drastiquement les exigences de mémoire pour les applications légères.
  • Optimiseur MuSGD : YOLO26 emprunte des innovations de l'entraînement des LLM avec son optimiseur hybride SGD et Muon, assurant une stabilité d'entraînement à toute épreuve et une convergence ultra-rapide.
  • Jusqu'à 43 % plus rapide pour l'inférence CPU : Grâce à des optimisations structurelles profondes, YOLO26 s'exécute à une vitesse fulgurante sur les CPU sans nécessiter de matériel GPU coûteux.
  • Fonctions de perte avancées : L'intégration de ProgLoss + STAL apporte des améliorations massives à la reconnaissance des petits objets, ce qui le rend idéal pour des tâches telles que les inspections par drone et la surveillance IoT.
  • Polyvalence : Contrairement à DAMO-YOLO, qui est strictement un détecteur, YOLO26 prend en charge nativement la segmentation d'instances, l'estimation de pose, la classification d'images et les tâches d'Oriented Bounding Box (OBB) au sein d'un framework unique et unifié.

Commencez à construire immédiatement

Avec Python Ultralytics , vous n'avez pas besoin de configurer manuellement des pipelines de distillation complexes ni d'écrire des centaines de lignes de code C++ pour déployer votre modèle.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

En savoir plus sur YOLO26

Autres modèles à considérer

L'écosystème de la vision par ordinateur est vaste. En fonction de vos contraintes spécifiques, vous pouvez également explorer d'autres architectures entièrement prises en charge par Ultralytics :

  • YOLO11: Le prédécesseur très performant de YOLO26, reconnu pour sa robustesse en analyse de détail et en contrôle qualité de fabrication.
  • YOLOv8: Un modèle légendaire, très stable et sans ancres qui a popularisé le déploiement généralisé en périphérie.
  • RT-DETR: Un Real-Time DEtection TRansformer développé par Baidu, offrant une excellente alternative pour les tâches qui bénéficient grandement des mécanismes d'attention globale, bien qu'au prix d'exigences de mémoire d'entraînement plus élevées.

Conclusion

YOLOX et DAMO-YOLO ont tous deux apporté des concepts essentiels à la progression de l'apprentissage profond : YOLOX a validé l'approche découplée et sans ancres, et DAMO-YOLO a démontré la puissance de la recherche d'architecture automatisée. Cependant, pour la production en conditions réelles, la complexité de leurs bases de code de recherche originales peut ralentir les équipes agiles.

En tirant parti de la Plateforme Ultralytics complète, les développeurs peuvent contourner ces obstacles. Grâce à la conception de bout en bout de YOLO26, à ses vitesses CPU supérieures et à sa documentation exhaustive, l'atteinte d'une IA de vision de pointe est plus accessible que jamais. Que vous construisiez des infrastructures de ville intelligente, des diagnostics de santé ou de la robotique avancée, Ultralytics offre le chemin le plus efficace des données brutes au déploiement robuste en conditions réelles.


Commentaires