Passer au contenu

YOLOX vsYOLO: comparaison entre les détecteurs d'objets sans ancrage et les détecteurs d'objets basés sur le NAS

L'évolution de la détection d'objets en temps réel a connu de nombreux changements de paradigmes, passant d'architectures basées sur des ancrages à des architectures sans ancrages, et de structures conçues manuellement à la recherche automatisée d'architectures neuronales (NAS). Dans cette comparaison technique exhaustive, nous analyserons deux étapes importantes de cette évolution : YOLOX et YOLO. Nous explorerons leurs innovations architecturales, leurs méthodologies de formation et leurs compromis en termes de performances, tout en soulignant comment le Ultralytics moderne Ultralytics offre une alternative inégalée aux développeurs modernes.

YOLOX : pionnier du paradigme sans ancre

Publié le 18 juillet 2021 par Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun chez Megvii, YOLOX a marqué un tournant décisif en intégrant avec succès une conception sans ancrage dans la YOLO . Décrit dans leur rapport technique détaillé sur ArXiv, YOLOX visait à combler le fossé entre la recherche universitaire et le déploiement industriel.

Principales innovations architecturales

YOLOX a introduit plusieurs changements structurels fondamentaux qui ont considérablement amélioré ses prédécesseurs :

  • Mécanisme sans ancrage : en prédisant directement le centre d'un objet et les dimensions de son cadre englobant, YOLOX a réduit le nombre d'heuristiques de conception et simplifié les processus complexes de regroupement d'ancrages. Cela le rend très adaptable à divers scénarios de vision par ordinateur.
  • Tête découplée : YOLO traditionnels utilisaient une seule tête couplée pour la classification et la régression. YOLOX a mis en œuvre une tête découplée, traitant séparément la classification et la localisation, ce qui a permis une convergence beaucoup plus rapide et une amélioration de la précision.
  • Attribution d'étiquettes SimOTA : une version simplifiée de l'attribution de transport optimal (OTA) a été utilisée pour attribuer dynamiquement des échantillons positifs, réduisant ainsi les temps de formation et surmontant les ambiguïtés des attributions de points centraux.

L'héritage de YOLOX

La conception à tête découplée de YOLOX a fortement influencé les générations suivantes de détecteurs d'objets, devenant une caractéristique standard dans de nombreux modèles modernes.

En savoir plus sur YOLOX

YOLO: recherche automatisée d'architecture à grande échelle

Développé par Xianzhe Xu et une équipe de chercheurs du groupe Alibaba,YOLO présenté le 23 novembre 2022. Comme détaillé dans leur publication ArXiv, le modèle a largement utilisé la recherche d'architecture neuronale (NAS) pour repousser les limites de Pareto en matière de vitesse et de précision.

Principales innovations architecturales

La stratégieYOLO reposait sur l'automatisation de la conception de structures efficaces :

  • Backbones MAE-NAS : à l'aide d'un algorithme évolutif multi-objectifs,YOLO des backbones hautement efficaces adaptés à des budgets de latence spécifiques, en particulier lorsqu'ils sont exportés vers des frameworks tels que TensorRT.
  • RepGFPN efficace : une conception à couleuvre qui améliore considérablement la fusion des caractéristiques entre différentes résolutions spatiales, ce qui est très avantageux pour l'analyse d'images aériennes et la détection d'objets à différentes échelles.
  • ZeroHead : une tête de prédiction simplifiée qui réduit la redondance computationnelle sans sacrifier la précision moyenne globale (mAP) du modèle.
  • AlignedOTA et distillation : intègre une attribution avancée d'étiquettes et une distillation des connaissances entre enseignant et élève afin de tirer le maximum de performances des modèles élèves plus petits.

En savoir plus sur DAMO-YOLO

Comparaison des performances et des indicateurs

Pour comparer ces deux modèles, nous devons examiner leur nombre de paramètres, les FLOP requis et leurs profils de latence. Vous trouverez ci-dessous les données de référence comparant YOLOX etYOLO plusieurs échelles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Bien que les deux modèles obtiennent des résultats impressionnants, ils présentent toutefois certaines limites. YOLOX nécessite un réglage minutieux de sa tête découplée, tandis que la forte dépendanceYOLO à la distillation rend le réentraînement sur des ensembles de données personnalisés très gourmand en ressources, nécessitant d'énormes quantités de GPU .

Cas d'utilisation et recommandations

Le choix entre YOLOX etYOLO des exigences spécifiques de votre projet, des contraintes de déploiement et de vos préférences en matière d'écosystème.

Quand choisir YOLOX

YOLOX est un choix judicieux pour :

  • Recherche sur la détection sans ancrage : recherche universitaire utilisant l'architecture propre et sans ancrage de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
  • Dispositifs périphériques ultra-légers : déploiement sur des microcontrôleurs ou du matériel mobile existant où l'empreinte extrêmement réduite (0,91 M de paramètres) de la variante YOLOX-Nano est essentielle.
  • Études sur l'attribution des étiquettes SimOTA : projets de recherche visant à étudier les stratégies optimales d'attribution des étiquettes basées sur le transport et leur impact sur la convergence de l'apprentissage.

Quand choisir DAMO-YOLO

YOLO recommandé pour :

  • Analyse vidéo à haut débit : traitement de flux vidéo à fréquence d'images élevée surGPU NVIDIA fixe où le débit du lot 1 est la principale métrique.
  • Lignes de fabrication industrielle : scénarios avec des contraintes strictes GPU sur du matériel dédié, tels que le contrôle qualité en temps réel sur les chaînes de montage.
  • Recherche sur la recherche d'architecture neuronale : étude des effets de la recherche automatisée d'architecture (MAE-NAS) et des structures de base reparamétrées efficaces sur les performances de détection.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
  • EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Ultralytics : présentation de YOLO26

Si YOLOX etYOLO des étapes historiques importantes, les développeurs modernes ont besoin d'une solution qui allie une précision de pointe à une facilité d'utilisation inégalée. C'est là Ultralytics transforme le paysage. Lancé en janvier 2026, YOLO26 s'appuie sur l'héritage des modèlesNMS pour offrir un équilibre parfait entre vitesse, précision et expérience développeur.

Pourquoi choisir YOLO26 ?

Ultralytics intégré Ultralytics surpasse les référentiels universitaires fragmentés en offrant :

  • Conception NMS de bout en bout : YOLO26 élimine nativement la suppression non maximale (NMS) pendant l'inférence. Il en résulte une latence incroyablement rapide et prévisible, essentielle pour les déploiements en périphérie et les véhicules autonomes.
  • Suppression de la perte focale de distribution (DFL) : en supprimant la perte focale de distribution, YOLO26 simplifie les processus d'exportation vers les appareils périphériques, réduisant considérablement les besoins en mémoire pour les applications légères.
  • Optimiseur MuSGD : YOLO26 emprunte les innovations de formation LLM avec son optimiseur hybride SGD Muon, garantissant une stabilité de formation à toute épreuve et une convergence ultra-rapide.
  • CPU jusqu'à 43 % plus rapide : grâce à des optimisations structurelles approfondies, YOLO26 fonctionne à une vitesse fulgurante sur les CPU sans nécessiter GPU coûteux.
  • Fonctions de perte avancées : l'intégration de ProgLoss + STAL apporte des améliorations considérables dans la reconnaissance des petits objets, ce qui la rend idéale pour des tâches telles que les inspections par drone et la surveillance IoT.
  • Polyvalence : contrairement àYOLO, qui est strictement un détecteur, YOLO26 prend en charge de manière native les tâches de segmentation d'instances, d'estimation de pose, de classification d'images et de boîtes englobantes orientées (OBB) dans un cadre unique et unifié.

Commencez à construire immédiatement

Avec Python Ultralytics , vous n'avez pas besoin de configurer manuellement des pipelines de distillation complexes ni d'écrire des centaines de lignes de code C++ pour déployer votre modèle.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

En savoir plus sur YOLO26

Autres modèles à considérer

L'écosystème de la vision par ordinateur est vaste. En fonction de vos contraintes spécifiques, vous pouvez également explorer d'autres architectures entièrement prises en charge par Ultralytics :

  • YOLO11: le prédécesseur hautement performant du YOLO26, réputé pour sa robustesse dans l'analyse commerciale et le contrôle qualité en fabrication.
  • YOLOv8: un modèle légendaire, très stable et sans ancrage, qui a popularisé le déploiement généralisé en périphérie.
  • RT-DETR: un transformateur de détection en temps réel développé par Baidu, offrant une excellente alternative pour les tâches qui bénéficient grandement des mécanismes d'attention globale, mais au prix d'exigences plus élevées en matière de mémoire d'entraînement.

Conclusion

YOLOX etYOLO tous deuxYOLO des concepts essentiels à l'évolution du deep learning : YOLOX a validé l'approche découplée et sans ancrage, tandis queYOLO la puissance de la recherche automatisée d'architectures. Cependant, dans le cadre d'une production réelle, la complexité de leurs bases de code de recherche originales peut ralentir les équipes agiles.

En tirant parti de la Ultralytics complète Ultralytics , les développeurs peuvent contourner ces obstacles. Grâce à la conception de bout en bout de YOLO26, à CPU supérieures et à sa documentation exhaustive, il est plus facile que jamais d'accéder à une IA visuelle de pointe. Que vous développiez des infrastructures pour les villes intelligentes, des diagnostics médicaux ou des robots avancés, Ultralytics le chemin le plus efficace pour passer des données brutes à un déploiement robuste et concret.


Commentaires