YOLOX vsYOLO: analyse des architectures de détection d'objets de nouvelle génération
Dans le domaine en pleine évolution de la vision par ordinateur, le passage des détecteurs basés sur des ancres à ceux sans ancres a marqué une étape importante. Deux modèles phares ont façonné cette transition : YOLOX et YOLO. Cette comparaison explore leurs innovations architecturales, leurs mesures de performance et leurs méthodologies d'entraînement afin d'aider les chercheurs et les ingénieurs à choisir l'outil adapté à leurs besoins spécifiques en matière de détection d'objets.
Bancs d'essai de performance
Le tableau suivant présente une comparaison directe des principaux indicateurs de performance entreYOLO YOLOX etYOLO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOX : Relier la recherche et l’industrie
YOLOX s'est imposé comme une mise à jour majeure de la YOLO , passant à un mécanisme sans ancrage et introduisant des techniques de détection avancées qui ont rationalisé le pipeline entre la recherche universitaire et l'application industrielle.
Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, et Jian Sun
Organisation :Megvii
Date : 2021-07-18
Arxiv :YOLOX: Exceeding YOLO Series in 2021
GitHub :Megvii-BaseDetection/YOLOX
Architecture et innovation
YOLOX se distingue en supprimant les boîtes d'ancrage présentes dans les versions précédentes telles que YOLOv4 et YOLOv5. Son architecture « Decoupled Head » sépare les tâches de classification et de localisation, ce qui améliore considérablement la vitesse de convergence et la précision.
De plus, YOLOX utilise SimOTA, une stratégie d'attribution dynamique d'étiquettes qui considère le processus d'apprentissage comme un problème de transport optimal. Cela permet au modèle d'attribuer automatiquement des échantillons positifs à des vérités terrain sur la base d'une stratégie d'optimisation globale, réduisant ainsi le besoin de réglage heuristique des hyperparamètres.
YOLO: efficacité de la recherche d'architecture neuronale
YOLO les limites des compromis entre latence et précision en tirant parti de la recherche d'architecture neuronale (NAS) et d'une reparamétrisation intensive.
Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 23/11/2022
Arxiv :YOLO: rapport sur la conception de la détection d'objets en temps réel
GitHub :YOLO
Technologies clés
YOLO une dorsale MAE-NAS, construite à l'aide d'une recherche évolutive multi-objectifs afin de trouver la structure réseau optimale dans le cadre de contraintes de latence spécifiques. Il utilise également RepGFPN (Efficient Reparameterized Generalized Feature Pyramid Network) pour une fusion efficace des caractéristiques à toutes les échelles.
Une fonctionnalité remarquable est ZeroHead, qui simplifie la tête de détection à un niveau de complexité minimal, en s'appuyant sur la colonne vertébrale et le cou pour effectuer les tâches les plus lourdes. La formation est complétée par AlignedOTA pour l'attribution des étiquettes et une étape de distillation où un modèle enseignant plus grand guide l'élève, garantissant ainsi des performances élevées même pour les variantes de modèles plus petites.
L'avantage Ultralytics
Alors que YOLOX etYOLO des solutions robustes pour des scénarios spécifiques, Ultralytics fournit une alternative complète, conviviale et hautement performante qui répond aux complexités du développement moderne de l'IA.
Facilité d'utilisation et écosystème transparents
L'un des principaux points de friction avec des modèles tels queYOLO la complexité de leurs recettes d'entraînement, qui impliquent souvent une distillation en plusieurs étapes ou des espaces de recherche NAS spécialisés. En revanche, Ultralytics sont conçus pour être immédiatement accessibles. Que vous utilisiez YOLO11 ou le tout dernier YOLO26, l'ensemble du flux de travail, du chargement des ensembles de données à l'exportation des modèles, est géré via une API unifiée.
Les développeurs peuvent exploiter la Ultralytics pour gérer des ensembles de données, visualiser des expériences et déployer des modèles en toute transparence. Cette approche intégrée supprime les obstacles à l'entrée, permettant aux équipes de se concentrer sur la résolution des problèmes commerciaux plutôt que sur le débogage des scripts de formation.
Équilibre des performances avec YOLO26
Pour ceux qui recherchent le summum de la vitesse et de la précision, YOLO26 représente la technologie de pointe. Il s'appuie sur les enseignements tirés de modèles tels que YOLOX (conception sans ancrage) et YOLOv10 (inférenceNMS) pour offrir des performances exceptionnelles.
YOLO26 Innovation : NMS de bout en bout
YOLO26 est nativement de bout en bout, éliminant ainsi le besoin d'un post-traitement par suppression non maximale (NMS). Cela simplifie considérablement les pipelines de déploiement, en particulier sur les appareils périphériques où NMS peuvent constituer un goulot d'étranglement en termes de latence.
Les principales caractéristiques de YOLO26 sont les suivantes :
- Suppression DFL : la suppression de la perte focale de distribution simplifie le graphique du modèle pour faciliter l'exportation vers des formats tels que ONNX et TensorRT.
- Optimiseur MuSGD : un hybride de SGD Muon (inspiré de la formation LLM) garantit une convergence stable.
- CPU : optimisé sur le plan architectural pour l'informatique en périphérie, offrant une inférence jusqu'à 43 % plus rapide sur les processeurs.
- ProgLoss + STAL : fonctions de perte avancées qui améliorent considérablement la détection des petits objets, une exigence essentielle pour l'imagerie par drone et la robotique.
Polyvalence dans toutes les tâches
Contrairement à YOLOX etYOLO, qui sont principalement axés sur la détection d'objets, Ultralytics sont intrinsèquement multimodaux. Une seule bibliothèque prend en charge :
- Classification d'images
- Segmentation d'instance
- Estimation de pose
- Boîte englobante orientée (Oriented Bounding Box, OBB)
Cette polyvalence permet aux développeurs de s'attaquer à des projets complexes, tels que l'analyse des mécanismes de jeu dans le domaine sportif à l'aide de l'estimation de la pose, sans avoir à changer de cadre.
Efficacité de l'entraînement et mémoire
Ultralytics sont conçus pour être économes en ressources. Ils nécessitent généralement moins GPU pendant l'entraînement que les modèles lourds basés sur des transformateurs tels que RT-DETR. Cette efficacité démocratise l'IA, permettant de former des modèles puissants sur du matériel grand public standard.
Voici à quel point il est simple de former un modèle YOLO26 de pointe à l'aide duPython Ultralytics :
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Applications concrètes
Le choix du modèle approprié dépend souvent des contraintes spécifiques de l'environnement de déploiement.
Contrôle qualité industriel
Pour les lignes de fabrication à grande vitesse, YOLO est un concurrent sérieux en raison de sa faible latence sur GPU , ce qui le rend adapté à la détection de défauts sur des convoyeurs à grande vitesse. Cependant, YOLO26 est de plus en plus préféré dans ce domaine, car sa conceptionNMS garantit des temps d'inférence déterministes, évitant ainsi les fluctuations qui peuvent désynchroniser les actionneurs robotiques.
IA en périphérie et mobile
YOLOX-Nano a toujours été très apprécié pour les applications mobiles en raison de son nombre réduit de paramètres. Aujourd'hui, YOLO26n (Nano) offre une alternative supérieure, avec une précision accrue pour des modèles de taille similaire, tout en bénéficiant d' CPU 43 % plus rapide. Cela le rend idéal pour les appareils alimentés par batterie, tels que les caméras intelligentes ou les capteurs agricoles.
Systèmes autonomes
En robotique et en conduite autonome, la capacité à gérer des objets de tailles variables est cruciale. Si la tête découplée de YOLOX y contribue, la mise en œuvre de ProgLoss + STAL par YOLO26 apporte une amélioration tangible dans la reconnaissance d'objets éloignés ou de petite taille, tels que les panneaux de signalisation ou les piétons, renforçant ainsi la sécurité globale du système.
Résumé
YOLOX etYOLO tous deux contribué de manière significative à l'avancement de la détection d'objets. YOLOX a popularisé le paradigme sans ancrage, tandis queYOLO la puissance de la recherche d'architecture neuronale.
Cependant, pour une solution moderne et évolutive qui allie performances, facilité d'utilisation et flexibilité de déploiement, Ultralytics se démarque. Son intégration dans Ultralytics plus large, sa prise en charge de tâches multiples et ses processus d'exportation simplifiés en font le choix recommandé tant pour la recherche universitaire que pour les applications d'entreprise.
Découvrez tout le potentiel de ces modèles en visitant la Ultralytics et en commençant dès aujourd'hui votre parcours de formation.