YOLOv9 YOLOX : une analyse technique approfondie de la détection d'objets moderne
Le domaine de la vision par ordinateur a connu une évolution rapide dans les architectures de détection d'objets en temps réel. Ce guide fournit une comparaison complète entre YOLOv9 et YOLOX, en analysant leurs innovations architecturales, leurs mesures de performance et leurs méthodologies de formation. Que vous développiez des applications intelligentes pour l'IA dans le domaine de la fabrication ou que vous exploriez la modélisation prédictive, la compréhension de ces modèles vous aidera à prendre des décisions éclairées pour votre prochain déploiement.
Innovations architecturales
YOLOv9 : Informations de gradient programmables
YOLOv9 un changement de paradigme en s'attaquant au problème du goulot d'étranglement informationnel inhérent aux réseaux neuronaux profonds. Ses principales innovations comprennent les informations de gradient programmables (PGI) et le réseau d'agrégation de couches généralisé et efficace (GELAN).
- Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
- Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
- Date : 21 février 2024
- Arxiv :2402.13616
- GitHub :WongKinYiu/yolov9
En conservant les données caractéristiques essentielles pendant le processus d'alimentation en avant, YOLOv9 que les gradients utilisés pour mettre à jour les poids pendant la rétropropagation restent précis. Cette architecture excelle dans l'extraction de caractéristiques, ce qui la rend très performante pour détecter de petits objets dans des environnements complexes, tels que ceux que l'on trouve dans l'imagerie aérienne et les scans médicaux détaillés.
YOLOX : Relier la recherche et l’industrie
Sorti mi-2021, YOLOX a fait évoluer la YOLO vers une conception sans ancrage. Il a introduit une tête découplée, qui sépare les tâches de classification et de localisation, et a utilisé la stratégie d'attribution d'étiquettes SimOTA pour améliorer la convergence de l'entraînement.
- Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
- Organisation : Megvii
- Date : 18 juillet 2021
- Arxiv :2107.08430
- GitHub :Megvii-BaseDetection/YOLOX
Si YOLOX était révolutionnaire pour son époque, avec une excellente précision moyenne (mAP) et l'élimination du réglage des hyperparamètres des boîtes d'ancrage, son architecture sous-jacente a depuis été surpassée par des réseaux modernes qui offrent un meilleur équilibre entre le nombre de paramètres et la conservation des caractéristiques.
Évolution sans ancrage
Ultralytics YOLOX et Ultralytics plus récents adoptent tous deux des conceptions sans ancrage, ce qui réduit la complexité du réglage des hyperparamètres et améliore la généralisation à travers divers ensembles de données.
Analyse des performances
Lorsque l'on compare ces modèles à l'aide du COCO MS COCO , les avancées de YOLOv9 clairement. YOLOv9 offre YOLOv9 un meilleur compromis entre précision et FLOP.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Alors que YOLOX propose des variantes légères telles que YOLOX-Nano pour les cas extrêmes, YOLOv9 surpassent systématiquement les modèles YOLOX de taille similaire en termes de précision pure. Par exemple, YOLOv9m atteint un mAP 51,4 % mAP 49,7 % pour YOLOXl, malgré un nombre de paramètres inférieur de plus de moitié (20,0 millions contre 54,2 millions).
L'avantage Ultralytics
Le choix d'un modèle ne se limite pas à la théorie architecturale ; l'écosystème qui l'entoure dicte la vitesse de développement et le succès du déploiement. L'utilisation YOLOv9 Ultralytics offre une facilité d'utilisation inégalée et un soutien communautaire solide.
Contrairement aux anciens référentiels de recherche originaux, le Ultralytics fournit une Python unifiée qui simplifie les pipelines complexes. La formation nécessite beaucoup moins GPU que de nombreuses alternatives, offrant ainsi une efficacité de formation incroyable.
from ultralytics import YOLO
# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export the optimized model to TensorRT format
model.export(format="engine")
Grâce à la prise en charge intégrée de plusieurs tâches, notamment la détection d'objets, la segmentation d'instances et l'estimation de poses, vous pouvez rapidement faire évoluer vos solutions de vision par ordinateur sans modifier l'ensemble de votre base de code.
Exportation transparente
Vous déployez à la périphérie ? Ultralytics l'exportation de vos modèles entraînés vers des formats hautement optimisés tels que ONNX, TensorRTet OpenVINO une seule commande.
Applications concrètes
Les atouts spécifiques de ces modèles les adaptent à des applications concrètes distinctes :
Analyse rapide des ventes au détail
Pour les environnements de vente au détail modernes nécessitant une reconnaissance des produits en temps réel, YOLOv9 excelle. Sa capacité à conserver les détails complexes des caractéristiques le rend parfaitement adapté à l'IA dans les déploiements de vente au détail où il est nécessaire de distinguer des produits visuellement similaires sur une étagère encombrée.
Déploiements Legacy Edge
Dans les scénarios soumis à des contraintes matérielles strictes ou utilisant des NPU spécialisées qui peinent à gérer les nouveaux blocs d'agrégation, YOLOX-Nano peut parfois trouver sa place. Ses modèles de convolution purs et simplifiés sont parfois préférés pour les microcontrôleurs aux ressources extrêmement limitées.
Robotique autonome
En matière de navigation robotique, la perte de petits objets peut avoir des conséquences catastrophiques. L'architecture GELAN intégrée à YOLOv9 que les caractéristiques des obstacles petits et éloignés ne sont pas perdues dans les couches profondes du réseau, surpassant ainsi les anciens modèles dans les environnements critiques pour la sécurité, tels que l'IA dans les applications automobiles.
Cas d'utilisation et recommandations
Le choix entre YOLOv9 YOLOX dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.
Quand choisir YOLOv9
YOLOv9 un excellent choix pour :
- Recherche sur les goulots d'étranglement de l'information : projets universitaires étudiant les architectures PGI (Programmable Gradient Information) et GELAN (Generalized Efficient Layer Aggregation Network).
- Études sur l'optimisation du flux de gradient : recherches axées sur la compréhension et l'atténuation de la perte d'informations dans les couches profondes du réseau pendant l'entraînement.
- Benchmarking de détection haute précision : scénarios dans lesquels les performances élevées YOLOv9 COCO sont nécessaires comme point de référence pour les comparaisons architecturales.
Quand choisir YOLOX
YOLOX est recommandé pour :
- Recherche sur la détection sans ancrage : recherche universitaire utilisant l'architecture propre et sans ancrage de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
- Dispositifs périphériques ultra-légers : déploiement sur des microcontrôleurs ou du matériel mobile existant où l'empreinte extrêmement réduite (0,91 M de paramètres) de la variante YOLOX-Nano est essentielle.
- Études sur l'attribution des étiquettes SimOTA : projets de recherche visant à étudier les stratégies optimales d'attribution des étiquettes basées sur le transport et leur impact sur la convergence de l'apprentissage.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
L'avenir : entrez dans YOLO26
Si YOLOv9 une avancée impressionnante, les exigences des environnements de production repoussent sans cesse les limites. La nouvelle version YOLO26 représente la norme définitive pour l'IA visuelle moderne.
YOLO26 revitalise complètement le pipeline de déploiement grâce à une conception native de bout en bout NMS. En éliminant le besoin d'une suppression non maximale complexe pendant le post-traitement, il offre une latence d'inférence considérablement réduite.
De plus, YOLO26 intègre l'optimiseur révolutionnaire MuSGD, un hybride de SGD Muon qui emprunte les innovations de la formation LLM pour offrir une convergence incroyablement stable et rapide. En supprimant la perte focale de distribution (DFL), YOLO26 atteint CPU jusqu'à 43 % plus rapide que ses prédécesseurs, ce qui en fait le meilleur choix absolu pour les appareils périphériques et les déploiements d'entreprise. Avec des améliorations notables dans la reconnaissance des petits objets via ProgLoss et STAL, YOLO26 remplace efficacement YOLOX et YOLOv9.
Pour les ingénieurs qui explorent les architectures modernes, nous recommandons également de consulter YOLO11 et RT-DETR comme alternatives puissantes au sein de la Ultralytics . Assurez la pérennité de votre projet en tirant parti des performances inégalées des derniers modèles de la Ultralytics .