YOLOv9 YOLOX : une analyse technique approfondie de la détection d'objets moderne

Le domaine de la vision par ordinateur a connu une évolution rapide dans les architectures de détection d'objets en temps réel. Ce guide fournit une comparaison complète entre YOLOv9 et YOLOX, en analysant leurs innovations architecturales, leurs mesures de performance et leurs méthodologies de formation. Que vous développiez des applications intelligentes pour l'IA dans le domaine de la fabrication ou que vous exploriez la modélisation prédictive, la compréhension de ces modèles vous aidera à prendre des décisions éclairées pour votre prochain déploiement.

Innovations architecturales

YOLOv9 : Informations de gradient programmables

YOLOv9 un changement de paradigme en s'attaquant au problème du goulot d'étranglement informationnel inhérent aux réseaux neuronaux profonds. Ses principales innovations comprennent les informations de gradient programmables (PGI) et le réseau d'agrégation de couches généralisé et efficace (GELAN).

Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 21 février 2024
Arxiv :2402.13616
GitHub :WongKinYiu/yolov9

En conservant les données de caractéristiques cruciales pendant le processus de propagation avant, YOLOv9 garantit que les gradients utilisés pour mettre à jour les poids pendant la rétropropagation restent précis. Cette architecture excelle dans l'extraction de caractéristiques, la rendant très capable de détecter de petits objets dans des environnements complexes, tels que ceux trouvés dans l'imagerie aérienne et les scanners médicaux détaillés.

En savoir plus sur YOLOv9

YOLOX : Relier la recherche et l’industrie

Sorti mi-2021, YOLOX a fait évoluer la YOLO vers une conception sans ancrage. Il a introduit une tête découplée, qui sépare les tâches de classification et de localisation, et a utilisé la stratégie d'attribution d'étiquettes SimOTA pour améliorer la convergence de l'entraînement.

Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation : Megvii
Date : 18 juillet 2021
Arxiv :2107.08430
GitHub :Megvii-BaseDetection/YOLOX

Si YOLOX était révolutionnaire pour son époque, avec une excellente précision moyenne (mAP) et l'élimination du réglage des hyperparamètres des boîtes d'ancrage, son architecture sous-jacente a depuis été surpassée par des réseaux modernes qui offrent un meilleur équilibre entre le nombre de paramètres et la conservation des caractéristiques.

En savoir plus sur YOLOX

Évolution de l'approche sans ancres

YOLOX et les nouveaux modèles Ultralytics adoptent des conceptions sans ancres, réduisant la complexité de l'ajustement des hyperparamètres et améliorant la généralisation sur divers ensembles de données.

Analyse des performances

Lorsque l'on compare ces modèles à l'aide du COCO MS COCO , les avancées de YOLOv9 clairement. YOLOv9 offre YOLOv9 un meilleur compromis entre précision et FLOP.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Alors que YOLOX propose des variantes légères telles que YOLOX-Nano pour les cas extrêmes, YOLOv9 surpassent systématiquement les modèles YOLOX de taille similaire en termes de précision pure. Par exemple, YOLOv9m atteint un mAP 51,4 % mAP 49,7 % pour YOLOXl, malgré un nombre de paramètres inférieur de plus de moitié (20,0 millions contre 54,2 millions).

L'avantage Ultralytics

Le choix d'un modèle va au-delà de la simple théorie architecturale ; l'écosystème qui l'entoure dicte la vitesse de développement et le succès du déploiement. L'utilisation de YOLOv9 au sein de l'écosystème Ultralytics offre une facilité d'utilisation inégalée et un support communautaire robuste.

Contrairement aux anciens référentiels de recherche originaux, le Ultralytics fournit une Python unifiée qui simplifie les pipelines complexes. La formation nécessite beaucoup moins GPU que de nombreuses alternatives, offrant ainsi une efficacité de formation incroyable.

from ultralytics import YOLO

# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to TensorRT format
model.export(format="engine")

Grâce à la prise en charge intégrée de plusieurs tâches, notamment la détection d'objets, la segmentation d'instances et l'estimation de poses, vous pouvez rapidement faire évoluer vos solutions de vision par ordinateur sans modifier l'ensemble de votre base de code.

Exportation transparente

Déployer en périphérie ? Ultralytics simplifie l'exportation de vos modèles entraînés vers des formats hautement optimisés tels que ONNX, TensorRT et OpenVINO, avec une seule commande.

Applications concrètes

Les atouts spécifiques de ces modèles les adaptent à des applications concrètes distinctes :

Analyse rapide des ventes au détail

Pour les environnements de vente au détail modernes nécessitant une reconnaissance des produits en temps réel, YOLOv9 excelle. Sa capacité à conserver les détails complexes des caractéristiques le rend parfaitement adapté à l'IA dans les déploiements de vente au détail où il est nécessaire de distinguer des produits visuellement similaires sur une étagère encombrée.

Déploiements Legacy Edge

Dans les scénarios soumis à des contraintes matérielles strictes ou utilisant des NPU spécialisées qui peinent à gérer les nouveaux blocs d'agrégation, YOLOX-Nano peut parfois trouver sa place. Ses modèles de convolution purs et simplifiés sont parfois préférés pour les microcontrôleurs aux ressources extrêmement limitées.

Robotique autonome

En matière de navigation robotique, la perte de petits objets peut avoir des conséquences catastrophiques. L'architecture GELAN intégrée à YOLOv9 que les caractéristiques des obstacles petits et éloignés ne sont pas perdues dans les couches profondes du réseau, surpassant ainsi les anciens modèles dans les environnements critiques pour la sécurité, tels que l'IA dans les applications automobiles.

Cas d'utilisation et recommandations

Le choix entre YOLOv9 et YOLOX dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir YOLOv9

YOLOv9 un excellent choix pour :

Recherche sur les Goulots d'Étranglement de l'Information : Projets académiques étudiant les architectures PGI (Programmable Gradient Information) et GELAN (Generalized Efficient Layer Aggregation Network).
Études sur l'optimisation du flux de gradient : recherches axées sur la compréhension et l'atténuation de la perte d'informations dans les couches profondes du réseau pendant l'entraînement.
Benchmarking de détection haute précision : scénarios dans lesquels les performances élevées YOLOv9 COCO sont nécessaires comme point de référence pour les comparaisons architecturales.

Quand choisir YOLOX

YOLOX est recommandé pour :

Recherche sur la détection sans ancres : Recherche académique utilisant l'architecture propre et sans ancres de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
Appareils Edge Ultra-Légers : Déploiement sur des microcontrôleurs ou du matériel mobile hérité où l'empreinte extrêmement réduite (0,91M paramètres) de la variante YOLOX-Nano est critique.
Études d'assignation d'étiquettes SimOTA: Projets de recherche étudiant les stratégies d'assignation d'étiquettes basées sur le transport optimal et leur impact sur la convergence de l'entraînement.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

L'avenir : entrez dans YOLO26

Si YOLOv9 une avancée impressionnante, les exigences des environnements de production repoussent sans cesse les limites. La nouvelle version YOLO26 représente la norme définitive pour l'IA visuelle moderne.

YOLO26 revitalise complètement le pipeline de déploiement grâce à une conception native de bout en bout NMS. En éliminant le besoin d'une suppression non maximale complexe pendant le post-traitement, il offre une latence d'inférence considérablement réduite.

De plus, YOLO26 intègre l'optimiseur révolutionnaire MuSGD, un hybride de SGD Muon qui emprunte les innovations de la formation LLM pour offrir une convergence incroyablement stable et rapide. En supprimant la perte focale de distribution (DFL), YOLO26 atteint CPU jusqu'à 43 % plus rapide que ses prédécesseurs, ce qui en fait le meilleur choix absolu pour les appareils périphériques et les déploiements d'entreprise. Avec des améliorations notables dans la reconnaissance des petits objets via ProgLoss et STAL, YOLO26 remplace efficacement YOLOX et YOLOv9.

Pour les ingénieurs qui explorent les architectures modernes, nous recommandons également de consulter YOLO11 et RT-DETR comme alternatives puissantes au sein de la Ultralytics . Assurez la pérennité de votre projet en tirant parti des performances inégalées des derniers modèles de la Ultralytics .