Passer au contenu

YOLOv10 YOLOX : analyse approfondie des architectures de détection d'objets en temps réel

Dans le domaine en pleine évolution de la vision par ordinateur, le passage à des architectures sans ancrage a marqué un tournant important. YOLOv10 et YOLOX représentent deux moments charnières dans cette évolution. YOLOX, lancé en 2021, a popularisé le paradigme sans ancrage en dissociant les têtes de détection et en introduisant des stratégies avancées d'attribution d'étiquettes. Trois ans plus tard, YOLOv10 les limites en introduisant une conception native NMS, éliminant ainsi complètement le besoin d'un post-traitement de suppression non maximale.

Cette comparaison explore les distinctions architecturales, les mesures de performance et les scénarios de déploiement idéaux pour les deux modèles, tout en soulignant comment les solutions modernes telles que YOLO26 intègrent ces avancées dans un écosystème IA complet.

Comparaison des métriques de performance

Lors du choix d'un modèle pour la production, il est essentiel de comprendre le compromis entre la vitesse d'inférence et la précision de détection. Le tableau ci-dessous présente une comparaison détaillée de ces deux familles à différentes échelles de modèle.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Comme indiqué, YOLOv10 atteint généralement une précision moyenne (mAP) plus élevée pour des latences d'inférence similaires sur GPU . Par exemple, le modèle YOLOv10m atteint mAP de 51,3 % contre 46,9 % pour YOLOX-m, tout en conservant un profil de latence similaire. Ce gain d'efficacité est largement attribué à la suppression du NMS, qui réduit la charge de calcul pendant la phase de post-traitement.

YOLOv10 : L'innovateur de bout en bout

YOLOv10 un changement architectural majeur en s'attaquant à l'un des goulots d'étranglement les plus anciens dans la détection en temps réel : la suppression non maximale (NMS). Les détecteurs traditionnels prédisent plusieurs cadres de sélection pour un même objet et s'appuient sur NMS filtrer les doublons. YOLOv10 cette étape grâce à une stratégie d'attribution double cohérente pendant l'entraînement.

Principales caractéristiques architecturales

YOLOv10 la « conception de modèle holistique axée sur l'efficacité et la précision ». Cela implique l'optimisation de composants individuels tels que les couches de sous-échantillonnage et la tête de prédiction afin de minimiser la redondance computationnelle. Le modèle utilise deux types d'attributions d'étiquettes: une attribution un-à-plusieurs pour une supervision riche pendant l'entraînement et une attribution un-à-un pour l'inférence, ce qui permet au modèle de prédire une seule meilleure boîte par objet, rendant ainsi NMS .

Cette architecture est particulièrement avantageuse pour les déploiements en périphérie où la variabilité de la latence causée par NMS qui dépend du nombre d'objets détectés) peut poser problème.

En savoir plus sur YOLOv10

YOLOX : Le pionnier sans ancrage

YOLOX a été l'un des premiers modèles haute performance à intégrer avec succès la détection sans ancrage à la YOLO , s'écartant ainsi de l'approche basée sur l'ancrage de YOLOv3 et YOLOv4. En supprimant les boîtes d'ancrage prédéfinies, YOLOX a simplifié le processus d'entraînement et amélioré la généralisation pour différentes formes d'objets.

Principales caractéristiques architecturales

YOLOX dispose d'une tête découplée, séparant les tâches de classification et de régression en différentes branches. Cette conception s'est avérée converger plus rapidement et atteindre une meilleure précision. Elle a également introduit SimOTA, une stratégie avancée d'attribution d'étiquettes qui attribue dynamiquement des échantillons positifs sur la base d'une fonction de coût, garantissant un équilibre entre la qualité de la classification et celle de la régression.

Bien que très efficace, YOLOX repose toujours sur NMS , ce qui signifie que son temps d'inférence peut fluctuer dans les scènes à forte densité d'objets, contrairement à la latence constante de YOLOv10.

En savoir plus sur YOLOX

L'avantage Ultralytics

Bien que les deux modèles aient leurs mérites, Ultralytics fournit une interface unifiée qui simplifie considérablement le cycle de vie du développement par rapport aux référentiels autonomes. Que vous utilisiez YOLOv10 la dernière version YOLO26, l'expérience est rationalisée.

Facilité d'utilisation et polyvalence

Les développeurs peuvent passer d'un modèle à l'autre à l'aide d'une seule ligne de code. Contrairement à la base de code YOLOX, qui nécessite des fichiers de configuration et des étapes de configuration spécifiques, Ultralytics sont « plug-and-play ». De plus, Ultralytics un plus large éventail de tâches de vision par ordinateur, notamment la segmentation d'instances, l'estimation de pose et la détection d'objets orientés (OBB), offrant ainsi une polyvalence qui fait défaut à YOLOX.

from ultralytics import YOLO

# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Efficacité de l'entraînement et mémoire

Ultralytics sont conçus pour une utilisation optimale des ressources. Ils nécessitent généralement moins CUDA pendant l'entraînement que les architectures à forte intensité de transformateurs telles que RT-DETR ou les bases de code plus anciennes. Cela permet aux chercheurs de s'entraîner sur des GPU grand public, démocratisant ainsi l'accès au développement d'IA haut de gamme. La Ultralytics améliore encore cela en fournissant une formation basée sur le cloud, la gestion des ensembles de données et l'exportation de modèles en un clic.

Mises à niveau transparentes

Le passage d'une architecture ancienne à une architecture moderne telle que YOLO26 permet souvent d'obtenir des gains de performances immédiats sans refactorisation du code. Ultralytics une API cohérente d'une génération à l'autre, garantissant ainsi la préservation de votre investissement dans l'intégration du code.

Pourquoi choisir YOLO26 ?

Pour les développeurs qui recherchent le meilleur équilibre possible entre vitesse, précision et fonctionnalités modernes, YOLO26 est le choix recommandé. Lancé début 2026, il s'appuie sur les innovations NMS de YOLOv10 les perfectionne pour offrir une stabilité et une vitesse supérieures.

  • Nativement de bout en bout : tout comme YOLOv10, YOLO26 est NMS, ce qui garantit une latence déterministe.
  • Optimiseur MuSGD : inspiré de la formation LLM (en particulier Kimi K2 de Moonshot AI), cet optimiseur hybride garantit une convergence plus rapide et une stabilité de formation.
  • Optimisation des bords : grâce à la suppression de la perte focale de distribution (DFL) et à l'optimisation des fonctions de perte (ProgLoss + STAL), YOLO26 offre CPU jusqu'à 43 % plus rapide, ce qui le rend idéal pour les appareils sans GPU dédiés.

En savoir plus sur YOLO26

Applications concrètes

Le choix entre ces modèles dépend souvent des contraintes spécifiques de votre projet.

Comptage de foules à haute densité

Dans des scénarios tels que la surveillance des villes intelligentes, il est courant de détecter des centaines de personnes dans un cadre.

  • YOLOX : Peut souffrir de pics de latence car le temps NMS augmente linéairement avec le nombre de boîtes détectées.
  • YOLOv10 YOLO26 : leur conception NMS garantit une durée d'inférence stable, quelle que soit la densité de la foule, ce qui est essentiel pour les flux vidéo en temps réel.

Robotique mobile et embarquée

Pour les robots évoluant dans des environnements dynamiques, chaque milliseconde compte.

  • YOLOX-Nano : un concurrent léger et puissant, mais dont l'architecture commence à dater.
  • YOLO26n : offre une précision supérieure avec un nombre de paramètres similaire ou inférieur et bénéficie de la suppression du DFL, ce qui le rend nettement plus rapide sur les processeurs équipant des appareils tels que Raspberry Pi ou Jetson Nano.

Inspection industrielle

La détection des défauts sur les chaînes de montage exige une grande précision.

  • YOLOX : sa tête découplée offre une excellente précision de localisation, ce qui en fait une référence fiable pour la recherche.
  • Ultralytics : la possibilité de passer facilement à des tâches de segmentation permet au même système non seulement de detect défaut, mais aussi de mesurer sa surface exacte, fournissant ainsi des données plus riches pour le contrôle qualité.

Conclusion

YOLOX reste une référence respectable dans le milieu universitaire, saluée pour avoir popularisé la détection sans ancrage. YOLOv10 a réussi à faire progresser cet héritage en supprimant NMS, offrant ainsi un aperçu de l'avenir des systèmes en temps réel de bout en bout.

Cependant, pour les déploiements de production actuels, Ultralytics offre un avantage inégalé. En standardisant les workflows de formation, de validation et de déploiement, il permet aux développeurs de tirer parti des performances de pointe de YOLO26, qui combine les avantages NMS de YOLOv10 CPU et une stabilité de formation supérieures, sans la complexité liée à la gestion de bases de code disparates.

Pour approfondir le sujet, consultez la documentation relative à YOLO11 ou plongez-vous dans les mesures de performance pour mieux comprendre comment évaluer ces modèles sur votre propre matériel.


Commentaires