Passer au contenu

YOLOX vs YOLOv10: l'évolution de la détection sans ancrage à la détection de bout en bout

Le paysage de la détection d'objets a considérablement évolué entre 2021 et 2024. YOLOX, lancé par Megvii, a marqué un tournant majeur par rapport aux méthodes basées sur les ancres, en introduisant une conception simplifiée sans ancres qui est devenue la référence en matière de recherche. Trois ans plus tard, des chercheurs de l'université de Tsinghua ont dévoilé YOLOv10, poussant encore plus loin le paradigme en éliminant complètement le besoin de suppression non maximale (NMS) grâce à une architecture de bout en bout.

Cette comparaison explore les avancées techniques réalisées entre les têtes découplées de YOLOX et la stratégie d'affectation double YOLOv10, aidant ainsi les développeurs à choisir l'outil adapté à leur pipeline de vision par ordinateur.

Comparaison en un coup d'œil

Bien que les deux modèles visent des performances en temps réel, ils résolvent le problème de détection de manière différente. YOLOX se concentre sur la simplification du processus d'entraînement grâce à l'attribution dynamique d'étiquettes, tandis que YOLOv10 la latence d'inférence en supprimant les goulots d'étranglement liés au post-traitement.

YOLOX : Le pionnier sans ancrage

YOLOX a été lancé en juillet 2021 par Zheng Ge et l'équipe de Megvii. Il a fait passer la YOLO à un mécanisme sans ancrage, ce qui a réduit le nombre de paramètres de conception (tels que les tailles des boîtes d'ancrage) que les ingénieurs devaient régler.

  • Innovation clé : tête découplée et SimOTA (Simplified Optimal Transport Assignment, affectation simplifiée du transport optimal).
  • Architecture : dorsale CSPDarknet modifiée, axée sur l'équilibre entre vitesse et précision.
  • Statut hérité : largement utilisé comme référence fiable dans des articles universitaires tels que le rapport YOLOX Arxiv.

En savoir plus sur YOLOX

YOLOv10 : Détection de bout en bout en temps réel

YOLOv10, publié en mai 2024 par des chercheurs de l'université Tsinghua, résout le problème du coût de latence NMS. En employant une stratégie d'affectation double cohérente pendant l'entraînement, il apprend à prédire une boîte par objet, ce qui permet un véritable déploiement de bout en bout.

  • Innovation clé : formation NMS via des attributions de double étiquette (une-à-plusieurs pour la supervision, une-à-une pour l'inférence).
  • Efficacité : introduction d'une conception de modèle holistique axée sur l'efficacité et la précision, y compris la conception de blocs guidée par le classement.
  • Intégration : pris en charge dans Ultralytics pour faciliter la formation et le déploiement.

En savoir plus sur YOLOv10

Analyse des performances

L'écart de performance entre ces générations est significatif, notamment en termes d'efficacité (FLOP) et de vitesse d'inférence sur le matériel moderne. YOLOv10 des blocs architecturaux plus récents pour atteindre une précision moyenne (mAP) plus élevée avec moins de paramètres.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Différences essentielles

  1. Latence : YOLOv10 NMS . Sur les appareils périphériques, NMS représenter une part importante du temps d'inférence total, ce qui rend YOLOv10 plus rapide dans les pipelines réels.
  2. Précision : YOLOv10x atteint mAP de 54,4 %, nettement supérieur à celui de YOLOX-x ( 51,1 %), bien que YOLOX-x dispose de près du double de paramètres (99,1 millions contre 56,9 millions).
  3. Efficacité de calcul : le nombre de FLOPs pour YOLOv10 est généralement inférieur pour une précision équivalente, ce qui réduit la charge sur GPU et la consommation d'énergie.

Plongée architecturale en profondeur

YOLOX : tête découplée et SimOTA

YOLOX s'est démarqué des YOLO précédentes YOLO en utilisant une tête découplée. Dans les détecteurs traditionnels, les tâches de classification et de localisation partageaient des caractéristiques convolutives. YOLOX les a séparées en deux branches, ce qui a amélioré la vitesse de convergence et la précision.

De plus, YOLOX a introduit SimOTA, une stratégie d'attribution dynamique des étiquettes. Au lieu d'utiliser des règles fixes pour faire correspondre les boîtes de vérité terrain aux ancrages, SimOTA traite le processus de correspondance comme un problème de transport optimal, attribuant des étiquettes sur la base d'un calcul de coût global. Cette approche rend YOLOX robuste sur différents ensembles de données sans nécessiter de réglage intensif des hyperparamètres.

YOLOv10: attributions doubles cohérentes

La principale contribution YOLOv10 est de résoudre le problème de divergence entre l'entraînement et l'inférence que l'on retrouve dans les modèles NMS.

  • Formation un-à-plusieurs : pendant la formation, le modèle attribue plusieurs échantillons positifs à un seul objet afin de fournir des signaux de supervision riches.
  • Inférence un-à-un : grâce à une métrique de correspondance cohérente, le modèle apprend à sélectionner la meilleure boîte unique lors de l'inférence, éliminant ainsi le besoin de NMS.

De plus, YOLOv10 des modules de convolution à grand noyau et d'auto-attention partielle (PSA) pour capturer efficacement le contexte global sans le coût de calcul élevé des transformateurs complets.

Pourquoi l'absence de NMS est-elle importante ?

La suppression non maximale (NMS) est un algorithme de post-traitement qui filtre les boîtes englobantes qui se chevauchent. Bien qu'efficace, il est séquentiel et difficile à accélérer sur du matériel tel que les FPGA ou les NPU. Sa suppression rend le pipeline de déploiement strictement déterministe et plus rapide.

Cas d'utilisation idéaux

Quand choisir YOLOX

  • Références académiques : si vous rédigez un article de recherche et avez besoin d'un détecteur propre, standard et sans ancrage pour effectuer des comparaisons.
  • Systèmes hérités : environnements déjà validés sur la base de code Megvii ou les frameworks OpenMMLab où la mise à niveau de l'ensemble du moteur d'inférence n'est pas possible.

Quand choisir YOLOv10

  • Applications à faible latence : scénarios tels que les systèmes de freinage autonomes ou le tri industriel à grande vitesse, où chaque milliseconde de post-traitement compte.
  • Périphériques à ressources limitées : les périphériques dont CPU est limitée bénéficient énormément de la suppression de l'étape NMS .

L'avantage Ultralytics

Si YOLOX et YOLOv10 des architectures puissantes, Ultralytics fait le lien entre le code brut du modèle et les applications prêtes à être mises en production.

Intégration transparente

Ultralytics YOLOv10 , ce qui vous permet de passer d'un modèle à l'autre à l'aide d'une seule ligne de code. Vous n'avez donc plus besoin d'apprendre différentes API ou différents formats de données (comme la conversion des étiquettes en COCO pour YOLOX).

from ultralytics import YOLO

# Load YOLOv10n or the newer YOLO26n
model = YOLO("yolov10n.pt")

# Train on your data with one command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Polyvalence et écosystème

Contrairement au référentiel autonome YOLOX, Ultralytics un large éventail de tâches au-delà de la détection, notamment la segmentation d'instances, l'estimation de pose et l'OBB. Toutes ces tâches peuvent être gérées via la Ultralytics , qui offre une gestion des ensembles de données basée sur le Web, une formation en un clic et un déploiement vers des formats tels que CoreML, ONNX et TensorRT.

Efficacité de l'entraînement

Ultralytics sont optimisés pour une utilisation efficace de la mémoire. Alors que certains modèles basés sur des transformateurs (comme RT-DETR) nécessitent CUDA importante,YOLO Ultralytics sont conçus pour s'entraîner sur des GPU grand public, démocratisant ainsi l'accès à l'IA de pointe.

L'avenir : YOLO26

Pour les développeurs qui recherchent les meilleures performances et la plus grande facilité d'utilisation, nous recommandons d'aller au-delà de YOLOv10 la nouvelle version YOLO26.

Sorti en janvier 2026, YOLO26 s'appuie sur la percée NMS de YOLOv10 l'améliore en termes de stabilité et de vitesse de production.

  • Optimiseur MuSGD : inspiré des innovations en matière de formation LLM de Moonshot AI, cet optimiseur garantit une convergence plus rapide et des cycles de formation stables.
  • Suppression du DFL : en supprimant le Distribution Focal Loss, YOLO26 simplifie le graphe du modèle, ce qui facilite l'exportation vers les appareils périphériques et réduit les risques d'incompatibilité avec les opérateurs.
  • Vitesse : optimisé spécifiquement pour CPU , offrant des vitesses jusqu'à 43 % plus rapides par rapport aux générations précédentes, ce qui le rend idéal pour le matériel IoT standard.

En savoir plus sur YOLO26

Conclusion

YOLOX reste une étape importante dans l'histoire de la détection d'objets, prouvant que les méthodes sans ancrage peuvent atteindre une précision de premier ordre. YOLOv10 représente la prochaine étape logique, supprimant le dernier goulot d'étranglement du NMS permettre un véritable traitement de bout en bout.

Cependant, pour une solution robuste et durable, le Ultralytics , mené par YOLO26, offre la solution la plus complète. Grâce à une documentation de qualité supérieure, un soutien actif de la communauté et une plateforme qui gère tout, de l'annotation des données à l'exportation des modèles, Ultralytics la réussite de vos projets de vision par ordinateur, du prototype à la production.

Lectures complémentaires


Commentaires