Link to this sectionYOLOX contre YOLOv6-3.0#

L'évolution de la computer vision a été largement définie par les avancées rapides de la série YOLO. Choisir la bonne architecture pour ton déploiement revient souvent à trouver l'équilibre entre le débit brut, la simplicité architecturale et l'efficacité de l'entraînement. Deux jalons notables dans ce parcours sont l'accent mis sur la recherche sans ancrage de YOLOX et le débit industriel hautement optimisé de YOLOv6-3.0.

Cette comparaison technique détaille leurs différences architecturales, leurs métriques de performance et leurs cas d'utilisation idéaux, tout en présentant les capacités de nouvelle génération d' Ultralytics YOLO26 pour les développeurs recherchant la solution ultime de déploiement en périphérie et dans le cloud.

Link to this sectionYOLOX : Relier la recherche et l'industrie#

Développé par des chercheurs chez Megvii, YOLOX a été introduit comme un changement majeur visant à simplifier l'architecture YOLO en la rendant entièrement sans ancrage.

Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
Organisation : Megvii
Date : 18-07-2021
Arxiv : 2107.08430
GitHub : Megvii-BaseDetection/YOLOX

Link to this sectionPoints forts architecturaux#

YOLOX a intégré avec succès une conception sans ancrage dans la famille YOLO. En éliminant les anchor boxes prédéfinies, le modèle réduit considérablement le nombre de paramètres de conception et le réglage heuristique requis pendant l'entraînement. Cela rend YOLOX hautement adaptable à divers jeux de données personnalisés sans recalcul manuel des ancres.

De plus, YOLOX a introduit une architecture à tête découplée. En séparant les tâches de classification et de régression en différentes branches, le modèle résout le conflit inhérent entre l'identification de ce qu'est un objet et de l'endroit où il est situé. Associé à la stratégie d'attribution de labels SimOTA, YOLOX atteint une convergence plus rapide et une meilleure mean average precision (mAP).

En savoir plus sur YOLOX

L'avantage du sans-ancres

Les détecteurs sans ancrage comme YOLOX fonctionnent souvent mieux sur des jeux de données personnalisés avec des rapports d'aspect d'objets inhabituels, car ils ne reposent pas sur des priors de boîtes englobantes fixes qui pourraient ne pas correspondre aux nouvelles données.

Link to this sectionYOLOv6-3.0 : Le poids lourd industriel#

Développé par le département Vision AI de Meituan, YOLOv6-3.0 est conçu sans compromis pour un débit industriel maximal, en particulier sur les GPU NVIDIA utilisant des accélérateurs matériels comme TensorRT.

Auteurs : Chuyi Li, Lulu Li, Yifei Geng, et al.
Organisation : Meituan
Date : 13/01/2023
Arxiv : 2301.05586
GitHub : meituan/YOLOv6

Link to this sectionOptimisation pour le déploiement#

YOLOv6-3.0 se concentre sur la maximisation de l'utilisation du GPU. Il introduit un module de concaténation bidirectionnelle (BiC) dans le cou pour améliorer la fusion des caractéristiques tout en maintenant des vitesses d'inférence élevées. Bien que la phase d'inférence soit totalement sans ancrage, YOLOv6-3.0 utilise une stratégie innovante d'entraînement assisté par ancres (AAT) pour bénéficier de la stabilité basée sur les ancres pendant la phase d'entraînement.

Le backbone est construit en utilisant l'architecture EfficientRep compatible avec le matériel, délibérément conçue pour minimiser les coûts d'accès à la mémoire et maximiser la densité de calcul sur les accélérateurs modernes. Cela fait de YOLOv6 un candidat exceptionnellement solide pour l'analyse vidéo côté serveur.

En savoir plus sur YOLOv6

Link to this sectionComparaison des performances#

Lors de la comparaison de ces modèles, les développeurs doivent peser la précision brute par rapport à la vitesse d'inférence et au nombre de paramètres. Le tableau suivant met en évidence les performances des deux familles de modèles selon différentes tailles.

Modèle	taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLOv6-3.0n	640	37,5	-	1,17	4.7	11.4
YOLOv6-3.0s	640	45,0	-	2.66	18,5	45,3
YOLOv6-3.0m	640	50,0	-	5,28	34,9	85,8
YOLOv6-3.0l	640	52.8	-	8,95	59,6	150,7

Alors que YOLOv6-3.0 affiche une mAP supérieure et d'excellentes vitesses TensorRT pour les variantes plus grandes, YOLOX reste très compétitif grâce à sa simplicité et à ses performances robustes sur le matériel existant.

Link to this sectionCas d'utilisation et recommandations#

Choisir entre YOLOX et YOLOv6 dépend de tes exigences de projet spécifiques, de tes contraintes de déploiement et de tes préférences d'écosystème.

Link to this sectionQuand choisir YOLOX#

YOLOX est un choix solide pour :

Recherche sur la détection sans ancres : La recherche académique utilisant l'architecture propre et sans ancres de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou des fonctions de perte.
Appareils en périphérie ultra-légers : Le déploiement sur des microcontrôleurs ou du matériel mobile ancien où l'empreinte extrêmement réduite de la variante YOLOX-Nano (0.91 M de paramètres) est critique.
Études sur l'assignation de labels SimOTA : Les projets de recherche étudiant les stratégies d'assignation de labels basées sur le transport optimal et leur impact sur la convergence de l'entraînement.

Link to this sectionQuand choisir YOLOv6#

YOLOv6 est recommandé pour :

Déploiement industriel conscient du matériel : Les scénarios où la conception du modèle axée sur le matériel et la reparamétrisation efficace offrent des performances optimisées sur un matériel cible spécifique.
Détection rapide en une étape : Les applications priorisant la vitesse d'inférence brute sur GPU pour le traitement vidéo en temps réel dans des environnements contrôlés.
Intégration à l'écosystème Meituan : Les équipes travaillant déjà au sein de la pile technologique et de l'infrastructure de déploiement de Meituan.

Link to this sectionQuand choisir Ultralytics (YOLO26)#

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Link to this sectionL'avantage Ultralytics#

Bien que Megvii et Meituan fournissent des dépôts de recherche puissants, déployer ces modèles en production nécessite souvent une charge d'ingénierie importante. L' Ultralytics ecosystem intégré élimine ces obstacles en proposant une API unifiée et largement documentée.

En tirant parti du package Ultralytics, les développeurs accèdent à une expérience utilisateur inégalée. Cela inclut l' auto-augmentation intégrée, une gestion de mémoire hautement efficace pendant l'entraînement (réduisant considérablement les besoins en VRAM par rapport aux modèles Transformer comme RTDETR) et des pipelines d'exportation transparents vers des formats tels que ONNX et OpenVINO.

Contrairement aux modèles spécialisés, les architectures Ultralytics sont intrinsèquement polyvalentes, prenant en charge l' Object Detection, l' Instance Segmentation, l' Pose Estimation, la classification d'images et les Oriented Bounding Boxes (OBB) dès le départ.

Link to this sectionDécouvre YOLO26 : La solution Edge ultime#

Pour les équipes qui démarrent de nouveaux projets de vision par ordinateur, nous recommandons vivement de passer au nouvel Ultralytics YOLO26. En s'appuyant sur les succès de YOLO11 et YOLOv8, YOLO26 introduit des innovations qui changent la donne :

End-to-End NMS-Free Design: First explored in YOLOv10, YOLO26 natively eliminates the need for Non-Maximum Suppression (NMS) post-processing. This guarantees deterministic, ultra-low latency inference critical for real-time robotics.
Optimiseur MuSGD : Inspiré par les techniques d'entraînement LLM comme Kimi K2 de Moonshot AI, YOLO26 utilise l'optimiseur MuSGD (un hybride de SGD et Muon) pour obtenir une dynamique d'entraînement incroyablement stable et une convergence plus rapide.
Up to 43% Faster CPU Inference: By removing Distribution Focal Loss (DFL) and streamlining the network head, YOLO26 is heavily optimized for edge devices relying on CPU execution, drastically outperforming YOLOv6 in edge scenarios.
ProgLoss + STAL : Ces formulations de perte avancées apportent des améliorations remarquables à la détection de petits objets, rendant YOLO26 idéal pour l'imagerie aérienne et l'inspection de défauts microscopiques.

En savoir plus sur YOLO26

Link to this sectionExemple d'entraînement unifié#

En utilisant l'API Python d'Ultralytics, l'entraînement de modèles de pointe ne nécessite que quelques lignes de code. Cette même interface propre s'applique que tu testes un ancien modèle YOLO ou que tu déploies le framework YOLO26 de pointe.

from ultralytics import YOLO

# Load the next-generation YOLO26 model (NMS-free, optimized for edge)
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The ecosystem handles downloading, caching, and auto-batching natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model and print mAP metrics
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the model for edge deployment
model.export(format="onnx")

Plateforme Ultralytics

Pour une expérience encore plus fluide, gère tes jeux de données, suis tes expériences et entraîne tes modèles dans le cloud en utilisant l' Ultralytics Platform sans code.

Link to this sectionRecommandations de cas d'utilisation#

Lorsque tu choisis entre ces architectures, prends en compte tes contraintes matérielles spécifiques et tes exigences de projet :

Choisis YOLOX si tu mènes des recherches académiques sur les stratégies d'attribution de labels ou si tu as besoin d'une base de référence sans ancrage pure et facile à comprendre pour des modifications architecturales personnalisées.
Choisis YOLOv6-3.0 si tu déploies sur un rack de serveurs industriels équipé de GPU NVIDIA haut de gamme (comme l'A100 ou la T4), où tu peux utiliser de grandes tailles de batch et des optimisations TensorRT pour traiter des centaines de flux vidéo simultanément.
Choisis YOLO26 pour la vaste majorité des applications modernes. Si tu construis des applications d' Edge AI pour des appareils IoT, des drones ou des téléphones mobiles, la conception sans NMS native, les optimisations CPU et le support complet de l'écosystème de YOLO26 en font le meilleur choix incontesté pour combler le fossé entre l'entraînement et la production.

Contributeurs

GLglenn-jocher¹⁴ PDpderrenger¹

Créé 27 janv. 2025Mis à jour il y a 4 semaines