YOLOX vs YOLOv6.0 : guide complet sur la détection d'objets sans ancrage et industrielle
L'évolution de la vision par ordinateur a été largement définie par les progrès rapides de la YOLO . Le choix de l'architecture adaptée à votre déploiement repose souvent sur un équilibre entre le débit brut, la simplicité architecturale et l'efficacité de la formation. Deux étapes importantes dans cette évolution sont la recherche sans ancrage de YOLOX et le débit industriel hautement optimisé de YOLOv6. YOLOv6.
Cette comparaison technique détaille leurs différences architecturales, leurs indicateurs de performance et leurs cas d'utilisation idéaux, tout en présentant les capacités de nouvelle génération Ultralytics pour les développeurs à la recherche de la solution ultime de déploiement en périphérie et dans le cloud.
YOLOX : Relier la recherche et l’industrie
Développé par les chercheurs de Megvii, YOLOX a été présenté comme une évolution majeure vers la simplification de YOLO en la rendant entièrement sans ancrage.
- Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
- Organisation : Megvii
- Date : 2021-07-18
- Arxiv :2107.08430
- GitHub :Megvii-BaseDetection/YOLOX
Points forts architecturaux
YOLOX a réussi à intégrer une conception sans ancrage dans la YOLO . En éliminant les boîtes d'ancrage prédéfinies, le modèle réduit considérablement le nombre de paramètres de conception et de réglages heuristiques nécessaires pendant l'entraînement. Cela rend YOLOX très adaptable à divers ensembles de données personnalisés sans recalcul manuel des ancrages.
De plus, YOLOX a introduit une architecture à tête découplée. En séparant les tâches de classification et de régression en différentes branches, le modèle résout le conflit inhérent entre l'identification d'un objet et la localisation de celui-ci. Associé à la stratégie d'attribution d'étiquettes SimOTA, YOLOX permet une convergence plus rapide et une précision moyenne améliorée (mAP).
Avantage sans ancre
Les détecteurs sans ancrage tels que YOLOX sont souvent plus performants sur des ensembles de données personnalisés comportant des objets aux proportions inhabituelles, car ils ne s'appuient pas sur des antécédents de cadres de sélection fixes qui pourraient ne pas correspondre aux nouvelles données.
YOLOv6.0 : le poids lourd industriel
Développé par le département Vision AI de Meituan, YOLOv6.0 est conçu sans compromis pour offrir un débit industriel maximal, en particulier sur NVIDIA utilisant des accélérateurs matériels tels que TensorRT.
- Auteurs : Chuyi Li, Lulu Li, Yifei Geng, et al.
- Organisation : Meituan
- Date : 2023-01-13
- Arxiv :2301.05586
- GitHub :meituan/YOLOv6
Optimisation pour le déploiement
YOLOv6.0 vise à maximiser GPU . Il introduit un module de concaténation bidirectionnelle (BiC) dans le cou afin d'améliorer la fusion des caractéristiques tout en conservant des vitesses d'inférence élevées. Alors que la phase d'inférence est totalement dépourvue d'ancrage, YOLOv6. YOLOv6 utilise une stratégie innovante d'entraînement assisté par ancrage (AAT) afin de bénéficier de la stabilité offerte par l'ancrage pendant la phase d'entraînement.
La structure est construite à l'aide de l'architecture EfficientRep, compatible avec le matériel, spécialement conçue pour minimiser les coûts d'accès à la mémoire et maximiser la densité de calcul sur les accélérateurs modernes. Cela fait de YOLOv6 candidat exceptionnellement solide pour l'analyse vidéo côté serveur.
Comparaison des performances
Lorsqu'ils comparent ces modèles, les développeurs doivent mettre en balance la précision brute, la vitesse d'inférence et le nombre de paramètres. Le tableau suivant met en évidence les performances des deux familles de modèles pour différentes tailles.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Alors que YOLOv6. YOLOv6 affiche mAP supérieur mAP d'excellentes TensorRT pour les variantes plus importantes, YOLOX reste très compétitif grâce à sa simplicité et ses performances robustes sur les matériels existants.
Cas d'utilisation et recommandations
Le choix entre YOLOX et YOLOv6 des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.
Quand choisir YOLOX
YOLOX est un choix judicieux pour :
- Recherche sur la détection sans ancrage : recherche universitaire utilisant l'architecture propre et sans ancrage de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
- Dispositifs périphériques ultra-légers : déploiement sur des microcontrôleurs ou du matériel mobile existant où l'empreinte extrêmement réduite (0,91 M de paramètres) de la variante YOLOX-Nano est essentielle.
- Études sur l'attribution des étiquettes SimOTA : projets de recherche visant à étudier les stratégies optimales d'attribution des étiquettes basées sur le transport et leur impact sur la convergence de l'apprentissage.
Quand choisir YOLOv6
YOLOv6 recommandé pour :
- Déploiement tenant compte du matériel industriel : scénarios dans lesquels la conception tenant compte du matériel et la reparamétrisation efficace du modèle offrent des performances optimisées sur un matériel cible spécifique.
- Détection rapide en une seule étape : applications donnant la priorité à la vitesse d'inférence brute sur GPU le traitement vidéo en temps réel dans des environnements contrôlés.
- Intégration de l'écosystème Meituan : équipes travaillant déjà au sein de la pile technologique et de l'infrastructure de déploiement de Meituan.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
L'avantage Ultralytics
Bien que Megvii et Meituan fournissent tous deux de puissants référentiels de recherche, le déploiement de ces modèles en production nécessite souvent des coûts d'ingénierie importants. Ultralytics intégré Ultralytics élimine ces obstacles en proposant une API unifiée et largement documentée.
En tirant parti du Ultralytics , les développeurs bénéficient d'une expérience utilisateur inégalée. Cela inclut une augmentation automatique intégrée, une gestion très efficace de la mémoire pendant l'entraînement (réduisant considérablement les besoins en VRAM par rapport aux modèles de transformateurs tels que RTDETR) et des pipelines d'exportation transparents vers des formats tels que ONNX et OpenVINO.
Contrairement aux modèles spécialisés, Ultralytics sont intrinsèquement polyvalentes et prennent en charge dès leur installation la détection d'objets, la segmentation d'instances, l'estimation de poses, la classification d'images et les boîtes englobantes orientées (OBB).
Découvrez YOLO26 : la solution Edge ultime
Pour les équipes qui lancent de nouveaux projets de vision par ordinateur, nous recommandons vivement de passer à la nouvelle version Ultralytics . S'appuyant sur le succès de YOLO11 et YOLOv8, YOLO26 introduit des innovations qui changent la donne :
- Conception NMS de bout en bout : explorée pour la première fois dans YOLOv10, YOLO26 élimine nativement le besoin d'un post-traitement par suppression non maximale (NMS). Cela garantit une inférence déterministe à très faible latence, essentielle pour la robotique en temps réel.
- Optimiseur MuSGD : inspiré des techniques d'entraînement LLM telles que Kimi K2 de Moonshot AI, YOLO26 utilise l'optimiseur MuSGD (un hybride de SGD Muon) pour obtenir une dynamique d'entraînement incroyablement stable et une convergence plus rapide.
- CPU jusqu'à 43 % plus rapide : en supprimant la perte focale de distribution (DFL) et en rationalisant la tête du réseau, YOLO26 est fortement optimisé pour les appareils périphériques qui s'appuient sur CPU , surpassant considérablement YOLOv6 les scénarios périphériques.
- ProgLoss + STAL : ces formules avancées de perte offrent des améliorations remarquables dans la détection des petits objets, rendant YOLO26 idéal pour l'imagerie aérienne et l'inspection des défauts microscopiques.
Exemple de formation unifiée
Grâce àPython Ultralytics , l'entraînement de modèles de pointe ne nécessite que quelques lignes de code. Cette interface épurée s'applique aussi bien au test d'un YOLO existant qu'au déploiement du framework YOLO26 de pointe.
from ultralytics import YOLO
# Load the next-generation YOLO26 model (NMS-free, optimized for edge)
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
# The ecosystem handles downloading, caching, and auto-batching natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model and print mAP metrics
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")
# Export the model for edge deployment
model.export(format="onnx")
Plateforme Ultralytics
Pour une expérience encore plus fluide, gérez vos ensembles de données, track et entraînez vos modèles dans le cloud à l'aide de la Ultralytics sans code.
Recommandations de cas d'utilisation
Lorsque vous choisissez entre ces architectures, tenez compte des contraintes matérielles spécifiques et des exigences de votre projet :
- Choisissez YOLOX si vous menez des recherches universitaires sur les stratégies d'attribution d'étiquettes ou si vous avez besoin d'une base de référence pure, facile à comprendre et sans ancrage pour des modifications architecturales personnalisées.
- Choisissez YOLOv6. YOLOv6 si vous déployez sur un rack de serveurs industriels équipé de NVIDIA haut de gamme (comme les modèles A100 ou T4) où vous pouvez utiliser des lots de grande taille et TensorRT pour traiter simultanément des centaines de flux vidéo.
- Choisissez YOLO26 pour la grande majorité des applications modernes. Si vous développez des applications Edge AI pour des appareils IoT, des drones ou des téléphones mobiles, la conception native NMS, CPU et la prise en charge complète de l'écosystème de YOLO26 en font le choix incontestable pour combler le fossé entre la formation et la production.