YOLOX vs YOLOv5: faire le lien entre la recherche sans ancrage et la détection d'objets dans l'industrie
L'évolution de la détection d'objets en temps réel a été guidée par deux philosophies distinctes : la recherche académique de la pureté architecturale et la demande industrielle d'un déploiement pratique. YOLOX et YOLOv5 représentent la convergence de ces deux voies. YOLOX a introduit un détecteur haute performance sans ancrage qui a simplifié la géométrie sous-jacente de la détection, tandis que YOLOv5 la norme mondiale en matière de convivialité, de robustesse et de facilité de déploiement dans les environnements de production.
Cette comparaison détaillée examine comment ces deux modèles influents se positionnent en termes de choix architecturaux, de vitesse d'inférence et d'applicabilité dans le monde réel, afin de vous aider à déterminer quel cadre correspond le mieux à vos besoins en matière de vision par ordinateur.
Caractéristiques techniques principales
Le tableau suivant met en évidence les indicateurs de performance des deux modèles. Alors que YOLOX affiche d'excellents résultats théoriques, YOLOv5 offre YOLOv5 un profil plus équilibré pour un déploiement pratique, en particulier si l'on tient compte de la maturité de son écosystème d'exportation.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
YOLOX : l'innovateur sans ancre
YOLOX, lancé par Megvii en 2021, a marqué un tournant important dans la YOLO en abandonnant les boîtes d'ancrage, un élément essentiel des versions précédentes telles que YOLOv2 et YOLOv3. En adoptant un mécanisme sans ancrage, YOLOX a simplifié le processus d'entraînement et éliminé le besoin de réglage manuel des hyperparamètres d'ancrage, qui nécessitait souvent une expertise spécifique au domaine.
Points forts architecturaux
- Mécanisme sans ancrage : au lieu de prédire les décalages à partir de boîtes prédéfinies, YOLOX prédit directement les coordonnées des boîtes englobantes. Cette approche réduit la complexité de l'architecture de la tête et améliore la généralisation pour différentes formes d'objets.
- Tête découplée : les tâches de classification et de localisation sont séparées en différentes branches du réseau. Ce découplage résout le conflit entre la confiance de classification et la précision de localisation, ce qui accélère la convergence pendant l'entraînement.
- Attribution d'étiquettes SimOTA : YOLOX a introduit SimOTA, une stratégie avancée d'attribution d'étiquettes qui considère la procédure d'attribution comme un problème de transport optimal. Cette attribution dynamique permet au modèle d'apprendre des échantillons positifs plus efficaces pendant l'entraînement.
- MixUp par mosaïque et MixUp : fortement inspiré par Ultralytics YOLOv4 et Ultralytics , YOLOX utilise des stratégies d'augmentation de données puissantes pour renforcer la robustesse sans augmenter le coût de l'inférence.
Contexte de la recherche
YOLOX a servi de pont essentiel entre la recherche universitaire et l'application industrielle, prouvant que les détecteurs sans ancrage pouvaient égaler les performances des systèmes optimisés basés sur des ancrages tels que YOLOv5.
Détails de YOLOX :
- Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
- Organisation :Megvii
- Date : 2021-07-18
- Arxiv:YOLOX : Dépasser la série YOLO en 2021
- GitHub :Megvii-BaseDetection/YOLOX
YOLOv5 : La norme industrielle
YOLOv5, développé par Ultralytics, est sans doute le modèle de détection d'objets le plus largement adopté au monde. Il privilégie la facilité d'utilisation, la stabilité et une expérience « qui fonctionne tout simplement ». Alors que YOLOX se concentrait sur la nouveauté architecturale, YOLOv5 sur l'excellence technique, créant un modèle facile à former, à déployer et à adapter à des milliers de cas d'utilisation dans le monde réel.
Pourquoi les développeurs choisissent YOLOv5
- Facilité d'utilisation inégalée : Ultralytics simplifie la complexité de l'entraînement des modèles d'apprentissage profond. Un utilisateur peut passer d'un ensemble de données à un modèle entraîné en quelques lignes de Python seulement, ce qui réduit considérablement les obstacles à l'adoption de l'IA.
- Écosystème complet : contrairement aux référentiels de recherche qui sont souvent abandonnés après publication, YOLOv5 soutenu par un écosystème massif. Cela inclut des intégrations transparentes avec des outils MLOps tels que Weights & Biases, Cometet ClearML, garantissant un flux de travail de développement professionnel.
- Gestion efficace de la mémoire : YOLOv5 conçu pour être efficace. Il nécessite généralement moins GPU pendant l'entraînement que bon nombre de ses concurrents, ce qui permet aux utilisateurs d'entraîner des modèles efficaces sur du matériel grand public ou même sur des ressources cloud gratuites telles que Google .
- Une polyvalence qui va au-delà de la détection : alors que YOLOX est avant tout un cadre de détection, YOLOv5 prend en charge YOLOv5 la segmentation d'instances et la classification d'images, ce qui en fait un outil multifonctionnel adapté à divers types de projets.
YOLOv5 :
- Auteur : Glenn Jocher
- Organisation :Ultralytics
- Date : 2020-06-26
- Docs :Documentation YOLOv5
- GitHub :ultralytics/yolov5
Analyse des performances et du déploiement
Lors du choix d'un modèle pour la production, mAP brut mAP rarement le seul facteur pris en compte. Les contraintes de déploiement, la compatibilité matérielle et la maintenance sont tout aussi importantes.
Vitesse et efficacité de l'inférence
YOLOv5 dans les scénarios de déploiement. Son architecture est fortement optimisée pour l'exportation vers des formats tels que ONNX, TensorRT, CoreMLet TFLite. Comme le montre le tableau comparatif, YOLOv5n (Nano) atteint des vitesses d'inférence nettement plus rapides (1,12 ms sur T4 TensorRT) que les modèles légers similaires, ce qui le rend idéal pour les appareils périphériques où chaque milliseconde compte.
YOLOX, bien que performant, peut parfois rencontrer des difficultés en matière de compatibilité d'exportation en raison de ses composants architecturaux spécifiques (tels que la tête découplée), qui peuvent nécessiter une ingénierie plus personnalisée afin d'être optimisés pour certains moteurs d'inférence.
Expérience en matière de formation
L'efficacité de la formation est l'une des caractéristiques principales de Ultralytics . Le mécanisme d'ancrage automatique YOLOv5 recalcule automatiquement les ancrages afin de les adapter au mieux à votre ensemble de données personnalisé, offrant ainsi les avantages d'ancrages sur mesure sans intervention manuelle. De plus, la disponibilité de poids pré-entraînés de haute qualité accélère l'apprentissage par transfert, permettant aux modèles d'atteindre une grande précision avec des ensembles de données plus petits.
from ultralytics import YOLO
# Load a model (YOLOv5 or the newer YOLO26)
model = YOLO("yolov5su.pt") # YOLOv5s with newer head
# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Flux de travail simplifié
L'extrait de code ci-dessus illustre Ultralytics unifiée. Cette interface simple fonctionne pour YOLOv5, YOLOv8 et le tout dernier YOLO26, vous permettant de changer de modèle instantanément sans avoir à réécrire votre code.
Recommandations de cas d'utilisation
Idéal pour YOLOX
- Recherche universitaire : sa mise en œuvre propre et sans ancrage en fait une excellente base de référence pour les chercheurs qui étudient les stratégies d'attribution d'étiquettes ou les architectures de têtes de détection.
- Scénarios spécifiques à haute précision : pour les tâches où la maximisation mAP la seule priorité et où la latence d'inférence est moins critique, les variantes plus importantes de YOLOX (comme YOLOX-x) offrent une précision compétitive.
Idéal pour YOLOv5
- Déploiement commercial : grâce à ses solides voies d'exportation et à sa stabilité, YOLOv5 est YOLOv5 idéale pour les entreprises qui déploient des milliers d'appareils, des Raspberry Pi aux serveurs cloud.
- Edge AI : les variantes légères (Nano/Small) sont exceptionnellement rapides, parfaites pour l'analyse vidéo en temps réel sur les téléphones mobiles ou les drones.
- Prototypage rapide : grâce à l'expérience « zero-to-hero », les développeurs peuvent valider leurs idées en quelques heures plutôt qu'en plusieurs jours.
L'avenir : Ultralytics
Si YOLOv5 YOLOX restent des outils puissants, le domaine a évolué. Pour les développeurs à la recherche des meilleures performances absolues, Ultralytics représente la nouvelle génération d'IA visuelle.
YOLO26 combine le meilleur des deux mondes :
- NMS de bout en bout : à l'instar des modèles de recherche les plus avancés, YOLO26 est nativement de bout en bout, éliminant ainsi le besoin d'NMS . Il en résulte une inférence plus rapide et déterministe, simplifiant les pipelines de déploiement.
- Optimiseur MuSGD : inspiré des innovations en matière de formation LLM, YOLO26 utilise l'optimiseur MuSGD pour une plus grande stabilité et une vitesse de convergence accrue.
- Optimisation des périphériques : spécialement conçu pour l'informatique en périphérie, il offre CPU jusqu'à 43 % plus rapide que les générations précédentes, ce qui en fait un choix idéal pour les applications mobiles et IoT.
- Polyvalence : il prend en charge toutes les tâches (détection, segmentation, classification, pose et OBB) dans un cadre unique et unifié.
Conclusion
Le choix entre YOLOX et YOLOv5 dépend YOLOv5 de vos objectifs. Si vous êtes un chercheur souhaitant expérimenter des architectures sans ancrage, YOLOX est un candidat sérieux. Cependant, pour la grande majorité des développeurs et des entreprises qui se concentrent sur la création d'applications fiables et en temps réel, YOLOv5et son successeur YOLO26offrent un équilibre supérieur entre vitesse, précision et facilité d'utilisation. Ultralytics garantit que vos projets bénéficient d'une maintenance active, d'une documentation complète et d'une communauté dynamique.
Pour approfondir vos recherches, vous pourriez également être intéressé par une comparaison YOLOv8 YOLOv5 ou par la découverte des capacités en temps réel de YOLOv10.