Passer au contenu

YOLOX vs. YOLOv5 : exploration de l’innovation sans ancrage et de l’efficacité éprouvée

Dans le paysage en rapide évolution de la détection d'objets, le choix de la bonne architecture est essentiel au succès d'un projet. Cette comparaison explore deux modèles influents : YOLOX, un modèle académique de premier plan connu pour sa conception sans ancrage, et YOLOv5, la norme industrielle en matière de vitesse et de facilité de déploiement. Les deux modèles ont façonné le domaine de la vision par ordinateur, mais ils répondent à des besoins distincts selon que votre priorité est la précision de niveau recherche ou l'efficacité prête pour la production.

Analyse des performances : Vitesse, précision et efficacité

Lors de l'évaluation de YOLOX et YOLOv5, la distinction se résume souvent au compromis entre la précision brute et l'efficacité opérationnelle. YOLOX a introduit des changements architecturaux importants, tels qu'une tête découplée et un mécanisme sans ancrage, ce qui lui a permis d'atteindre des scores mAP (précision moyenne) de pointe lors de sa sortie. Il excelle dans les scénarios où chaque point de pourcentage de précision compte, en particulier sur des benchmarks difficiles comme COCO.

À l'inverse, Ultralytics YOLOv5 a été conçu en mettant l'accent sur les performances « dans le monde réel ». Il privilégie la vitesse d'inférence et la faible latence, ce qui le rend particulièrement bien adapté aux applications mobiles, aux systèmes embarqués et aux appareils Edge AI. Bien que YOLOX puisse avoir un léger avantage en termes de mAP pour certains grands modèles, YOLOv5 le surpasse constamment en termes de débit (images par seconde) et de flexibilité de déploiement, en tirant parti de l'écosystème Ultralytics complet.

Le tableau ci-dessous fournit une comparaison côte à côte détaillée des modèles de différentes tailles. Notez comment YOLOv5 maintient une précision compétitive tout en offrant des temps d'inférence significativement plus rapides, en particulier lorsqu'il est optimisé avec TensorRT.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOX : Le concurrent sans ancrage

YOLOX a été développé par des chercheurs de Megvii pour combler le fossé entre la série YOLO et les avancées universitaires en matière de détection sans ancrage. En supprimant la contrainte des boîtes d’ancrage prédéfinies, YOLOX simplifie le processus de formation et réduit le besoin d’un réglage heuristique.

Architecture et innovations

YOLOX intègre une tête découplée, qui sépare les tâches de classification et de régression en différentes branches. Cette conception contraste avec les têtes couplées des versions antérieures de YOLO et améliorerait la vitesse de convergence et la précision. De plus, il utilise SimOTA, une stratégie avancée d'attribution d'étiquettes qui attribue dynamiquement des échantillons positifs, améliorant ainsi la robustesse du modèle dans les scènes denses.

Points forts et faiblesses

La principale force de YOLOX réside dans son plafond de précision élevé, en particulier avec ses variantes les plus grandes (YOLOX-x), et dans sa conception propre, sans ancrage, qui séduit les chercheurs. Toutefois, ces avantages s'accompagnent de compromis. La tête découplée ajoute une complexité de calcul, ce qui se traduit souvent par une inférence plus lente que celle de YOLOv5. En outre, en tant que modèle axé sur la recherche, il ne dispose pas de l'outillage cohésif et convivial de l'écosystème Ultralytics , ce qui pourrait compliquer l'intégration dans les pipelines commerciaux.

Cas d'utilisation idéaux

  • Recherche académique : Expérimentation avec de nouvelles architectures de détection et des stratégies d'attribution d'étiquettes.
  • Tâches de haute précision : Scénarios où un gain de 1 à 2 % de mAP l’emporte sur le coût d’une inférence plus lente, comme l’analyse vidéo hors ligne.
  • Détection d'objets denses : Environnements avec des objets très encombrés où SimOTA fonctionne bien.

En savoir plus sur YOLOX

YOLOv5 : la norme de production

Depuis sa sortie en 2020, YOLOv5 Ultralytics est devenu le modèle de référence pour les développeurs du monde entier. Il offre un équilibre exceptionnel entre performance et praticité, soutenu par une plateforme conçue pour rationaliser l'ensemble du cycle de vie des opérations d'apprentissage automatique (MLOps).

Architecture et écosystème

YOLOv5 utilise un backbone CSPNet et un neck de réseau d'agrégation de chemins (PANet), optimisés pour une extraction efficace des caractéristiques. Bien qu'il ait initialement popularisé l'approche basée sur des ancres dans PyTorch, son plus grand atout est l'écosystème environnant. Les utilisateurs bénéficient d'une exportation automatique vers des formats tels que ONNX, CoreML et TFLite, ainsi que d'une intégration transparente avec Ultralytics HUB pour l'entraînement et la gestion des modèles.

Le saviez-vous ?

YOLOv5 ne se limite pas aux boîtes englobantes. Il prend en charge plusieurs tâches, notamment la segmentation d'instance et la classification d'images, ce qui en fait un outil polyvalent pour les pipelines de vision complexes.

Points forts et faiblesses

La facilité d'utilisation est la marque de fabrique de YOLOv5. Grâce à une API python simple, les développeurs peuvent charger des poids pré-entraînés et exécuter l'inférence en quelques lignes de code seulement. Le modèle est hautement optimisé pour la vitesse, offrant systématiquement une latence plus faible sur les CPU et les GPU par rapport à YOLOX. Il offre également des besoins en mémoire plus faibles pendant l'entraînement, ce qui le rend accessible sur du matériel standard. Bien que sa conception basée sur des ancres nécessite une évolution des ancres pour les ensembles de données personnalisés (gérée automatiquement par YOLOv5), sa fiabilité et son écosystème bien maintenu le rendent supérieur pour la production.

Cas d'utilisation idéaux

  • Applications en temps réel : Vidéosurveillance, conduite autonome et robotique où une faible latence est critique.
  • Déploiement Edge : Fonctionnement sur Raspberry Pi, NVIDIA Jetson ou les appareils mobiles en raison de son architecture efficace.
  • Produits commerciaux : Prototypage et déploiement rapides où un support à long terme et une facilité d’intégration sont requis.
  • Vision multi-tâches : Projets nécessitant la détection, la segmentation et la classification dans un seul framework.

En savoir plus sur YOLOv5

Exemple de code : Exécution de YOLOv5 avec Ultralytics

Le package Ultralytics python rend l'utilisation des modèles YOLOv5 incroyablement simple. Vous trouverez ci-dessous un exemple de la manière d'exécuter l'inférence à l'aide d'un modèle pré-entraîné.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model (Nano version for speed)
model = YOLO("yolov5nu.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Conclusion : Faire le bon choix

Les deux modèles représentent des avancées significatives en vision par ordinateur, mais ils s'adressent à des publics différents. YOLOX est un choix formidable pour les chercheurs qui repoussent les limites de la détection sans ancrage et qui sont à l'aise pour naviguer dans un ensemble d'outils plus fragmenté.

Cependant, pour la grande majorité des développeurs, des ingénieurs et des entreprises, Ultralytics YOLOv5 reste l'option supérieure. Sa combinaison gagnante de vitesse inégalée, de polyvalence et d'un écosystème robuste et actif vous permet de passer du concept au déploiement avec un minimum de frictions. De plus, l'adoption du framework Ultralytics offre une voie de mise à niveau claire vers les modèles de nouvelle génération comme YOLO11, qui combine le meilleur de la conception sans ancrage avec l'efficacité signature d'Ultralytics.

Autres comparaisons de modèles

Découvrez comment ces modèles se comparent à d'autres architectures afin de trouver la solution la mieux adaptée à vos besoins spécifiques :


Commentaires