Passer au contenu

YOLOX vs. YOLOv5: Explorer l'innovation sans ancrage et l'efficacité prouvée

Dans le paysage en évolution rapide de la détection d'objets, le choix de la bonne architecture est essentiel pour la réussite du projet. Cette comparaison explore deux modèles influents : YOLOX, un modèle académique connu pour sa conception sans ancrage, et YOLOv5la norme industrielle en matière de rapidité et de facilité de déploiement. Les deux modèles ont façonné le domaine de la vision par ordinateur, mais ils répondent à des besoins distincts selon que votre priorité est la précision de la recherche ou l'efficacité de la production.

Analyse des performances : Vitesse, précision et efficacité

Lors de l'évaluation de YOLOX et de YOLOv5, la distinction se résume souvent à un compromis entre la précision brute et l'efficacité opérationnelle. YOLOX a introduit des changements architecturaux significatifs, tels qu'une tête découplée et un mécanisme sans ancrage, qui lui ont permis d'atteindre des scores mAP (mean Average Precision) de pointe dès sa sortie. Il excelle dans les scénarios où chaque point de pourcentage de précision compte, en particulier sur des benchmarks difficiles comme COCO.

Inversement, Ultralytics YOLOv5 a été conçu en mettant l'accent sur les performances dans le monde réel. Il donne la priorité à la vitesse d'inférence et à la faible latence, ce qui le rend exceptionnellement bien adapté aux applications mobiles, aux systèmes embarqués et aux dispositifs d'intelligence artificielle de pointe. Alors que YOLOX peut avoir un léger avantage en termes de mAP pour des modèles spécifiques de grande taille, YOLOv5 le surpasse constamment en termes de débit (images par seconde) et de flexibilité de déploiement, en tirant parti de l'écosystème complet d'Ultralytics .

Le tableau ci-dessous fournit une comparaison détaillée côte à côte des modèles pour différentes tailles. Notez que YOLOv5 maintient une précision compétitive tout en offrant des temps d'inférence significativement plus rapides, en particulier lorsqu'il est optimisé avec TensorRT.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOX : Le concurrent sans ancrage

YOLOX a été développé par les chercheurs de Megvii pour combler le fossé entre la série YOLO et les avancées académiques en matière de détection sans ancrage. En supprimant la contrainte des boîtes d'ancrage prédéfinies, YOLOX simplifie le processus d'apprentissage et réduit le besoin de réglage heuristique.

Architecture et innovations

YOLOX intègre une tête découplée, qui sépare les tâches de classification et de régression en différentes branches. Cette conception contraste avec les têtes couplées des versions précédentes de YOLO et améliore la vitesse de convergence et la précision. En outre, il utilise SimOTA, une stratégie avancée d'attribution d'étiquettes qui assigne dynamiquement des échantillons positifs, améliorant ainsi la robustesse du modèle dans les scènes denses.

Points forts et faiblesses

La principale force de YOLOX réside dans son plafond de précision élevé, en particulier avec ses variantes les plus grandes (YOLOX-x), et dans sa conception propre, sans ancrage, qui séduit les chercheurs. Toutefois, ces avantages s'accompagnent de compromis. La tête découplée ajoute une complexité de calcul, ce qui se traduit souvent par une inférence plus lente que celle de YOLOv5. En outre, en tant que modèle axé sur la recherche, il ne dispose pas de l'outillage cohésif et convivial de l'écosystème Ultralytics , ce qui pourrait compliquer l'intégration dans les pipelines commerciaux.

Cas d'utilisation idéaux

  • Recherche universitaire : Expérimentation de nouvelles architectures de détection et de stratégies d'attribution d'étiquettes.
  • Tâches de haute précision : Scénarios dans lesquels un gain de 1 à 2 % en mAP l'emporte sur le coût d'une inférence plus lente, comme l'analyse vidéo hors ligne.
  • Détection d'objets denses : Environnements avec des objets très encombrés où SimOTA donne de bons résultats.

En savoir plus sur YOLOX

YOLOv5: La norme de production

Depuis son lancement en 2020, Ultralytics YOLOv5 est devenu le modèle de référence pour les développeurs du monde entier. Il offre un équilibre exceptionnel entre performance et praticité, soutenu par une plateforme conçue pour rationaliser l'ensemble du cycle de vie des opérations d'apprentissage automatique (MLOps).

Architecture et écosystème

YOLOv5 utilise un réseau de base CSPNet et un réseau d'agrégation de chemins (PANet), optimisé pour une extraction efficace des caractéristiques. Bien qu'il ait popularisé à l'origine l'approche basée sur les ancres dans PyTorch, son plus grand atout est l'écosystème qui l'entoure. Les utilisateurs bénéficient d'une exportation automatique vers des formats tels que ONNX, CoreML et TFLite, ainsi que d'une intégration transparente avec Ultralytics HUB pour l'entraînement et la gestion des modèles.

Le saviez-vous ?

YOLOv5 ne se limite pas aux boîtes de délimitation. Il prend en charge de multiples tâches, notamment la segmentation d'instances et la classification d'images, ce qui en fait un outil polyvalent pour les pipelines de vision complexes.

Points forts et faiblesses

La facilité d'utilisation est la marque de fabrique de YOLOv5. Grâce à une API Python simple, les développeurs peuvent charger des poids pré-entraînés et lancer l'inférence en quelques lignes de code seulement. Le modèle est hautement optimisé pour la vitesse, offrant systématiquement une latence plus faible sur les CPU et les GPU par rapport à YOLOX. Il est également moins gourmand en mémoire lors de l'apprentissage, ce qui le rend accessible sur du matériel standard. Bien que sa conception basée sur l'ancrage nécessite l'évolution de l'ancrage pour les ensembles de données personnalisés (gérée automatiquement par YOLOv5), sa fiabilité et son écosystème bien entretenu le rendent supérieur pour la production.

Cas d'utilisation idéaux

  • Applications en temps réel : Vidéosurveillance, conduite autonome et robotique où une faible latence est essentielle.
  • Déploiement en périphérie : Exécution sur Raspberry Pi, NVIDIA Jetson ou appareils mobiles grâce à son architecture efficace.
  • Produits commerciaux : Prototypage et déploiement rapides pour lesquels une assistance à long terme et une facilité d'intégration sont nécessaires.
  • Vision multi-tâches : Projets nécessitant la détection, la segmentation et la classification dans un cadre unique.

En savoir plus sur YOLOv5

Exemple de code : Exécution de YOLOv5 avec Ultralytics

Le package Ultralytics Python rend l'utilisation des modèles YOLOv5 incroyablement simple. Vous trouverez ci-dessous un exemple d'inférence à l'aide d'un modèle pré-entraîné.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model (Nano version for speed)
model = YOLO("yolov5nu.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Conclusion : Faire le bon choix

Les deux modèles représentent des avancées significatives dans le domaine de la vision par ordinateur, mais ils s'adressent à des publics différents. YOLOX est un choix formidable pour les chercheurs qui repoussent les limites de la détection sans ancrage et qui sont à l'aise avec un ensemble d'outils plus fragmentés.

Cependant, pour la grande majorité des développeurs, des ingénieurs et des entreprises, Ultralytics YOLOv5 reste l'option supérieure. Sa combinaison gagnante de vitesse inégalée, de polyvalence et d'un écosystème robuste et actif garantit que vous pouvez passer du concept au déploiement avec un minimum de friction. En outre, l'adoption du cadre Ultralytics offre une voie de mise à niveau claire vers les modèles de nouvelle génération tels que YOLO11qui combine le meilleur de la conception sans ancrage avec l'efficacité caractéristique d'Ultralytics.

Autres comparaisons de modèles

Découvrez comment ces modèles se comparent à d'autres architectures pour trouver celui qui correspond le mieux à vos besoins spécifiques :


Commentaires