Passer au contenu

YOLO YOLOv5: comparaison technique de l'architecture et des performances

Dans le domaine en constante évolution de la vision par ordinateur, il est essentiel de choisir la bonne architecture de détection d'objets afin d'équilibrer précision, rapidité et efficacité des ressources. Ce guide propose une comparaison technique complète entre YOLO, un modèle basé sur la recherche d'architecture neuronale (NAS) du groupe Alibaba, et YOLOv5, le modèle légendaire largement adopté d'Ultralytics.

Résumé

Alors que YOLO introduit des concepts innovants tels que la recherche d'architecture neuronale (NAS) et la reparamétrisation intensive pour obtenir une plus grande précision sur l'ensemble COCO , YOLOv5 reste la norme industrielle en matière de facilité d'utilisation, de facilité de déploiement et de prise en charge de l'écosystème.

Pour les développeurs à la recherche de la technologie de pointe absolue en 2026, YOLO26 est la mise à niveau recommandée. Il combine la facilité d'utilisation de YOLOv5 des avancées architecturales telles qu'une conception de bout en bout NMS et l'optimiseur MuSGD, surpassant les anciens modèles en termes d'efficacité et de vitesse.

YOLO: Architecture et innovations

Développé par les chercheurs du groupe Alibaba,YOLO à repousser les limites de la vitesse et de la précision grâce à la conception automatisée d'architectures.

  • Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
  • Organisation : Alibaba Group
  • Date : 23 novembre 2022
  • Liens :Arxiv, GitHub

Principales caractéristiques architecturales

  1. Recherche d'architecture neuronale (NAS) : contrairement aux architectures manuelles,YOLO la méthode MAE-NAS (Method of Auxiliary Early-stopping) pour découvrir automatiquement des architectures efficaces adaptées à différentes contraintes de latence.
  2. RepGFPN (Efficient Rep-parameterized Generalized FPN) : il utilise un nouveau couloir de fusion des caractéristiques qui optimise le cheminement des informations à différentes échelles, en tirant parti de la reparamétrisation pour maintenir la rapidité de l'inférence tout en maximisant la richesse des caractéristiques.
  3. ZeroHead : une tête de détection légère qui réduit considérablement la charge de calcul par rapport aux têtes découplées traditionnelles.
  4. AlignedOTA : une stratégie dynamique d'attribution d'étiquettes qui résout les problèmes de désalignement entre les tâches de classification et de régression pendant l'entraînement.

Points forts et faiblesses

YOLO dans les benchmarks académiques, affichant souvent mAP supérieurs pour un nombre de paramètres donné par rapport YOLO anciennes YOLO . Cependant, sa dépendance à des structures NAS complexes peut rendre plus difficile sa modification ou son ajustement pour du matériel personnalisé. La recette d'entraînement « distillation-first », qui nécessite souvent un modèle enseignant lourd, peut également compliquer le pipeline d'entraînement pour les utilisateurs disposant de ressources limitées.

En savoir plus sur DAMO-YOLO

YOLOv5: la norme industrielle

Lancé par Ultralytics 2020, YOLOv5 l'expérience utilisateur en matière de détection d'objets. Il ne s'agissait pas seulement d'un modèle, mais d'un cadre complet et prêt à l'emploi.

Principales caractéristiques architecturales

  1. CSP-Darknet Backbone : utilise des réseaux Cross Stage Partial pour améliorer le flux de gradient et réduire les calculs, une conception robuste et artisanale qui équilibre efficacement la profondeur et la largeur.
  2. PANet Neck : le réseau d'agrégation de chemins améliore considérablement le flux d'informations, aidant le modèle à mieux localiser les objets en fusionnant les caractéristiques de différents niveaux de backbone.
  3. Augmentation par mosaïque : technique pionnière d'augmentation des données qui combine quatre images d'entraînement en une seule, permettant au modèle d'apprendre à detect efficacement detect à différentes échelles et dans différents contextes.
  4. Auto-Anchor : calcule automatiquement les meilleures zones d'ancrage pour votre ensemble de données spécifique, simplifiant ainsi le processus de configuration des données personnalisées.

Points forts et faiblesses

La plus grande force YOLOv5 réside dans son universalité. Il fonctionne sur tous les supports, des serveurs cloud aux Raspberry Pi et iPhone via CoreML. Sa stratégie d'entraînement « bag-of-freebies » garantit des performances élevées sans configuration complexe. Bien que son mAP brut mAP COCO inférieur à celui des modèles de recherche plus récents tels queYOLO, sa fiabilité dans le monde réel, son exportabilité et le soutien massif de la communauté lui confèrent une grande pertinence.

En savoir plus sur YOLOv5

Bancs d'essai de performance

Le tableau suivant compare les performances des deux modèles. Notez queYOLO mAP une optimisation NAS intensive, tandis que YOLOv5 vitesse et facilité d'exportation.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Contexte de performance

Bien queYOLO mAP plus élevé mAP des modèles de taille similaire, la vitesse d'inférence dans le monde réel dépend souvent de la prise en charge matérielle de couches spécifiques (telles que les blocs RepVGG), qui peuvent nécessiter des étapes d'exportation spécifiques pour se replier correctement. Les opérations standard YOLOv5 sont optimisées de manière universelle sur presque tous les moteurs d'inférence.

Recommandations de cas d'utilisation

Lorsque vous choisissez entre ces deux architectures, tenez compte des besoins spécifiques de votre environnement de déploiement.

Scénarios idéaux pour DAMO-YOLO

  • Recherche universitaire : si votre objectif est d'étudier le NAS ou d'exploiter les derniers 0,1 % mAP une compétition, l'architecture novatriceYOLO offre un terrain fertile pour l'expérimentation.
  • GPU haut de gamme : lorsque les contraintes en matière de mémoire et de calcul sont faibles et que le principal critère est la précision sur des benchmarks complexes.

Scénarios idéaux pour Ultralytics YOLOv5

  • Déploiement en périphérie : pour les appareils tels que NVIDIA ou Raspberry Pi, l'architecture simple YOLOv5 s'exporte de manière transparente vers TensorRT et TFLite.
  • Prototypage rapide : l'expérience « zero-to-hero » vous permet de vous entraîner sur un ensemble de données personnalisé et d'obtenir des résultats en quelques minutes.
  • Systèmes de production : la stabilité est essentielle. YOLOv5 été testé dans des millions de déploiements, réduisant ainsi le risque de défaillances imprévues dans les pipelines de production.

L'avantage Ultralytics

SiYOLO des contributions intéressantes à la recherche, Ultralytics offre des avantages distincts aux développeurs qui créent des applications concrètes.

1. Facilité d'utilisation et écosystème

Ultralytics unifie l'ensemble du flux de travail. Vous pouvez gérer des ensembles de données, former des modèles dans le cloud et les déployer sur divers terminaux sans quitter l'écosystème. La documentation est complète et la communauté est active, ce qui vous garantit de ne jamais rester bloqué longtemps sur un bug.

2. Une polyvalence indétectable

YOLO avant tout un détecteur d'objets. En revanche, Ultralytics prennent en charge un éventail plus large de tâches essentielles aux applications d'IA modernes :

3. Mémoire et efficacité des ressources

YOLO Ultralytics sont réputés pour leur utilisation efficace de la mémoire. Contrairement aux architectures lourdes en transformateurs ou aux pipelines de distillation complexes qui monopolisent la mémoire VRAM, les modèles tels que YOLOv5 YOLO26 peuvent souvent être entraînés sur des GPU grand public (comme une RTX 3060), démocratisant ainsi l'accès à l'entraînement IA haut de gamme.

4. Efficacité de la formation

La formation d'unYOLO implique souvent une phase complexe de « distillation » nécessitant un modèle enseignant pré-entraîné. Ultralytics utilisent une approche simplifiée de type « bag-of-freebies ». Vous chargez les poids pré-entraînés, indiquez votre configuration de données, et la formation commence immédiatement avec des hyperparamètres optimisés.

Regard vers l'avenir : YOLO26

Si vous démarrez un nouveau projet en 2026, aucun des deux n'est clairement gagnant. YOLO26 représente le summum de l'efficacité.

  • NMS de bout en bout : en supprimant la suppression non maximale (NMS), YOLO26 simplifie la logique de déploiement et réduit la variance de latence d'inférence.
  • Optimiseur MuSGD : inspiré de la formation LLM, cet optimiseur garantit une convergence stable et des temps de formation plus rapides.
  • Optimisation des bords : grâce à la suppression de la perte focale de distribution (DFL) et à l'optimisation des blocs, YOLO26 atteint une inférence jusqu'à 43 % plus rapide sur les processeurs par rapport aux générations précédentes, ce qui en fait le choix idéal pour les applications mobiles et IoT.

En savoir plus sur YOLO26

Exemple de code : inférence avec Ultralytics

La simplicité de Ultralytics vous permet de passer sans effort d'une génération de modèles à l'autre.

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize and save the results
for result in results:
    result.show()  # Display to screen
    result.save(filename="output.jpg")  # Save image to disk

Conclusion

YOLO YOLOv5 tous deux joué un rôle important dans l'histoire de la détection d'objets.YOLO le potentiel de la recherche d'architecture neuronale, tandis que YOLOv5 la norme en matière de convivialité et de déploiement. Cependant, ce domaine évolue rapidement. Pour ceux qui recherchent le meilleur équilibre entre vitesse, précision et expérience développeur, Ultralytics s'impose comme le choix incontournable pour les applications modernes de vision par ordinateur.

Pour approfondir vos recherches, vous pouvez consulter les comparaisons avec d'autres architectures telles que YOLO11 EfficientDet ou RT-DETR YOLOv8.


Commentaires