Passer au contenu

YOLOv5 YOLO: analyse technique approfondie de l'évolution de la détection d'objets

Dans le domaine en pleine évolution de la vision par ordinateur, le choix du bon modèle de détection d'objets est essentiel à la réussite d'un projet. Ce guide compare YOLOv5, le légendaire référentiel qui a démocratisé l'IA accessible, et YOLO, une architecture axée sur la recherche développée par l'équipe TinyVision d'Alibaba. Si les deux modèles visent une efficacité élevée, ils abordent le problème avec des philosophies différentes en matière d'architecture, de facilité d'utilisation et de facilité de déploiement.

Aperçu et origines des modèles

YOLOv5

Publié mi-2020 par Ultralytics, YOLOv5 une norme industrielle non seulement pour son architecture, mais aussi pour son ingénierie. Il mettait l'accent sur la facilité d'utilisation, la robustesse des pipelines de formation et la facilité d'exportation. Il reste l'un des modèles d'IA visuelle les plus largement déployés au monde.

En savoir plus sur YOLOv5

DAMO-YOLO

Proposé fin 2022 par Alibaba Group,YOLO Distillation-Augmented MOdel) intègre des technologies de pointe telles que Neural Architecture Search (NAS), Reparameterized Generalized-FPN (RepGFPN) et s'appuie fortement sur la distillation pour améliorer les performances.

Comparaison des architectures techniques

Les différences architecturales entre ces deux modèles soulignent le passage des conceptions heuristiques de type « sac de cadeaux » à des architectures automatisées basées sur la recherche.

YOLOv5: la norme CSP-Darknet

YOLOv5 une structure CSP-Darknet53 modifiée connectée à un réseau d'agrégation de chemins (PANet). Son principal atout réside dans sa conception modulaire et les « bag-of-freebies » appliqués pendant l'entraînement, tels que l'augmentation Mosaic et l'évolution des hyperparamètres par algorithme génétique.

  • Backbone : CSP-Darknet
  • Cou : PANet avec blocs CSP
  • Tête : tête couplée de type YOLOv3 basée sur des ancrages

YOLO: NAS et distillation

YOLO des conceptions manuelles standard en utilisant la recherche d'architecture neuronale (NAS) pour trouver la structure de base optimale (MAE-NAS).

  • Backbone : MAE-NAS (basé sur la recherche)
  • Cou : RepGFPN (FPN généralisé reparamétré) permettant une fusion efficace des caractéristiques.
  • Tête : ZeroHead (couches de projection à double tâche) combiné à AlignedOTA pour l'attribution des étiquettes.
  • Distillation : composante essentielle dans laquelle un modèle « enseignant » plus grand guide l'entraînement du modèle « élève » plus petit, ce qui ajoute de la complexité au processus d'entraînement, mais améliore la précision finale.

Complexité de la distillation

Si la distillation améliore la précision deYOLO, elle complique considérablement le processus d'entraînement par rapport à YOLOv5. Les utilisateurs doivent souvent commencer par entraîner ou télécharger un modèle enseignant, ce qui augmente la difficulté d'accès aux ensembles de données personnalisés.

Mesures de performance

Le tableau suivant compare les performances de différents modèles à différentes échelles sur l'ensemble de données COCO . Alors queYOLO d'excellents résultats en termes de métriques académiques, YOLOv5 compétitif en termes de débit et de polyvalence de déploiement.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Analyse des résultats

  • Efficacité : YOLOv5n (Nano) reste le roi de l'inférence légère, avec un nombre de paramètres (2,6 millions contre 8,5 millions) et un nombre de FLOP nettement inférieurs à ceux deYOLO, ce qui le rend beaucoup plus adapté aux cas extrêmes sur les processeurs standard.
  • Précision :YOLO son pipeline de distillation pour obtenir une plus grande mAP à partir de nombres de paramètres similaires, en particulier dans les gammes petites et moyennes.
  • Vitesse d'inférence : YOLOv5 offre YOLOv5 CPU plus rapide via ONNX grâce à des blocs architecturaux plus simples et hautement optimisés dans les bibliothèques standard.

Entraînement et convivialité

C'est le principal facteur de différenciation pour les développeurs. Ultralytics privilégie une expérience « zero-to-hero », alors que les référentiels de recherche nécessitent souvent une configuration approfondie.

YOLOv5: une expérience simplifiée

YOLOv5 une interface de ligne de commande conviviale et Python qui sont devenues la norme dans le secteur. La formation sur un ensemble de données personnalisé nécessite une configuration minimale.

import torch

# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt

YOLO: Complexité de la recherche

La formationYOLO impliqueYOLO un système de configuration plus complexe. La dépendance à un calendrier de distillation signifie que les utilisateurs doivent souvent gérer deux modèles (enseignant et élève) pendant la phase de formation, ce qui augmenteles besoins en mémoire GPU et la charge de configuration.

Ultralytics : écosystème et polyvalence

SiYOLO un puissant détecteur d'objets purs, le Ultralytics offre un ensemble plus large de fonctionnalités requises par les projets d'IA modernes.

  1. Polyvalence : au-delà des simples boîtes englobantes, Ultralytics la segmentation d'instances, l'estimation de pose, la classification et la détection de boîtes englobantes orientées (OBB).YOLO concentre principalement sur la détection standard.
  2. Déploiement : Ultralytics s'exportent facilement vers des formats tels que TensorRT, CoreML, TFLite et OpenVINO une seule commande.
  3. Assistance communautaire : avec des millions d'utilisateurs, la Ultralytics fournit des ressources exhaustives, des tutoriels et des intégrations tierces que les référentiels de recherche ne peuvent égaler.

La prochaine génération : YOLO26

Pour les développeurs impressionnés par l'efficacité des modèles basés sur NAS, mais qui ont besoin de la facilité d'utilisation de YOLOv5, YOLO26 est le successeur recommandé. Sorti en 2026, il intègre le meilleur des deux mondes.

  • NMS de bout en bout : à l'instar des récentes avancées universitaires, YOLO26 supprime la suppression non maximale (NMS), simplifiant ainsi les pipelines de déploiement.
  • Optimiseur MuSGD : inspiré de la formation LLM, cet optimiseur hybride garantit une convergence stable.
  • Optimisation pour l'edge computing : YOLO26 est jusqu'à 43 % plus rapide sur les processeurs, ce qui en fait le choix idéal pour l'edge computing, devant YOLOv5 YOLO.

En savoir plus sur YOLO26

Conclusion

YOLO est une excellente contribution au domaine de la recherche en vision par ordinateur, démontrant la puissance de la recherche d'architecture neuronale et de la distillation. Il s'agit d'un candidat sérieux pour les chercheurs qui souhaitent étudier des méthodes avancées de recherche d'architecture ou tirer le maximum de précision de contraintes matérielles spécifiques où la complexité de l'entraînement ne constitue pas un goulot d'étranglement.

YOLOv5et son successeur moderne YOLO26 restent le choix privilégié pour pratiquement tous les déploiements en production. La combinaison d'une faible utilisation de la mémoire, d'une prise en charge étendue des tâches (segmentation, pose, OBB) et de la robustesse Ultralytics garantit que les projets passent du prototype à la production avec un minimum de friction.

Pour ceux qui recherchent les dernières performances et fonctionnalités, nous recommandons vivement d'explorer YOLO26, qui offre l'efficacité de bout en bout appréciée des chercheurs et la facilité d'utilisation Ultralytics la renommée Ultralytics .

Lectures complémentaires


Commentaires