YOLOv4 : détection d'objets haute vitesse et précise

Bienvenue sur la page de documentation Ultralytics pour YOLOv4, un détecteur d'objets en temps réel à la pointe de la technologie, lancé en 2020 par Alexey Bochkovskiy sur https://github.com/AlexeyAB/darknet. YOLOv4 est conçu pour offrir un équilibre optimal entre vitesse et précision, ce qui en fait un excellent choix pour de nombreuses applications.

Diagramme de l'architecture YOLOv4 Diagramme de l'architecture YOLOv4. Il présente la conception complexe du réseau YOLOv4, incluant le backbone, le neck et les composants head, ainsi que leurs couches interconnectées pour une détection d'objets en temps réel optimale.

Introduction

YOLOv4 signifie You Only Look Once version 4. Il s'agit d'un modèle de détection d'objets en temps réel développé pour pallier les limites des versions précédentes de YOLO comme YOLOv3 et d'autres modèles de détection. Contrairement à d'autres détecteurs basés sur les réseaux de neurones convolutifs (CNN), YOLOv4 est non seulement applicable aux systèmes de recommandation, mais aussi à la gestion de processus autonomes et à la réduction des interventions humaines. Son fonctionnement sur des unités de traitement graphique (GPU) conventionnelles permet une utilisation massive à un prix abordable, et il est conçu pour fonctionner en temps réel sur un GPU classique, nécessitant seulement celui-ci pour l'entraînement.

Architecture

YOLOv4 utilise plusieurs fonctionnalités innovantes qui travaillent ensemble pour optimiser ses performances. Celles-ci incluent les Weighted-Residual-Connections (WRC), les Cross-Stage-Partial-connections (CSP), la Cross mini-Batch Normalization (CmBN), le Self-adversarial-training (SAT), l'activation Mish, l'augmentation de données Mosaic, la régularisation DropBlock et la perte CIoU. Ces fonctionnalités sont combinées pour atteindre des résultats de pointe.

Un détecteur d'objets typique est composé de plusieurs parties, incluant l'entrée, le backbone, le neck et le head. Le backbone de YOLOv4 est pré-entraîné sur ImageNet et est utilisé pour prédire les classes et les boîtes englobantes des objets. Le backbone peut provenir de plusieurs modèles, notamment VGG, ResNet, ResNeXt ou DenseNet. La partie neck du détecteur est utilisée pour collecter les feature maps à différents stades et comprend généralement plusieurs chemins ascendants et descendants. La partie head est celle utilisée pour effectuer les détections et classifications finales des objets.

Bag of Freebies

YOLOv4 utilise également des méthodes appelées "bag of freebies", qui sont des techniques améliorant la précision du modèle lors de l'entraînement sans augmenter le coût de l'inférence. L'augmentation de données est une technique courante de "bag of freebies" utilisée dans la détection d'objets, qui accroît la variabilité des images d'entrée pour améliorer la robustesse du modèle. Quelques exemples d'augmentation de données incluent les distorsions photométriques (ajustement de la luminosité, du contraste, de la teinte, de la saturation et du bruit d'une image) et les distorsions géométriques (ajout de mise à l'échelle, recadrage, retournement et rotation aléatoires). Ces techniques aident le modèle à mieux se généraliser à différents types d'images.

Fonctionnalités et performances

YOLOv4 est conçu pour une vitesse et une précision optimales en détection d'objets. L'architecture de YOLOv4 inclut CSPDarknet53 en tant que backbone, PANet en tant que neck et YOLOv3 en tant que detection head. Cette conception permet à YOLOv4 d'effectuer la détection d'objets à une vitesse impressionnante, le rendant adapté aux applications en temps réel. YOLOv4 excelle également en précision, atteignant des résultats de pointe sur des benchmarks de détection d'objets comme COCO.

Lorsqu'on le compare à d'autres modèles de la famille YOLO, tels que YOLOv5 et YOLOv7, YOLOv4 maintient une position solide dans l'équilibre entre vitesse et précision. Bien que des modèles plus récents puissent offrir certains avantages, les innovations architecturales de YOLOv4 continuent de le rendre pertinent pour de nombreuses applications exigeant des performances en temps réel.

Exemples d'utilisation

YOLOv4 est un modèle basé sur Darknet et n'est pas nativement pris en charge par le package Python Ultralytics : il n'existe pas de poids pré-entraînés yolov4.pt publiés sur ultralytics/assets et pas de fichiers YAML ultralytics/cfg/models/v4/. Cette page est conservée comme référence architecturale. Les utilisateurs souhaitant exécuter YOLOv4 doivent se référer directement au dépôt GitHub de YOLOv4 pour les instructions d'installation et d'utilisation.

Voici un bref aperçu des étapes typiques que tu pourrais suivre pour utiliser YOLOv4 :

  1. Visite le dépôt GitHub de YOLOv4 : https://github.com/AlexeyAB/darknet.

  2. Suis les instructions fournies dans le fichier README pour l'installation. Cela implique généralement de cloner le dépôt, d'installer les dépendances nécessaires et de configurer les variables d'environnement requises.

  3. Une fois l'installation terminée, tu peux entraîner et utiliser le modèle selon les instructions d'utilisation fournies dans le dépôt. Cela implique généralement de préparer ton dataset, de configurer les paramètres du modèle, d'entraîner le modèle, puis d'utiliser le modèle entraîné pour effectuer la détection d'objets.

Veuille noter que les étapes spécifiques peuvent varier selon ton cas d'usage particulier et l'état actuel du dépôt YOLOv4. Par conséquent, il est fortement recommandé de se référer directement aux instructions fournies dans le dépôt GitHub de YOLOv4.

Pour l'entraînement et l'inférence au sein du framework Ultralytics, consulte YOLO11 ou YOLO26.

Conclusion

YOLOv4 est un modèle de détection d'objets puissant et efficace qui trouve un équilibre entre vitesse et précision. Son utilisation de fonctionnalités uniques et de techniques de "bag of freebies" pendant l'entraînement lui permet d'exceller dans les tâches de détection d'objets en temps réel. YOLOv4 peut être entraîné et utilisé par quiconque disposant d'un GPU conventionnel, ce qui le rend accessible et pratique pour un large éventail d'applications, incluant les systèmes de surveillance, les véhicules autonomes et l'automatisation industrielle.

Pour ceux qui cherchent à implémenter la détection d'objets dans leurs projets, YOLOv4 reste un concurrent sérieux, surtout lorsque la performance en temps réel est une priorité. Bien qu'Ultralytics se concentre actuellement sur le support des versions plus récentes de YOLO comme YOLO11 et YOLO26, les innovations architecturales introduites dans YOLOv4 ont influencé le développement de ces modèles ultérieurs.

Citations et remerciements

Nous souhaitons remercier les auteurs de YOLOv4 pour leurs contributions significatives dans le domaine de la détection d'objets en temps réel :

Citation
@misc{bochkovskiy2020yolov4,
      title={YOLOv4: Optimal Speed and Accuracy of Object Detection},
      author={Alexey Bochkovskiy and Chien-Yao Wang and Hong-Yuan Mark Liao},
      year={2020},
      eprint={2004.10934},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Le document original sur YOLOv4 peut être trouvé sur arXiv. Les auteurs ont rendu leur travail publiquement disponible, et le code source peut être consulté sur GitHub. Nous apprécions leurs efforts pour faire avancer le domaine et rendre leur travail accessible à la communauté au sens large.

FAQ

Qu'est-ce que YOLOv4 et pourquoi devrais-tu l'utiliser pour la détection d'objets ?

YOLOv4, qui signifie "You Only Look Once version 4", est un modèle de détection d'objets en temps réel à la pointe de la technologie développé par Alexey Bochkovskiy en 2020. Il atteint un équilibre optimal entre vitesse et précision, ce qui le rend très adapté aux applications en temps réel. L'architecture de YOLOv4 intègre plusieurs fonctionnalités innovantes comme les Weighted-Residual-Connections (WRC), les Cross-Stage-Partial-connections (CSP) et le Self-adversarial-training (SAT), parmi d'autres, pour obtenir des résultats de pointe. Si tu recherches un modèle haute performance qui fonctionne efficacement sur des GPU conventionnels, YOLOv4 est un excellent choix.

Comment l'architecture de YOLOv4 améliore-t-elle ses performances ?

L'architecture de YOLOv4 inclut plusieurs composants clés : le backbone, le neck et le head. Le backbone, qui peut être basé sur des modèles comme VGG, ResNet ou CSPDarknet53, est pré-entraîné pour prédire les classes et les boîtes englobantes. Le neck, utilisant PANet, connecte les feature maps provenant de différents stades pour une extraction de données complète. Enfin, le head, qui utilise des configurations issues de YOLOv3, effectue les détections d'objets finales. YOLOv4 emploie également des techniques de "bag of freebies" comme l'augmentation de données Mosaic et la régularisation DropBlock, optimisant encore davantage sa vitesse et sa précision.

Que sont les "bag of freebies" dans le contexte de YOLOv4 ?

"Bag of freebies" fait référence à des méthodes qui améliorent la précision d'entraînement de YOLOv4 sans augmenter le coût de l'inférence. Ces techniques incluent diverses formes d'augmentation de données comme les distorsions photométriques (ajustement de la luminosité, contraste, etc.) et les distorsions géométriques (mise à l'échelle, recadrage, retournement, rotation). En augmentant la variabilité des images d'entrée, ces augmentations aident YOLOv4 à mieux se généraliser à différents types d'images, améliorant ainsi sa robustesse et sa précision sans compromettre ses performances en temps réel.

Pourquoi YOLOv4 est-il considéré comme adapté à la détection d'objets en temps réel sur des GPU conventionnels ?

YOLOv4 est conçu pour optimiser à la fois la vitesse et la précision, le rendant idéal pour les tâches de détection d'objets en temps réel qui nécessitent des performances rapides et fiables. Il fonctionne efficacement sur des GPU conventionnels, n'en nécessitant qu'un seul à la fois pour l'entraînement et l'inférence. Cela le rend accessible et pratique pour diverses applications allant des systèmes de recommandation à la gestion de processus autonomes, réduisant ainsi le besoin de configurations matérielles complexes et en faisant une solution rentable pour la détection d'objets en temps réel.

Comment puis-je commencer avec YOLOv4 si Ultralytics ne le prend pas actuellement en charge ?

Pour commencer avec YOLOv4, tu devrais visiter le dépôt GitHub officiel de YOLOv4. Suis les instructions d'installation fournies dans le fichier README, qui incluent généralement le clonage du dépôt, l'installation des dépendances et la configuration des variables d'environnement. Une fois installé, tu peux entraîner le modèle en préparant ton dataset, en configurant les paramètres du modèle et en suivant les instructions d'utilisation fournies. Étant donné qu'Ultralytics ne prend pas actuellement en charge YOLOv4, il est recommandé de se référer directement au GitHub de YOLOv4 pour obtenir les conseils les plus récents et détaillés.

Commentaires