Passer au contenu

YOLOv6-3.0 contre YOLOv7 : Comparaison technique détaillée

Choisir le modèle de détection d'objets optimal est une décision cruciale dans les projets de vision par ordinateur, nécessitant un équilibre entre la précision, la vitesse et l'utilisation des ressources. Cette page fournit une comparaison technique détaillée entre YOLOv6-3.0 et YOLOv7, deux modèles importants reconnus pour leurs capacités de détection d'objets. Nous examinerons en profondeur leurs architectures, leurs benchmarks de performance et leurs applications appropriées pour guider votre processus de sélection de modèle.

YOLOv6-3.0 : Conçu pour la vitesse industrielle

YOLOv6-3.0, développé par Meituan, est conçu pour les applications industrielles exigeant une détection d'objets haute performance avec un accent sur la vitesse et l'efficacité. La version 3.0 améliore considérablement ses prédécesseurs, offrant une précision améliorée et des temps d'inférence plus rapides, ce qui en fait un concurrent sérieux pour les systèmes en temps réel.

Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation : Meituan
Date : 2023-01-13
Arxiv : https://arxiv.org/abs/2301.05586
GitHub : https://github.com/meituan/YOLOv6
Docs : https://docs.ultralytics.com/models/yolov6/

Architecture et principales fonctionnalités

YOLOv6-3.0 introduit une conception de réseau neuronal tenant compte du matériel qui exploite un backbone de reparamétrisation efficace. Ce choix de conception est essentiel à sa capacité d'accélérer les vitesses d'inférence, un facteur essentiel pour le déploiement industriel. L'architecture intègre également une structure de blocs hybrides, qui est méticuleusement conçue pour trouver un équilibre optimal entre la précision et l'efficacité computationnelle. Cette attention portée à la compatibilité avec le matériel garantit que le modèle fonctionne bien sur une variété de plateformes de déploiement, des serveurs aux appareils périphériques.

Points forts

  • Vitesse d'inférence élevée : Optimisé pour une inférence rapide, ce qui le rend particulièrement adapté aux applications ayant des exigences strictes en matière de latence.
  • Orientation industrielle : Conçu pour des scénarios industriels pratiques, assurant la robustesse et l’efficacité dans des contextes tels que l’IA dans la fabrication.
  • Conception axée sur le matériel : L’architecture est conçue pour des performances efficaces sur diverses plateformes matérielles, y compris les CPU et les GPU.

Faiblesses

  • Compromis en matière de précision : Bien que très efficace, il peut présenter une précision légèrement inférieure sur les ensembles de données complexes par rapport aux modèles comme YOLOv7, qui privilégient la précision maximale.
  • Polyvalence limitée : Le framework d’origine est principalement axé sur la détection d’objets, avec des implémentations distinctes pour d’autres tâches, contrairement aux modèles plus intégrés.

Cas d'utilisation

YOLOv6-3.0 excelle dans les applications où la vitesse et l'efficacité sont primordiales :

  • Automatisation industrielle : Idéal pour le contrôle qualité, la surveillance des processus et d’autres applications industrielles nécessitant une détection rapide.
  • Systèmes en temps réel : Convient au déploiement dans la surveillance en temps réel, la robotique et les applications avec des contraintes de latence strictes.
  • Edge Computing : Sa conception efficace en fait un excellent choix pour un déploiement sur des appareils aux ressources limitées. Consultez notre guide sur le déploiement sur des appareils comme le NVIDIA Jetson.

En savoir plus sur YOLOv6-3.0

YOLOv7 : Repousser les limites de la précision

YOLOv7, développé par des chercheurs de l'Institute of Information Science, Academia Sinica, Taiwan, représente un bond significatif dans la détection d'objets en temps réel, en se concentrant sur l'obtention d'une haute précision tout en maintenant l'efficacité.

Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 2022-07-06
Arxiv : https://arxiv.org/abs/2207.02696
GitHub : https://github.com/WongKinYiu/yolov7
Docs : https://docs.ultralytics.com/models/yolov7/

Architecture et principales fonctionnalités

YOLOv7 introduit plusieurs innovations architecturales et stratégies d'entraînement visant à améliorer les performances sans augmenter considérablement les coûts d'inférence. Les principales caractéristiques comprennent :

  • E-ELAN (Extended-Efficient Layer Aggregation Networks) : Cette nouvelle conception de réseau améliore la capacité du modèle à apprendre efficacement les caractéristiques, améliorant à la fois l’efficacité des paramètres et des calculs. Vous trouverez plus de détails dans le document original.
  • Mise à l'échelle composite du modèle : Elle met en œuvre des méthodes de mise à l'échelle composite pour la profondeur et la largeur du modèle, optimisant ainsi les performances pour différentes tailles de modèle.
  • Améliorations "Sac de cadeaux gratuits" : YOLOv7 intègre des techniques d'entraînement avancées, telles que des stratégies affinées d'augmentation des données et d'attribution des étiquettes, qui améliorent la précision sans coût d'inférence supplémentaire. Découvrez des techniques similaires dans notre guide d'augmentation des données.
  • Entraînement de la tête auxiliaire : Il utilise des têtes auxiliaires pendant la phase d'entraînement pour renforcer l'apprentissage des caractéristiques. Ces têtes sont ensuite supprimées pour l'inférence afin de maintenir une vitesse élevée.

Points forts

  • Haute précision : Obtient une précision à la pointe de la technologie sur des bancs d'essai standard comme l'ensemble de données COCO.
  • Performance efficace : Équilibre une haute précision avec des vitesses d'inférence compétitives, ce qui le rend adapté à de nombreuses applications en temps réel.
  • Polyvalence : Le dépôt officiel témoigne d'un soutien de la communauté pour des tâches allant au-delà de la détection, notamment l'estimation de pose et la segmentation d'instance.

Faiblesses

  • Complexité : Les caractéristiques architecturales avancées et les techniques d’entraînement peuvent rendre le modèle plus complexe à comprendre et à affiner que les architectures plus simples.
  • Entraînement nécessitant beaucoup de ressources : Les variantes YOLOv7 plus grandes (par exemple, YOLOv7-E6E) nécessitent des ressources de calcul importantes pour l’entraînement.

Cas d'utilisation

YOLOv7 est un excellent choix pour les applications où une haute précision est l'objectif principal :

  • Surveillance avancée : Détection d’objets subtils ou petits dans des scènes encombrées pour une sécurité accrue.
  • Systèmes autonomes : Fournit une détection d'objets précise pour une navigation sûre dans les voitures autonomes ou les drones.
  • Recherche scientifique : Analyse de données visuelles complexes où une haute précision est essentielle pour obtenir des résultats exacts.

En savoir plus sur YOLOv7

Comparaison des performances : YOLOv6-3.0 vs. YOLOv7

Le tableau ci-dessous résume les indicateurs de performance pour les variantes comparables de YOLOv6-3.0 et YOLOv7 sur l'ensemble de données COCO.

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Remarque : les benchmarks de vitesse peuvent varier en fonction du matériel, du logiciel (TensorRT, ONNX, OpenVINO), de la taille du lot et des configurations spécifiques. Les valeurs mAP sont généralement rapportées sur l'ensemble de données COCO val.

D'après le tableau, YOLOv7x atteint le mAP le plus élevé, ce qui indique une précision supérieure. Cependant, les modèles YOLOv6-3.0, en particulier les variantes plus petites comme YOLOv6-3.0n, offrent des vitesses d'inférence nettement plus rapides, en particulier sur GPU avec l'optimisation TensorRT. Ils ont également moins de paramètres et de FLOPs, ce qui les rend très efficaces. Le choix dépend de la priorité accordée à la précision maximale (YOLOv7) ou à la vitesse et à l'efficacité optimales (YOLOv6-3.0).

L'avantage Ultralytics : Pourquoi choisir YOLOv8 et YOLO11 ?

Bien que YOLOv6 et YOLOv7 soient des modèles puissants, les développeurs et les chercheurs à la recherche d'une solution à la fine pointe de la technologie au sein d'un écosystème complet et convivial devraient envisager les derniers modèles Ultralytics YOLO. Les modèles comme Ultralytics YOLOv8 et le plus récent YOLO11 offrent plusieurs avantages clés :

  • Facilité d'utilisation : Les modèles Ultralytics sont conçus pour l'expérience des développeurs, avec une API Python simplifiée, une documentation complète et des commandes CLI simples qui facilitent l'entraînement, la validation et le déploiement.
  • Écosystème bien maintenu : Bénéficiez d'un développement actif, d'une forte communauté open source, de mises à jour fréquentes et d'une intégration transparente avec des outils tels que Ultralytics HUB pour un MLOps de bout en bout.
  • Polyvalence : Les modèles tels que YOLOv8 et YOLO11 sont de véritables outils multitâches, prenant en charge la détection d’objets, la segmentation, la classification, l’estimation de pose et la détection d’objets orientés (OBB) dans un cadre unique et unifié.
  • Équilibre des performances : Les modèles Ultralytics offrent un excellent compromis entre la vitesse et la précision, ce qui les rend adaptés à un large éventail de scénarios réels, des appareils périphériques aux serveurs cloud.
  • Efficacité de l'entraînement : Tirez parti de processus d'entraînement efficaces, de poids pré-entraînés facilement disponibles et de temps de convergence plus rapides, ce qui permet d'économiser du temps et des ressources de calcul précieux.

Conclusion

YOLOv6-3.0 et YOLOv7 sont tous deux des modèles de détection d'objets puissants qui ont repoussé les limites de ce qui est possible en vision par ordinateur. YOLOv6-3.0 excelle dans les scénarios où la vitesse d'inférence et l'efficacité sont prioritaires, ce qui le rend idéal pour les applications industrielles et le déploiement en périphérie. En revanche, YOLOv7 offre une précision de pointe plus élevée, ce qui en fait un choix judicieux pour les tâches où la précision est la principale préoccupation, bien qu'à un coût de calcul potentiellement plus élevé.

Pour les utilisateurs intéressés par l'exploration d'autres options de pointe, Ultralytics propose des modèles tels que YOLOv8 et YOLO11, qui offrent un équilibre supérieur entre performance, polyvalence et facilité d'utilisation. Vous pouvez également trouver nos comparaisons avec d'autres modèles comme YOLOX et RT-DETR instructives pour une exploration plus approfondie.



📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires