Passer au contenu

YOLOv6.0 vs YOLOv7: une plongée en profondeur dans la vitesse et la précision industrielles

La sélection du modèle optimal de détection d'objets est une décision critique qui repose sur l'équilibre entre la vitesse d'inférence, la précision et l'efficacité de calcul. Cette comparaison technique explore les distinctions entre YOLOv6.0, un cadre axé sur l'industrie, et YOLOv6, un cadre axé sur l'industrie. YOLOv7un modèle conçu pour repousser les limites de la précision à l'aide d'un "bag-of-freebies" entraînable. En analysant leurs architectures, leurs références et leurs cas d'utilisation idéaux, les développeurs peuvent déterminer quelle solution correspond le mieux à leurs contraintes de déploiement spécifiques.

YOLOv6.0 : Conçu pour l'efficacité industrielle

YOLOv6.0 représente une évolution significative de la série YOLO , spécialement conçue pour les applications industrielles où la vitesse en temps réel et l'efficacité du matériel ne sont pas négociables. Développée par Meituan, cette version se concentre sur l'optimisation du compromis entre latence et précision, ce qui en fait un choix formidable pour l'informatique de pointe et les environnements à haut débit.

Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation:Meituan
Date : 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics

Architecture et principales fonctionnalités

L'architecture de YOLOv6.0 est construite autour du concept de conception adaptée au matériel. Elle utilise un backbone re-paramétrable (EfficientRep), qui permet au modèle d'utiliser des structures complexes pendant la formation pour un meilleur apprentissage des caractéristiques, tout en s'effondrant dans des structures plus simples et plus rapides pendant l'inférence. Cette technique réduit considérablement les coûts d'accès à la mémoire et améliore la latence de l'inférence.

Les principales innovations architecturales sont les suivantes

  • Concaténation bidirectionnelle (BiC) : Ce module améliore la précision de la localisation en améliorant la propagation des caractéristiques.
  • Formation assistée par ancrage (AAT) : Une stratégie qui combine les avantages des détecteurs avec et sans ancrage afin de stabiliser la formation et d'améliorer les performances.
  • Autodistillation : YOLOv6.0 utilise des techniques d'autodistillation dans lesquelles le modèle étudiant apprend à partir des prédictions de son propre modèle enseignant, ce qui permet d'affiner la précision sans nécessiter de grands modèles externes.

Points forts et faiblesses

La principale force de YOLOv6.0 réside dans sa vitesse d'inférence. Comme l'indiquent les benchmarks, les variantes les plus petites (comme YOLOv6.0n) sont exceptionnellement rapides sur le matériel GPU , ce qui les rend idéales pour les pipelines d'analyse vidéo qui doivent traiter des taux d'images élevés. En outre, la prise en charge de la quantification du modèle facilite le déploiement sur du matériel aux ressources limitées.

Cependant, les premières versions de YOLOv6 se limitaient principalement à la détection d'objets et ne possédaient pas la polyvalence native que l'on trouve dans des cadres plus complets qui prennent en charge la segmentation ou l'estimation de la pose dès le départ. En outre, bien que très efficace, le soutien de l'écosystème n'est pas aussi étendu que celui d'autres projets communautaires.

Cas d'utilisation idéaux

YOLOv6.0 excelle dans des scénarios tels que :

  • Lignes de fabrication : Lorsque la détection de défauts à grande vitesse est nécessaire sur les bandes transporteuses.
  • Analyse du commerce de détail : Pour la gestion des files d'attente et le suivi des stocks lorsque les ressources informatiques sont limitées.
  • Systèmes embarqués : déploiement sur des appareils tels que la série NVIDIA Jetson.

En savoir plus sur YOLOv6

YOLOv7: Optimiser les sacs de cadeaux formables

YOLOv7 adopte une approche différente, en se concentrant fortement sur les réformes architecturales visant à maximiser la précision sans augmenter le coût de l'inférence. Les auteurs ont introduit des méthodes d'optimisation dites "trainable bag-of-freebies" qui améliorent les performances du modèle pendant l'entraînement mais ne modifient pas l'architecture ou la vitesse d'inférence.

Auteurs : Chien-Yao Wang, Alexey Bochkovskiy, et Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Date : 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Architecture et principales fonctionnalités

YOLOv7 introduit le réseau E-ELAN (Extended Efficient Layer Aggregation Network). Cette architecture permet au modèle d'apprendre des caractéristiques plus diverses en contrôlant les chemins de gradient les plus courts et les plus longs, garantissant ainsi une convergence efficace du réseau.

Les principales caractéristiques sont les suivantes

  • Mise à l'échelle du modèle : Contrairement aux méthodes précédentes qui ne mettaient à l'échelle que la profondeur ou la largeur, YOLOv7 propose une méthode de mise à l'échelle composée qui concatène les couches plutôt que de simplement les redimensionner, préservant ainsi les propriétés d'optimisation du modèle.
  • Formation de la tête auxiliaire : Le modèle utilise une tête auxiliaire pendant la formation pour aider la tête principale. Cette technique de supervision profonde améliore l'apprentissage des couches intermédiaires, mais est supprimée lors de l'inférence pour maintenir la vitesse.
  • Convolution planifiée reparamétrée : Une application spécialisée du re-paramétrage qui évite les connexions d'identité dans certaines couches pour prévenir la dégradation des performances.

Points forts et faiblesses

YOLOv7 est réputé pour sa grande précision, atteignant des scores impressionnants de précision moyenne (mAP) sur l'ensemble de données COCO . Il comble efficacement le fossé entre les contraintes du temps réel et le besoin de détections de haute fidélité.

En revanche, la complexité de l'architecture et l'utilisation de têtes auxiliaires peuvent rendre le processus d'apprentissage plus gourmand en mémoire par rapport à des architectures plus simples. Bien qu'efficace pendant l'inférence, la phase d'apprentissage nécessite une mémoire GPU importante, en particulier pour les variantes "E6E" les plus grandes.

Cas d'utilisation idéaux

YOLOv7 est particulièrement bien adapté :

  • Surveillance détaillée : Identification de petits objets ou d'actions subtiles dans des images de sécurité complexes.
  • Conduite autonome : La précision est essentielle pour la sécurité et la navigation.
  • Recherche scientifique : Applications nécessitant des mesures de AP élevées, telles que l'imagerie médicale ou les études biologiques.

En savoir plus sur YOLOv7

Comparaison des performances : Mesures et analyses

Le tableau suivant compare les performances des variantes YOLOv6.0 et YOLOv7 sur l'ensemble de données de validation COCO . Il met en évidence les compromis entre la taille du modèle, la charge de calcul (FLOPs) et la vitesse.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Interprétation des critères de référence

Bien que YOLOv7x atteigne la plus grande précision(53,1 % mAP), il nécessite beaucoup plus de paramètres (71,3 millions) et de FLOP (189,9 milliards). En revanche, YOLOv6.0n est optimisé pour une vitesse extrême, atteignant 1,17 ms d' inférence sur un GPU T4, ce qui le rend environ 10 fois plus rapide que la plus grande variante de YOLOv7 , bien qu'avec une précision inférieure.

Les données révèlent une distinction claire : YOLOv6.0 domine dans les environnements à faible latence, tandis que YOLOv7 est supérieur lorsque la qualité de détection maximale est la priorité et que les ressources matérielles sont plus abondantes.

L'avantage Ultralytics : Au-delà des mesures brutes

Bien que YOLOv6 et YOLOv7 offrent de solides capacités, le paysage de la vision par ordinateur évolue rapidement. Pour les développeurs et les chercheurs à la recherche d'une solution polyvalente, conviviale et à l'épreuve du temps, Ultralytics YOLO11 et YOLOv8 présentent des avantages indéniables qui vont au-delà des références brutes.

Facilité d'utilisation et écosystème

L'un des principaux obstacles à l'adoption de modèles d'IA avancés est la complexité de la mise en œuvre. Les modèles Ultralytics sont réputés pour leur expérience utilisateur simplifiée. Grâce à une API et une CLI Python simples, les utilisateurs peuvent entraîner, valider et déployer des modèles en quelques lignes de code seulement. Cela contraste avec les référentiels axés sur la recherche qui nécessitent souvent des installations d'environnement complexes et des ajustements de configuration.

from ultralytics import YOLO

# Load a model (YOLO11n recommended for speed/accuracy balance)
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Polyvalence des tâches

Contrairement aux versions antérieures de YOLO qui étaient principalement destinées à la détection, les modèles d'Ultralytics sont nativement multimodaux. Un cadre unique prend en charge :

Équilibre et efficacité des performances

Les modèles Ultralytics , tels que YOLO11sont conçus pour offrir un équilibre optimal entre vitesse et précision. Ils atteignent souvent un mAP plus élevé que YOLOv7 tout en conservant les vitesses d'inférence associées à des architectures efficaces comme YOLOv6. En outre, les modèles Ultralytics sont conçus pour l'efficacité de l'apprentissage, nécessitant une utilisation réduite de la mémoire GPU par rapport aux modèles basés sur les transformateurs (comme RT-DETR), ce qui accélère les cycles d'expérimentation et réduit les coûts de calcul dans le nuage.

Un écosystème bien entretenu

Choisir un modèle Ultralytics signifie acheter un écosystème soutenu. Cet écosystème comprend

  • Mises à jour fréquentes : Améliorations régulières de l'architecture et des poids.
  • Large soutien à l'exportation : Exportation transparente vers ONNX, TensorRTCoreML et TFLite pour un déploiement sur n'importe quel appareil.
  • Communauté : Une vaste communauté de développeurs et une documentation complète garantissent que l'aide est toujours disponible.

Conclusion

YOLOv6.0 et YOLOv7 ont tous deux apporté des contributions significatives au domaine de la vision par ordinateur. YOLOv6.0 est le choix par excellence pour les applications industrielles nécessitant une inférence et une quantification ultra-rapides. YOLOv7 reste un concurrent de taille pour les scénarios où la précision de la détection est primordiale et où les contraintes matérielles sont souples.

Cependant, pour une solution holistique qui combine des performances de pointe avec une facilité d'utilisation, une polyvalence et une flexibilité de déploiement inégalées, Ultralytics YOLO11 s'impose comme le meilleur choix pour le développement de l'IA moderne. Qu'il s'agisse d'un déploiement à la périphérie ou d'une mise à l'échelle dans le cloud, l'écosystème Ultralytics fournit les outils nécessaires pour réussir.

Pour en savoir plus, vous pouvez consulter nos comparaisons sur YOLOX ou examiner les capacités de RT-DETR pour la détection des transformateurs.


Commentaires