YOLOv9 vs YOLOv6-3.0 : Comparaison détaillée
Lors du choix d'un modèle de vision par ordinateur pour la détection d'objets, il est essentiel de comprendre les nuances entre les différentes architectures. Cette page propose une comparaison technique détaillée entre YOLOv9 et YOLOv6-3.0, deux modèles de pointe de la famille YOLO . Nous nous penchons sur leurs conceptions architecturales, leurs performances et les applications appropriées pour vous aider à prendre une décision éclairée.
Aperçu architectural
YOLOv9, présenté début 2024 par Wang et Liao de l'Institute of Information Science, Academia Sinica, Taïwan, représente une avancée significative dans la détection d'objets en abordant la question de la perte d'informations dans les réseaux profonds. Il introduit deux innovations clés :
- Information de gradient programmable (PGI) : Ce mécanisme est conçu pour préserver les informations cruciales dans l'ensemble du réseau, en atténuant la perte d'informations, ce qui est particulièrement bénéfique pour les architectures plus profondes et plus complexes.
- Réseau d'agrégation de couches efficace généralisé (GELAN) : GELAN optimise l'architecture du réseau pour améliorer l'utilisation des paramètres et l'efficacité des calculs, ce qui permet une détection plus rapide et plus précise.
Ces avancées permettent à YOLOv9 d'atteindre une plus grande précision avec potentiellement moins de paramètres que ses prédécesseurs. L'architecture est détaillée dans l'article"YOLOv9 : Learning What You Want to Learn Using Programmable Gradient Information" (YOLOv9 : apprendre ce que vous voulez apprendre en utilisant des informations de gradient programmables), disponible sur arXiv. Le code officiel est également disponible sur GitHub.
YOLOv6-3.0, développé par Meituan et détaillé dans leur article de 2023"YOLOv6 v3.0 : A Full-Scale Reloading", se concentre sur l'équilibre entre vitesse et précision, ce qui le rend particulièrement adapté aux applications industrielles et aux systèmes en temps réel. Les points forts de son architecture sont les suivants :
- Module de concaténation bidirectionnelle (BiC) : Ce module renforce les signaux de localisation dans le cou du réseau, améliorant ainsi la précision de la détection sans affecter de manière significative la vitesse.
- Stratégie de formation assistée par ancrage (AAT) : L'AAT permet une formation plus efficace, contribuant ainsi à la performance globale du modèle.
YOLOv6-3.0 est conçu pour être efficace, en privilégiant des temps d'inférence plus rapides et des modèles plus petits. La base de code est accessible au public sur GitHub.
Mesures de performance
Le tableau ci-dessous compare les performances des modèles YOLOv9 et YOLOv6-3.0 sur l'ensemble de données COCO.
Modèle | taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Analyse :
- Précision (mAP) : les modèles YOLOv9 présentent généralement des scores mAP plus élevés, ce qui indique une précision supérieure dans la détection des objets, en particulier pour les modèles de plus grande taille (m, c, e). Par exemple, YOLOv9e atteint une mAPval50-95 de 55,6 %, surpassant YOLOv6-3.0l à 52,8 %.
- Vitesse d'inférence : Les modèles YOLOv6-3.0 sont notablement plus rapides dans l'inférence, en particulier les variantes plus petites comme YOLOv6-3.0n et YOLOv6-3.0s. YOLOv6-3.0n atteint une vitesse TensorRT de 1,17 ms, significativement plus rapide que YOLOv9t à 2,3 ms.
- Taille du modèle et FLOPs : les modèles YOLOv9 ont tendance à avoir moins de paramètres et moins de FLOPs pour une précision comparable ou meilleure que YOLOv6-3.0 dans certaines catégories de taille, mettant en évidence l'efficacité de son architecture. Par exemple, YOLOv9c a moins de paramètres (25,3M) et de FLOPs (102,1B) que YOLOv6-3.0l (59,6M et 150,7B) tout en conservant une précision comparable.
Cas d'utilisation
YOLOv9 :
- Exigences de précision élevées : Idéal pour les applications où la précision est primordiale, telles que la conduite autonome, les systèmes de surveillance avancés et l'analyse détaillée de l'imagerie médicale.
- Scénarios complexes : Excellente dans les scénarios avec des arrière-plans complexes ou de nombreux petits objets, où la préservation des informations sur les caractéristiques est essentielle.
- Recherche et développement : Convient pour repousser les limites des performances de la détection d'objets et explorer de nouvelles optimisations architecturales.
YOLOv6-3.0 :
- Applications en temps réel : Convient le mieux aux applications nécessitant des vitesses d'inférence rapides, telles que l'analyse vidéo en temps réel, la robotique et les systèmes basés sur des drones.
- Appareils à ressources limitées : Optimisé pour le déploiement sur des appareils périphériques, des plateformes mobiles et des systèmes disposant de ressources informatiques limitées, grâce à sa conception efficace et à la taille réduite des modèles.
- Applications industrielles : Bien adapté aux environnements industriels nécessitant une détection robuste et rapide des objets pour des tâches telles que le contrôle de la qualité, l'inspection automatisée et la surveillance de la sécurité.
Formation et mise en œuvre
YOLOv9 et YOLOv6-3.0 peuvent être entraînés et mis en œuvre à l'aide de cadres d'apprentissage profond populaires tels que PyTorch. Ultralytics fournit une documentation complète et un support pour les deux modèles, les rendant accessibles aux chercheurs et aux développeurs. Vous trouverez des guides détaillés sur la formation, la validation et le déploiement dans les documents officiels d'Ultralytics pour YOLOv9 et YOLOv6.
Conclusion
Le choix entre YOLOv9 et YOLOv6-3.0 dépend largement des exigences spécifiques de votre projet. Si la précision est la priorité absolue et que les ressources informatiques sont moins contraignantes, YOLOv9 offre des performances de pointe. Inversement, si la vitesse et l'efficacité pour un déploiement en temps réel ou en périphérie sont cruciales, YOLOv6-3.0 offre un excellent équilibre entre vitesse et précision raisonnable.
Pour les utilisateurs intéressés par l'exploration d'autres modèles, Ultralytics propose également une large gamme de modèles YOLO , notamment YOLOv8, YOLOv5et YOLO11chacun possédant des atouts uniques adaptés à différents cas d'utilisation. Envisagez d'explorer ces modèles pour trouver celui qui correspond le mieux à vos besoins en matière de vision par ordinateur.