Skip to content

YOLOv9 vs YOLOv10 : Comparaison technique détaillée

Ultralytics s'engage à repousser les limites de la vision par ordinateur, et une partie cruciale de cet engagement consiste à développer et à affiner nos modèles YOLO . Cette page propose une comparaison technique détaillée entre YOLOv9 et YOLOv10, deux modèles de détection d'objets à la pointe de la technologie. Nous nous pencherons sur leurs nuances architecturales, leurs performances et les applications appropriées afin de vous aider à sélectionner le modèle optimal pour vos tâches spécifiques de vision par ordinateur.

YOLOv9 : Information sur le gradient programmable

YOLOv9, présenté en février 2024 par Chien-Yao Wang et Hong-Yuan Mark Liao de l'Institut des sciences de l'information, Academia Sinica, Taïwan, représente une avancée significative dans la détection efficace des objets. L'innovation principale de YOLOv9 réside dans l'information de gradient programmable (PGI), conçue pour remédier à la perte d'informations au cours du processus d'apprentissage en profondeur. Ce résultat est obtenu grâce à des techniques telles que les réseaux d'agrégation de couches efficaces généralisés (GELAN), qui garantissent que le modèle apprend exactement ce que vous voulez qu'il apprenne.

Architecture et caractéristiques principales : YOLOv9 s'appuie sur GELAN pour améliorer l'extraction des caractéristiques et maintenir l'intégrité des informations dans l'ensemble du réseau. Cette approche permet d'obtenir un modèle qui est non seulement précis mais aussi efficace en termes de paramètres, ce qui le rend adapté aux déploiements où les ressources informatiques sont limitées. YOLOv9 est mis en œuvre à partir de l'article"YOLOv9 : Learning What You Want to Learn Using Programmable Gradient Information"(Apprendre ce que vous voulez apprendre en utilisant l'information de gradient programmable).

Mesures de performance : YOLOv9 démontre des performances impressionnantes sur l'ensemble de données COCO. Par exemple, YOLOv9c atteint une mAPval50-95 de 53,0 % avec 25,3 millions de paramètres et 102,1 milliards de FLOP. L'architecture du modèle est conçue pour être efficace, ce qui lui permet d'atteindre une grande précision avec moins de paramètres et de calculs que les modèles précédents.

Points forts :

  • Haute précision : Permet d'atteindre une précision de pointe dans la détection des objets.
  • Efficacité des paramètres : Utilisation efficace des paramètres et des calculs grâce à GELAN et PGI.
  • Nouvelle approche : Introduit des informations de gradient programmables pour un meilleur apprentissage.

Faiblesses :

  • Relativement nouveau : comme il s'agit d'un modèle plus récent, il peut avoir une communauté plus restreinte et moins d'exemples de déploiement que les modèles plus anciens.

Cas d'utilisation : YOLOv9 est bien adapté aux applications nécessitant une grande précision et une grande efficacité, telles que

  • Robotique avancée : Détection d'objets dans les systèmes robotiques complexes.
  • Analyse d'images à haute résolution : Scénarios nécessitant une analyse détaillée de grandes images.
  • Environnements à ressources limitées : Appareils périphériques et applications mobiles où la puissance de calcul est limitée.

En savoir plus sur YOLOv9

Auteurs et ressources :

YOLOv10 : conception holistique axée sur l'efficacité et la précision

YOLOv10, publié en mai 2024 par Ao Wang, Hui Chen, Lihao Liu, et al. de l'Université de Tsinghua, est conçu pour la détection d'objets en temps réel de bout en bout, en mettant l'accent sur une efficacité et une vitesse maximales. YOLOv10 introduit plusieurs améliorations méthodologiques clés pour améliorer à la fois la précision et l'efficacité, y compris des assignations doubles cohérentes pour un entraînement sans NMS et une conception de modèle holistique axée sur l'efficacité et la précision.

Architecture et caractéristiques principales : L'architecture de YOLOv10 est méticuleusement conçue pour minimiser la redondance des calculs et maximiser les performances. Les principales améliorations en matière d'efficacité comprennent une tête de classification légère, un sous-échantillonnage découplé du canal spatial et une conception de blocs guidée par le rang. La précision est améliorée grâce aux convolutions à grand noyau et à l'auto-attention partielle (PSA). Ces innovations permettent à YOLOv10 d'atteindre une vitesse et une efficacité de pointe sans sacrifier la précision. YOLOv10 est présenté en détail dans l'article"YOLOv10 : Real-Time End-to-End Object Detection"(YOLOv10 : détection d'objets de bout en bout en temps réel).

Mesures de performance : YOLOv10 établit de nouvelles références en matière de détection d'objets en temps réel. Par exemple, YOLOv10-S est 1,8 fois plus rapide que RT-DETR avec un AP comparable sur l'ensemble de données COCO. YOLOv10-B présente une latence réduite de 46 % et des paramètres réduits de 25 % par rapport à YOLOv9-C, tout en conservant des niveaux de performance similaires. YOLOv10-N atteint une latence impressionnante de seulement 1,84 ms sur un GPU T4.

Points forts :

  • Efficacité extrême : Optimisé pour une latence et un coût de calcul minimaux.
  • Formation sans NMS : Les assignations doubles cohérentes permettent un déploiement de bout en bout sans suppression du maximum, ce qui réduit le temps d'inférence.
  • Grande vitesse : Permet d'obtenir des vitesses d'inférence nettement plus rapides que les versions précédentes de YOLO et d'autres modèles.
  • Bonne précision : Maintenir une précision compétitive tout en donnant la priorité à l'efficacité.

Faiblesses :

  • Modèle très récent : Comme il s'agit d'un modèle très récent, il fait encore l'objet d'un développement actif et le soutien de la communauté s'accroît.

Cas d'utilisation : YOLOv10 est parfaitement adapté aux applications où la performance et l'efficacité en temps réel sont primordiales :

  • Informatique périphérique : Déploiement sur des appareils en périphérie avec des ressources limitées.
  • Analyse vidéo en temps réel : Applications nécessitant la détection immédiate d'objets dans les flux vidéo.
  • Systèmes mobiles et embarqués : Intégration dans les applications mobiles et les systèmes embarqués pour lesquels la vitesse et la consommation d'énergie sont essentielles.

En savoir plus sur YOLOv10

Auteurs et ressources :

Tableau de comparaison

Modèle taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4

Conclusion

YOLOv9 et YOLOv10 représentent tous deux des avancées de pointe en matière de détection d'objets, chacun présentant des atouts uniques. YOLOv9 excelle en termes de précision et d'efficacité des paramètres grâce à ses informations de gradient programmables, ce qui le rend adapté aux analyses complexes et détaillées. YOLOv10, quant à lui, privilégie la vitesse et les performances en temps réel grâce à sa conception holistique axée sur l'efficacité et la précision et à sa formation sans NMS, ce qui le rend idéal pour les applications de pointe et en temps réel.

Pour les utilisateurs qui recherchent un équilibre entre maturité et polyvalence, Ultralytics YOLOv8 reste un choix solide. Pour ceux qui s'intéressent aux dernières avancées et à la plus grande précision, Ultralytics YOLO11 d'YOLO est également une option convaincante, qui s'appuie sur les points forts des itérations précédentes de YOLO . En fin de compte, le meilleur modèle dépend des exigences spécifiques de votre projet, en équilibrant la précision, la vitesse et les contraintes de ressources.

📅C réé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires