Passer au contenu

YOLOv10 vs. YOLOv9 : Une comparaison technique

Choisir le bon modèle de détection d'objets est essentiel pour tout projet de vision par ordinateur, car cela influence directement ses performances, sa vitesse et sa faisabilité de déploiement. Étant donné que le domaine évolue rapidement, il est essentiel de se tenir informé des dernières architectures. Cette page fournit une comparaison technique détaillée entre deux modèles de pointe : YOLOv10 et YOLOv9. Nous analyserons leurs innovations architecturales, leurs mesures de performance et leurs cas d'utilisation idéaux pour vous aider à prendre une décision éclairée en fonction de facteurs tels que la précision, la vitesse et les besoins en ressources.

YOLOv10 : Efficacité en temps réel de bout en bout

YOLOv10 est un modèle de pointe des chercheurs de l'université de Tsinghua, publié en mai 2024. Il est conçu pour offrir des performances exceptionnelles en temps réel en créant un pipeline de détection d'objets véritablement de bout en bout. L'innovation marquante est son élimination de la suppression non maximale (NMS), une étape de post-traitement qui ajoute traditionnellement une latence d'inférence. Cela fait de YOLOv10 un choix très efficace pour les applications où la vitesse est essentielle.

Détails techniques :

Architecture et principales fonctionnalités

YOLOv10 introduit plusieurs avancées architecturales pour repousser les limites du compromis vitesse-précision.

  • Formation sans NMS : L’innovation essentielle est l’utilisation d’affectations doubles cohérentes pendant la formation. Cette stratégie fournit une supervision riche pour le modèle tout en lui permettant de fonctionner sans NMS pendant l’inférence. En supprimant ce goulot d’étranglement de post-traitement, YOLOv10 atteint une latence plus faible et simplifie le pipeline de déploiement.
  • Conception globale axée sur l'efficacité et la précision : Les auteurs ont mené une optimisation complète des composants du modèle. Cela comprend une tête de classification légère pour réduire la charge de calcul, un sous-échantillonnage spatial-canal découplé pour préserver l'information plus efficacement, et une conception de bloc guidée par le rang pour éliminer la redondance de calcul. Pour améliorer la précision avec une surcharge minimale, l'architecture intègre des convolutions à grand noyau et une auto-attention partielle (PSA).

Points forts et faiblesses

Points forts :

  • Efficacité extrême : YOLOv10 est optimisé pour une latence et un coût de calcul minimaux, ce qui en fait l'un des détecteurs d'objets les plus rapides disponibles.
  • Déploiement de bout en bout : La conception sans NMS supprime les étapes de post-traitement, simplifiant le déploiement et réduisant le temps d'inférence.
  • Excellent compromis de performance : Il atteint un équilibre de pointe entre vitesse et précision, surpassant souvent d’autres modèles à des échelles similaires.
  • Intégration Ultralytics : YOLOv10 est intégré de manière transparente à l’écosystème Ultralytics. Cela offre aux utilisateurs une expérience simplifiée, comprenant une API Python simple, une documentation exhaustive et le soutien d’un framework bien maintenu.

Faiblesses :

  • Récent : En tant que modèle très récent, la communauté et les ressources tierces sont encore en développement par rapport aux modèles plus établis comme Ultralytics YOLOv8.

Cas d'utilisation idéaux

YOLOv10 est le choix idéal pour les applications où les performances et l'efficacité en temps réel sont les priorités absolues.

  • IA en périphérie (Edge AI) : Sa faible latence et son faible encombrement le rendent parfait pour le déploiement sur des appareils aux ressources limitées tels que NVIDIA Jetson et les plateformes mobiles.
  • Analyse vidéo à haute vitesse : Scénarios nécessitant une détection immédiate dans les flux vidéo, tels que la gestion du trafic ou la surveillance de sécurité en direct.
  • Systèmes autonomes : Applications dans la robotique et les drones où une prise de décision rapide est essentielle.

En savoir plus sur YOLOv10

YOLOv9 : Information de gradient programmable

Présenté en février 2024, YOLOv9 est une avancée significative des chercheurs de l'Institute of Information Science de Taïwan, Academia Sinica. Il s'attaque à un problème fondamental des réseaux neuronaux profonds : la perte d'informations lorsque les données transitent par des couches successives. YOLOv9 introduit Programmable Gradient Information (PGI) pour garantir que des informations de gradient fiables sont disponibles pour les mises à jour du réseau, ce qui permet un apprentissage plus efficace et une plus grande précision.

Détails techniques :

Architecture et principales fonctionnalités

L’architecture de YOLOv9 est conçue pour maximiser la rétention d’informations et l’efficacité de l’apprentissage.

  • Informations de gradient programmables (PGI) : Ce concept novateur aide à générer des gradients fiables pour mettre à jour les poids du réseau, en s'attaquant efficacement au problème du goulot d'étranglement de l'information et en empêchant la perte de détails dans les architectures profondes.
  • Generalized Efficient Layer Aggregation Network (GELAN) : YOLOv9 introduit GELAN, une nouvelle architecture de réseau qui optimise l'utilisation des paramètres et l'efficacité computationnelle. En combinant les forces des architectures précédentes, GELAN permet à YOLOv9 d'atteindre des performances élevées sans être prohibitive en termes de calcul.

Points forts et faiblesses

Points forts :

  • Haute précision : YOLOv9 atteint une précision de pointe, sa plus grande variante (YOLOv9-E) établissant une nouvelle référence pour le mAP sur l’ensemble de données COCO.
  • Architecture efficace : La combinaison de PGI et GELAN se traduit par d'excellentes performances avec moins de paramètres par rapport à d'autres modèles visant des niveaux de précision similaires.
  • Préservation de l'information : Sa conception de base atténue efficacement la perte d'informations, ce qui conduit à une meilleure représentation des caractéristiques et à la détection d'objets difficiles à détecter.
  • Écosystème Ultralytics : À l’instar de YOLOv10, YOLOv9 bénéficie de l’intégration dans le framework Ultralytics, offrant une facilité d’utilisation, une documentation complète et un accès à un ensemble d’outils robustes pour l’entraînement et le déploiement.

Faiblesses :

  • Latence plus élevée que YOLOv10 : Bien qu'il soit efficace pour sa classe de précision, il a généralement une latence d'inférence plus élevée que YOLOv10, comme le montre le tableau des performances.
  • Complexité : Les concepts de PGI et de branches réversibles auxiliaires ajoutent une couche de complexité à l'architecture par rapport aux conceptions plus simples.

Cas d'utilisation idéaux

YOLOv9 est bien adapté aux applications où l’obtention de la plus grande précision possible est l’objectif principal, et où les ressources de calcul sont moins limitées.

  • Analyse haute résolution : Scénarios exigeant une analyse détaillée d’images volumineuses, comme dans l'imagerie médicale ou l'analyse d’imagerie satellite.
  • Systèmes de sécurité avancés : Environnements de surveillance complexes où l’identification précise d’un large éventail d’objets est essentielle pour la sécurité.
  • Contrôle qualité : Applications industrielles où la détection de défauts minimes avec une haute précision est nécessaire pour le contrôle qualité de la fabrication.

En savoir plus sur YOLOv9

Performances et analyses comparatives : YOLOv10 vs. YOLOv9

Le tableau suivant fournit une comparaison détaillée des performances entre différentes échelles de modèles YOLOv10 et YOLOv9 sur l'ensemble de données COCO. Les mesures illustrent clairement les compromis de conception entre les deux familles.

YOLOv10 démontre systématiquement une latence plus faible et une plus grande efficacité des paramètres pour toutes les tailles de modèles comparables. Par exemple, YOLOv10-B atteint un mAP similaire à YOLOv9-C, mais avec une latence inférieure de 46 % et 25 % moins de paramètres. Cela souligne la force de YOLOv10 dans les applications en temps réel.

D'autre part, YOLOv9-E atteint le mAP le plus élevé, soit 55,6 %, ce qui en fait le premier choix pour les scénarios où la précision est non négociable, même au prix d'une latence plus élevée et de plus de paramètres.

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Conclusion : Quel modèle devriez-vous choisir ?

Le choix entre YOLOv10 et YOLOv9 dépend entièrement des besoins spécifiques de votre projet.

  • Choisissez YOLOv10 si vos contraintes principales sont la vitesse, la latence et l'efficacité de calcul. Sa conception de bout en bout sans NMS en fait l'option supérieure pour le traitement vidéo en temps réel, le déploiement sur des appareils périphériques et toute application où une inférence rapide et efficace est essentielle.

  • Choisissez YOLOv9 si votre objectif principal est d'atteindre la plus haute précision de détection possible. Son architecture innovante excelle dans la préservation de l'information, ce qui la rend idéale pour les scènes complexes et les applications à enjeux élevés où la précision l'emporte sur le besoin de la latence la plus faible possible.

Les deux modèles sont des architectures puissantes et à la pointe de la technologie qui bénéficient grandement de leur intégration dans l'écosystème Ultralytics, ce qui simplifie leur utilisation et leur déploiement.

Explorer d'autres modèles

Bien que YOLOv10 et YOLOv9 représentent la fine pointe, l'écosystème Ultralytics prend en charge une large gamme de modèles. Pour les développeurs à la recherche d'un modèle mature, polyvalent et bien équilibré, Ultralytics YOLOv8 reste un excellent choix, offrant une prise en charge de plusieurs tâches de vision au-delà de la détection. Pour ceux qui recherchent les dernières avancées d'Ultralytics, consultez YOLO11. Vous pouvez explorer d'autres comparaisons sur notre page de comparaison de modèles.



📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires