Skip to content

YOLOv10 vs. YOLO: une comparaison technique détaillée pour la détection d'objets

Le choix du modèle de détection d'objets optimal est crucial pour les applications de vision par ordinateur, les modèles différant considérablement en termes de précision, de vitesse et d'efficacité. Cette page propose une comparaison technique détaillée entre YOLOv10 et YOLO, deux modèles avancés dans le domaine de la détection d'objets. Nous explorerons leurs architectures, leurs performances et les applications appropriées pour guider votre processus de sélection de modèle.

YOLOv10

YOLOv10 est la dernière évolution de la série YOLO , réputée pour ses capacités de détection d'objets en temps réel. Développé par des chercheurs de l'université de Tsinghua et présenté le 2024-05-23(arXiv preprint arXiv:2405.14458), YOLOv10 est conçu pour une efficacité de bout en bout et des performances accrues. L'implémentation officielle de PyTorch est disponible sur GitHub.

Architecture et caractéristiques principales

YOLOv10 présente plusieurs innovations visant à rationaliser l'architecture et à améliorer l'équilibre entre vitesse et précision, en s'orientant vers une formation sans NMS et une conception efficace des modèles. Les points forts de l'architecture sont les suivants

  • Formation sans NMS: Utilise des affectations doubles cohérentes pour la formation sans suppression non maximale (NMS), réduisant ainsi la surcharge de post-traitement et la latence d'inférence.
  • Conception holistique axée sur l'efficacité et la précision: Optimisation complète des différents composants du modèle afin de minimiser la redondance des calculs et d'améliorer les capacités de détection.
  • Structure de l'épine dorsale et du réseau: Couches d'extraction de caractéristiques affinées et structure de réseau rationalisée pour une meilleure efficacité des paramètres et un traitement plus rapide.

Mesures de performance

YOLOv10 offre des performances de pointe à différentes échelles de modèle, fournissant une gamme d'options pour répondre à différents besoins de calcul. Les mesures de performance sur le jeu de données COCO comprennent :

  • mAP: Atteint une précision moyenne compétitive (mAP) sur l'ensemble de données de validation COCO. Par exemple, YOLOv10-S atteint 46,7 % de mAPval50-95.
  • Vitesse d'inférence: Offre des vitesses d'inférence impressionnantes, YOLOv10-N atteignant un temps d'inférence de 1,56 ms sur T4 TensorRT10.
  • Taille du modèle: Disponible en plusieurs tailles (N, S, M, B, L, X) avec des paramètres allant de 2.3M pour YOLOv10-N à 56.9M pour YOLOv10-X.

Forces et faiblesses

Points forts :

  • Performance en temps réel: Optimisé pour la vitesse et l'efficacité, il est idéal pour les applications en temps réel.
  • Haute précision: Permet d'atteindre une précision de pointe, en particulier avec les modèles plus grands comme YOLOv10-X.
  • Efficacité de bout en bout: La conception sans NMS réduit la latence et simplifie le déploiement.
  • Polyvalence: Convient à diverses tâches de détection d'objets et s'adapte à différentes plates-formes matérielles, y compris les appareils périphériques tels que Raspberry Pi et NVIDIA Jetson.
  • Facilité d'utilisation: l'intégration avec Ultralytics Python simplifie les processus de formation, de validation et de déploiement.

Faiblesses :

  • Modèle émergent: En tant que modèle récent, le soutien de la communauté et les poids pré-entraînés dans des écosystèmes plus larges peuvent être encore en développement par rapport à des modèles plus établis.
  • Compromis: les petits modèles privilégient la rapidité, éventuellement au détriment d'une certaine précision par rapport à des variantes plus grandes ou à des modèles plus complexes.

Cas d'utilisation

YOLOv10 est bien adapté aux applications nécessitant une détection d'objets précise et à grande vitesse, telles que

En savoir plus sur YOLOv10

DAMO-YOLO

YOLO, développé par le groupe Alibaba, est un modèle de détection d'objets haute performance présenté en 2022(arXiv preprint arXiv:2211.15444v2). Il est conçu pour être rapide et précis, et intègre plusieurs techniques avancées pour une détection efficace des objets. L'implémentation officielle et la documentation sont disponibles sur GitHub.

Architecture et caractéristiques principales

YOLO intègre plusieurs composants innovants pour atteindre un équilibre entre vitesse et précision :

  • NAS Backbone: Utilise la recherche d'architecture neuronale (NAS) pour concevoir des réseaux dorsaux efficaces optimisés pour les tâches de détection d'objets.
  • RepGFPN efficace: Le réseau RepGFPN (Reparameterized Gradient Feature Pyramid Network) est utilisé pour une fusion efficace des caractéristiques et une représentation multi-échelle des caractéristiques.
  • ZeroHead: une tête de détection légère conçue pour minimiser la charge de calcul tout en maintenant la précision de la détection.
  • AlignedOTA: utilise Aligned Optimal Transport Assignment (AlignedOTA) pour améliorer l'attribution des étiquettes pendant la formation, ce qui améliore les performances de détection.
  • Amélioration de la distillation: Incorpore des techniques de distillation des connaissances pour améliorer encore les performances du modèle.

Mesures de performance

Les modèles YOLO existent en différentes tailles (minuscule, petit, moyen, grand) pour répondre aux différents besoins de performance. Les principaux indicateurs de performance sont les suivants :

  • mAP: Il atteint un niveau élevé de mAP sur des ensembles de données de référence tels que COCO. YOLO, par exemple, atteint 50,8 % de mAPval50-95.
  • Vitesse d'inférence: Offre des vitesses d'inférence rapides, ce qui le rend adapté aux applications en temps réel, YOLO atteignant un temps d'inférence de 2,32 ms sur T4 TensorRT10.
  • Taille du modèle: Les tailles des modèles varient, offrant une flexibilité pour différents scénarios de déploiement, allant de 8,5 millions de paramètres pour YOLO à 42,1 millions de paramètres pour YOLO.

Forces et faiblesses

Points forts :

  • Haute précision: Une excellente précision de détection grâce à des innovations architecturales et des techniques de formation avancées.
  • Inférence rapide: Conçu pour la vitesse, il offre des performances d'inférence efficaces adaptées aux systèmes en temps réel.
  • Conception efficace: Incorpore des backbones NAS et des têtes légères pour optimiser l'efficacité des calculs.
  • Ensemble complet de fonctionnalités: Intègre plusieurs techniques avancées telles que RepGFPN et AlignedOTA pour une performance robuste.

Faiblesses :

  • Complexité: L'intégration de NAS et de multiples composants avancés peut introduire une certaine complexité dans la personnalisation et la modification.
  • Ressources nécessaires: Les grands modèles YOLO peuvent nécessiter des ressources informatiques considérables par rapport aux alternatives extrêmement légères.

Cas d'utilisation

YOLO est bien adapté aux applications exigeant une grande précision et une grande rapidité dans la détection d'objets, comme par exemple :

En savoir plus sur YOLO

Modèle taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Les utilisateurs pourraient également être intéressés par la comparaison de YOLOv10 et YOLO avec d'autres modèles de la famille Ultralytics YOLO et au-delà :

📅C réé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires