Passer au contenu

DAMO-YOLO vs. YOLOv7 : Une comparaison technique détaillée

Le choix de l'architecture optimale pour la détection d'objets est une décision cruciale dans le développement de la vision par ordinateur. Le choix nécessite souvent d'équilibrer la latence d'inférence par rapport à la précision de la détection, tout en tenant compte des contraintes matérielles de déploiement. Cette comparaison technique examine DAMO-YOLO et YOLOv7, deux modèles influents publiés en 2022 qui ont repoussé les limites de la détection en temps réel. Nous analysons leurs innovations architecturales, leurs performances de référence et leurs scénarios d'application idéaux pour vous aider à naviguer dans votre processus de sélection de modèle.

DAMO-YOLO : Recherche d'architecture neuronale pour l'efficacité en périphérie

DAMO-YOLO a été développé par le groupe Alibaba en mettant l'accent sur la maximisation des performances pour les applications industrielles. Il se distingue en intégrant la recherche d'architecture neuronale (NAS) pour automatiser la conception de son backbone, garantissant une efficacité optimale.

Innovations architecturales

DAMO-YOLO introduit plusieurs technologies de pointe visant à réduire la surcharge de calcul tout en maintenant une haute précision :

  1. Réseau MAE-NAS (GiraffeNet) : Contrairement aux dorsales traditionnelles conçues manuellement, YOLO utilise une approche NAS MAE (Method-Aware Efficiency). Il en résulte une série de dorsales appelée GiraffeNet, qui offre un meilleur compromis entre les opérations en virgule flottante (FLOP) et la latence sous diverses contraintes matérielles.
  2. RepGFPN efficace : Le modèle comprend un réseau de pyramide de caractéristiques généralisé (GFPN) optimisé avec la reparamétrisation. Ce « RepGFPN » permet une fusion efficace des caractéristiques multi-échelles, essentielle pour détecter les objets de différentes tailles sans les coûts de calcul importants associés aux FPN standard.
  3. ZeroHead : Une nouvelle conception « ZeroHead » simplifie considérablement la tête de détection. En découplant les tâches de classification et de régression et en supprimant la couche spécifique complexe, elle réduit à zéro le nombre de paramètres de la tête pendant l’inférence, ce qui permet d’économiser de la mémoire et d’augmenter la vitesse.
  4. AlignedOTA : Pour améliorer la stabilité et la précision de la formation, DAMO-YOLO utilise AlignedOTA, une stratégie d’attribution dynamique des étiquettes qui résout le problème de désalignement entre la confiance de la classification et la précision de la régression.

Forces et cas d'utilisation

DAMO-YOLO excelle dans les environnements où la latence est critique. Ses variantes plus petites (Tiny/Small) sont particulièrement efficaces pour les déploiements d'IA en périphérie.

  • Automatisation Industrielle : Idéal pour les chaînes de montage à haute vitesse où les millisecondes comptent.
  • Applications mobiles : Le faible nombre de paramètres le rend approprié pour une exécution sur des smartphones avec une puissance de calcul limitée.

En savoir plus sur DAMO-YOLO

YOLOv7 : Optimisation de la précision en temps réel

YOLOv7, sorti peu avant DAMO-YOLO, a établi une nouvelle référence en matière de performances de pointe dans la plage de 5 FPS à 160 FPS. Il s'est fortement concentré sur l'optimisation du processus de formation et du flux de gradients afin d'obtenir une plus grande précision sans augmenter les coûts d'inférence.

Innovations architecturales

YOLOv7 a introduit des méthodes de type "sac de cadeaux gratuits" qui améliorent la précision pendant l'entraînement sans affecter la structure du modèle d'inférence :

  1. E-ELAN (Extended Efficient Layer Aggregation Network) : Cette architecture contrôle les chemins de gradient les plus courts et les plus longs, ce qui permet au réseau d’apprendre des caractéristiques plus diverses. Elle améliore la capacité d’apprentissage de la « cardinalité » sans détruire l’état du chemin de gradient d’origine.
  2. Mise à l'échelle du modèle pour les modèles basés sur la concaténation : YOLOv7 propose une méthode de mise à l'échelle composite qui met à l'échelle la profondeur et la largeur simultanément pour les architectures basées sur la concaténation, assurant une utilisation optimale des paramètres.
  3. Bag-of-Freebies entraînable : Des techniques telles que la reparamétrisation planifiée et la supervision de la tête auxiliaire (du grossier au fin) sont utilisées. Celles-ci améliorent la robustesse et la précision du modèle pendant l’entraînement, mais sont fusionnées ou supprimées pendant l’inférence, ce qui permet de maintenir la rapidité du modèle.

Forces et cas d'utilisation

YOLOv7 est un concentré de puissance pour la détection d'objets à usage général, offrant une excellente précision moyenne (mAP) sur des ensembles de données standard comme MS COCO.

  • Surveillance des villes intelligentes : Sa grande précision la rend fiable pour la détection des piétons et des véhicules dans des environnements urbains complexes.
  • Systèmes autonomes : Convient à la robotique et aux drones nécessitant une détection fiable à plus longue portée où des entrées à plus haute résolution sont bénéfiques.

En savoir plus sur YOLOv7

Comparaison des performances

Le tableau suivant compare les performances de DAMO-YOLO et YOLOv7. Bien que DAMO-YOLO atteigne souvent une latence plus faible (vitesse plus élevée) pour sa taille, YOLOv7 conserve généralement une solide réputation en matière de précision, en particulier dans ses configurations plus importantes.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Les données illustrent que pour les environnements très contraints, DAMO-YOLO offre une solution très légère (8,5M de paramètres pour la version tiny). Cependant, YOLOv7 repousse les limites de la précision avec sa variante X atteignant 53,1 % mAP, bien qu'avec des coûts de calcul plus élevés.

Compromis de l'architecture

Bien que le backbone de DAMO-YOLO basé sur NAS optimise spécifiquement la latence, la conception architecturale manuelle de YOLOv7 se concentre sur l'efficacité du flux de gradient. Les utilisateurs devraient évaluer les deux sur leur matériel spécifique, car les FLOPs théoriques ne correspondent pas toujours parfaitement à la vitesse d'inférence réelle.

L'avantage Ultralytics : pourquoi mettre à niveau ?

Bien que DAMO-YOLO et YOLOv7 représentent tous deux des réalisations significatives dans l'histoire de la vision par ordinateur, le domaine évolue rapidement. Pour les développeurs à la recherche des solutions les plus robustes, polyvalentes et faciles à utiliser, Ultralytics YOLO11 et YOLOv8 sont les choix recommandés.

Les modèles Ultralytics sont conçus non seulement comme des artefacts de recherche, mais aussi comme des outils de production complets. Ils s'attaquent aux problèmes du « dernier kilomètre » dans le déploiement de l'IA : convivialité, intégration et maintenance.

Principaux avantages des modèles Ultralytics

  • Facilité d'utilisation : Grâce à une API Python et une CLI unifiées, vous pouvez entraîner un modèle de pointe en quelques lignes de code. Il n'est pas nécessaire d'ajuster manuellement des fichiers de configuration complexes ou de lutter contre les dépendances.
  • Écosystème bien maintenu : Ultralytics fournit un écosystème prospère avec des mises à jour fréquentes, identifiant et corrigeant rapidement les bugs. Le support est facilement disponible grâce à une documentation exhaustive et à des canaux communautaires actifs.
  • L'équilibre des performances : Des modèles comme YOLO11 utilisent des têtes de détection avancées sans ancrage et des dorsales optimisées pour atteindre des rapports précision/vitesse supérieurs à ceux de YOLOv7 et de YOLO.
  • Polyvalence : Contrairement aux anciens modèles souvent limités à la détection, Ultralytics YOLO prend en charge la segmentation d’instance, l’estimation de pose, la détection d’objets orientés (OBB) et la classification prêtes à l’emploi.
  • Efficacité de l'entraînement : Les poids pré-entraînés et les chargeurs de données optimisés garantissent une convergence plus rapide, ce qui permet d'économiser des heures de GPU et de l'énergie.
from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

En savoir plus sur YOLO11

Conclusion

DAMO-YOLO et YOLOv7 ont chacun des mérites distincts. DAMO-YOLO est un candidat solide pour les projets où la vitesse d'inférence en périphérie est la principale contrainte, en tirant parti de NAS pour gagner des millisecondes. YOLOv7 reste un choix solide pour les chercheurs à la recherche d'une détection de haute précision avec une lignée architecturale éprouvée.

Cependant, pour la plupart des applications commerciales et de recherche actuelles, l'écosystème Ultralytics YOLO offre une expérience supérieure. En combinant des performances de pointe avec une facilité d'utilisation et une polyvalence inégalées, les modèles Ultralytics permettent aux développeurs de se concentrer sur la création de valeur plutôt que sur le débogage du code. Que vous déployiez sur un serveur cloud ou un appareil périphérique comme le NVIDIA Jetson, Ultralytics offre le chemin le plus simple vers la production.

Autres modèles

Si vous explorez des architectures de détection d'objets, ces modèles pourraient également vous intéresser :

  • Ultralytics YOLOv8: Un modèle très polyvalent prenant en charge les tâches de detect, de segmentation et de pose.
  • Ultralytics YOLO11: La dernière évolution de la série YOLO, offrant une efficacité de pointe.
  • RT-DETR : Un détecteur en temps réel basé sur un transformateur qui évite les délais de NMS.
  • YOLOv9 : Comporte l'information de gradient programmable (PGI) pour un apprentissage amélioré.
  • YOLOv10: Se concentre sur l'entraînement de bout en bout sans NMS pour une latence réduite.

Commentaires