Passer au contenu

DAMO-YOLO vs. YOLO11 : Une comparaison technique

Dans le paysage en évolution rapide de la vision par ordinateur, le choix du bon modèle de détection d'objets est essentiel pour la réussite de l'application. Cette comparaison complète analyse deux architectures importantes : YOLO, développée par Alibaba Group, et Ultralytics YOLO11le dernier modèle de pointe d'Ultralytics. Bien que les deux modèles visent à optimiser le compromis entre vitesse et précision, ils répondent à des objectifs primaires différents et offrent des avantages distincts en fonction du scénario de déploiement.

Ce guide présente en détail leurs architectures, leurs performances et les cas d'utilisation idéaux afin d'aider les développeurs et les chercheurs à prendre des décisions éclairées.

DAMO-YOLO

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation:Alibaba Group
Date : 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
DocsYOLO

YOLO est un cadre de détection d'objets qui intègre plusieurs technologies de pointe pour atteindre des performances élevées. Il se concentre sur la réduction de la latence tout en maintenant une précision compétitive grâce à une série d'innovations architecturales issues de la recherche d'Alibaba.

En savoir plus sur DAMO-YOLO

Architecture et innovation

YOLO introduit une approche "distiller et sélectionner" et incorpore les éléments clés suivants :

  • L'épine dorsale MAE-NAS : Grâce à la recherche d'architecture neuronale (NAS), l'épine dorsale est optimisée en fonction de contraintes spécifiques afin de garantir une extraction efficace des caractéristiques.
  • RepGFPN efficace : Un réseau pyramidal généralisé (GFPN) utilise largement les mécanismes de re-paramétrage pour améliorer la fusion des caractéristiques à différentes échelles sans encourir de lourds coûts de calcul pendant l'inférence.
  • ZeroHead : cette tête de détection légère dissocie les tâches de classification et de régression, afin de maximiser la vitesse d'inférence.
  • AlignedOTA : une stratégie d'attribution d'étiquettes qui résout le problème de désalignement entre les cibles de classification et de régression, améliorant ainsi la convergence pendant la formation.

Bien que YOLO présente des avancées théoriques impressionnantes, il s'agit avant tout d'un cadre de recherche axé sur la détection d'objets. Il ne dispose généralement pas du support multi-tâches natif que l'on trouve dans des écosystèmes plus complets.

Ultralytics YOLO11

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHubultralytics
Docsyolo11

Ultralytics YOLO11 représente l'apogée de la vision par ordinateur en temps réel, affinant l'héritage de la série YOLO avec des améliorations significatives en termes d'architecture, d'efficacité et de facilité d'utilisation. Il est conçu non seulement comme un modèle, mais aussi comme un outil polyvalent pour un déploiement pratique et réel dans divers environnements matériels.

En savoir plus sur YOLO11

Architecture et écosystème

YOLO11 s'appuie sur les succès précédents avec une architecture raffinée sans ancrage. Il est doté d'une colonne vertébrale améliorée pour une meilleure extraction des caractéristiques et d'une conception modifiée du cou qui améliore le flux d'informations à différentes échelles.

Les principaux avantages du cadreYOLO11 d'Ultralytics sont les suivants :

  • Polyvalence : Contrairement à de nombreux concurrents, YOLO11 prend en charge de manière native un large éventail de tâches, notamment la détection d'objets, la segmentation d'instances, l'estimation de la pose, la classification d'images et les boîtes de délimitation orientées (OBB).
  • Facilité d'utilisation : le modèle est enveloppé dans une APIPython conviviale et un CLIPython, ce qui le rend accessible aux débutants comme aux experts.
  • Efficacité de l'entraînement : Optimisé pour une convergence plus rapide, YOLO11 utilise une augmentation des données et des fonctions de perte efficaces, permettant aux utilisateurs d'entraîner des modèles personnalisés sur des ensembles de données tels que COCO avec moins de ressources.
  • Un écosystème bien entretenu : Soutenu par l'équipe d'Ultralytics Ultralytics les utilisateurs bénéficient de mises à jour fréquentes, d'une documentation complète et d'une intégration transparente avec des outils MLOps comme Ultralytics HUB.

Le saviez-vous ?

YOLO11 est conçu pour être très efficace sur les appareils Edge AI. Son architecture optimisée garantit une faible utilisation de la mémoire et des vitesses d'inférence élevées sur du matériel comme le NVIDIA Jetson et le Raspberry Pi, ce qui en fait un choix supérieur pour les applications embarquées par rapport aux modèles plus lourds basés sur des transformateurs.

Comparaison des performances

Le graphique et le tableau suivants illustrent les différences de performance entre YOLO et YOLO11. Ultralytics YOLO11 démontre une précision supérieuremAP) et des vitesses d'inférence favorables, en particulier sur le matériel CPU où YOLO n'a pas de références officielles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Analyse des résultats

  • Précision : YOLO11 surpasse de manière significative les modèles YOLO comparables. Par exemple, YOLO11m atteint 51,5 mAP, ce qui est nettement supérieur à DAMO-YOLOm (49,2 mAP), bien qu'il ait moins de paramètres (20,1M contre 28,2M).
  • Vitesse d'inférence : Sur GPU (T4 TensorRT), YOLO11 offre une latence très compétitive. YOLO11n est incroyablement rapide ( 1,5 ms), ce qui le rend adapté aux applications à très faible latence.
  • Performance de l'CPU : L'un des principaux avantages des modèles Ultralytics est leur transparence en ce qui concerne les performances de l'CPU . YOLO11 est optimisé pour l'inférence CPU par l'intermédiaire de ONNX et OpenVINO, tandis que YOLO se concentre fortement sur le GPU, laissant souvent les performances de déploiement du CPU indéfinies.
  • Efficacité du modèle : YOLO11 présente un meilleur équilibre entre les paramètres et les performances. L'efficacité architecturale permet de réduire la taille des fichiers de modèle, ce qui se traduit par des téléchargements plus rapides et des besoins de stockage moindres sur les appareils périphériques.

Principaux facteurs de différenciation et cas d’utilisation

Les points forts d'Ultralytics YOLO11

Développeurs utilisant Ultralytics YOLO11 ont accès à un environnement de production robuste.

  • Équilibre des performances : L'architecture du modèle est méticuleusement réglée pour offrir le meilleur compromis entre la vitesse d'inférence et la précision, ce qui est crucial pour l'analyse vidéo en temps réel.
  • Capacités multitâches : Si votre projet passe de la détection au suivi ou à la segmentation, YOLO11 le gère de manière transparente au sein de la même base de code.
  • Facilité d'utilisation : L'argument ultralytics simplifie l'ensemble du processus. Le chargement d'un modèle, l'exécution des prédictions et l'exportation vers des formats tels que CoreML, TFLite ou TensorRT peuvent être réalisés avec seulement quelques lignes de code.
  • Exigences de mémoire réduites : Comparé aux détecteurs à base de transformateurs ou aux architectures non optimisées, YOLO11 nécessite généralement moins de mémoire CUDA pendant l'entraînement, ce qui permet aux chercheurs de s'entraîner sur des GPU grand public.
from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Les points forts de YOLO

YOLO est un concurrent sérieux dans les milieux de la recherche universitaire.

  • Innovation en matière de recherche : Des fonctionnalités telles que MAE-NAS et ZeroHead offrent des perspectives intéressantes en matière de recherche d'architecture neuronale et de découplage des têtes.
  • Débit duGPU : Pour des applications industrielles spécifiques fonctionnant exclusivement sur les GPU pris en charge, YOLO offre un débit élevé, bien qu'il soit souvent à la traîne de YOLO11 en termes d'efficacité de la précision pure par paramètre.

Conclusion

YOLO présente les nouveaux concepts de l'équipe de recherche d'Alibaba, Ultralytics YOLO11 s'impose comme le meilleur choix pour la grande majorité des développeurs et des entreprises. Sa domination se définit non seulement par une mAP et une inférence plus rapide, mais aussi par l'écosystème complet qui le soutient.

Grâce à sa facilité d'utilisation, à sa polyvalence, à sa base de code bien entretenue et au soutien actif de la communauté, YOLO11 abaisse la barrière à l'entrée pour la création de solutions d'IA avancées. Qu'il s'agisse d'un déploiement sur des serveurs en nuage ou sur des appareils périphériques aux ressources limitées, YOLO11 offre la fiabilité et les performances nécessaires aux applications modernes de vision par ordinateur.

Explorer d’autres comparaisons de modèles

Pour mieux comprendre comment les modèles Ultralytics se comparent à d'autres architectures, consultez nos pages de comparaison détaillées :


Commentaires