Passer au contenu

DAMO-YOLO vs. YOLOv8 : Un examen technique approfondi

Le paysage de la détection d'objets est en constante évolution, les chercheurs et les ingénieurs s'efforçant d'équilibrer les exigences concurrentes de vitesse, de précision et d'efficacité computationnelle. Deux architectures importantes qui ont fait des vagues importantes dans la communauté de la vision par ordinateur sont DAMO-YOLO, développé par Alibaba Group, et YOLOv8, créé par Ultralytics.

Cette comparaison technique explore les innovations architecturales, les mesures de performance et la convivialité pratique des deux modèles. Alors que DAMO-YOLO introduit de nouveaux concepts de recherche comme la recherche d'architecture neuronale (NAS), Ultralytics YOLOv8 se concentre sur la fourniture d'un écosystème robuste et convivial qui rationalise le flux de travail de l'entraînement au déploiement.

Analyse des performances : Vitesse et précision

Pour comprendre comment ces modèles se comparent dans des scénarios réels, nous analysons leurs performances sur l'ensemble de données COCO standard. Les mesures ci-dessous mettent en évidence les compromis entre la précision moyenne (mAP), la vitesse d'inférence sur différents matériels et la complexité du modèle.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Points clés à retenir

Les données révèlent des avantages distincts en fonction de la cible de déploiement :

  • Performance Edge : Le modèle YOLOv8n (Nano) est le leader incontesté pour les environnements aux ressources limitées. Avec seulement 3,2 M de paramètres et 8,7 G de FLOP, il atteint les vitesses d’inférence les plus rapides sur CPU et GPU. Cela le rend idéal pour les applications mobiles ou les appareils IoT où la mémoire et l’alimentation sont limitées.
  • Précision maximale : Pour les applications où la précision est primordiale, YOLOv8x atteint la plus grande mAP de 53,9 %. Si les modèles YOLO donnent de bons résultats, la variante YOLOv8 , la plus grande, repousse encore les limites de la précision de détection.
  • Compromis de latence : DAMO-YOLO démontre un débit impressionnant sur les GPU dédiés (comme le T4), grâce à son backbone optimisé par NAS. Cependant, Ultralytics YOLOv8 maintient un équilibre supérieur sur une plus grande variété de matériel, y compris les CPU, assurant une plus grande flexibilité de déploiement.

DAMO-YOLO : Innovation axée sur la recherche

DAMO-YOLO est un produit des initiatives de recherche du groupe Alibaba. Le nom signifie "Discovery, Adventure, Momentum, and Outlook" (Découverte, Aventure, Élan et Perspective), reflétant l'accent mis sur l'exploration de nouvelles frontières architecturales.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 2022-11-23
Arxiv :2211.15444v2
GitHub :tinyvision/DAMO-YOLO

Points forts architecturaux

DAMO-YOLO intègre plusieurs technologies avancées pour optimiser le compromis entre la latence et la précision :

  1. L'épine dorsale MAE-NAS : Il utilise la recherche d'architecture neuronale (NAS) pour découvrir automatiquement des structures de réseau efficaces, en particulier à l'aide d'une méthode appelée MAE-NAS.
  2. Cou RepGFPN : Un Generalized Feature Pyramid Network (GFPN) fortement paramétré est utilisé pour maximiser le flux d'informations entre les différents niveaux d'échelle, améliorant ainsi la détection des objets à différentes distances.
  3. ZeroHead : Pour contrebalancer le neck lourd, le modèle utilise un « ZeroHead » léger, réduisant ainsi la charge de calcul à l’étape de détection finale.
  4. AlignedOTA : Une stratégie d’attribution d’étiquettes dynamique qui aligne les tâches de classification et de régression pendant l’entraînement, aidant le modèle à converger plus efficacement.

En savoir plus sur DAMO-YOLO

Ultralytics YOLOv8 : La norme de l’écosystème

YOLOv8 représente un raffinement de l'architecture YOLO axé sur la convivialité, la polyvalence et les performances de pointe. Contrairement aux modèles de recherche pure, YOLOv8 est conçu comme un produit pour les développeurs, mettant l'accent sur un écosystème bien maintenu et une facilité d'intégration.

Auteurs : Glenn Jocher, Ayush Chaurasia et Jing Qiu
Organisation :Ultralytics
Date : 2023-01-10
Docs :Ultralytics YOLOv8

Points forts architecturaux

  • Détection sans ancres : YOLOv8 élimine les boîtes d'ancrage, réduisant le nombre d'hyperparamètres que les développeurs doivent régler et simplifiant le processus d'entraînement.
  • Module C2f : L’architecture remplace le module C3 par C2f, offrant des informations de flux de gradient plus riches tout en conservant un faible encombrement.
  • Tête découplée : En séparant les tâches de classification et de régression dans la tête, le modèle atteint une plus grande précision de localisation.
  • Framework unifié : Sa caractéristique architecturale la plus forte est peut-être sa prise en charge native de plusieurs tâches de vision : segmentation d’instance, estimation de pose, classification et détection d’objets orientés (OBB) : le tout dans une seule base de code.

Le saviez-vous ?

Ultralytics offre un chemin d'accès transparent pour exporter les modèles vers des formats optimisés tels que ONNX, TensorRT, CoreML et OpenVINO. Cette capacité d'exportation garantit que vos modèles entraînés peuvent fonctionner efficacement sur presque toutes les plateformes matérielles.

En savoir plus sur YOLOv8

Facilité d'utilisation et expérience développeur

La divergence la plus importante entre les deux modèles réside dans leur facilité d'utilisation et l'écosystème qui les entoure.

Les modèles Ultralytics YOLO sont réputés pour leur expérience « zéro à héros ». Grâce à une simple installation PIP, les développeurs ont accès à une puissante CLI et à une API python. Cela réduit considérablement la barrière à l’entrée par rapport aux référentiels de recherche qui nécessitent souvent des configurations d’environnement complexes.

Efficacité de l'entraînement

Les modèles Ultralytics sont conçus pour l'efficacité de l'entraînement. Ils utilisent efficacement la mémoire CUDA, ce qui permet d'augmenter la taille des lots ou de s'entraîner sur des GPU grand public. De plus, la disponibilité de poids pré-entraînés de haute qualité accélère la convergence, ce qui permet d'économiser un temps de calcul et une énergie précieux.

Voici un exemple complet et exécutable de la façon de charger et de prédire avec un modèle YOLOv8 en seulement trois lignes de Python :

from ultralytics import YOLO

# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")

# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
for result in results:
    result.show()

En revanche, bien que DAMO-YOLO offre de solides performances, il nécessite généralement plus de configuration manuelle et de familiarité avec les frameworks axés sur la recherche, ce qui le rend moins accessible pour le prototypage rapide ou l'intégration commerciale.

Conclusion : Choisir le bon outil

DAMO-YOLO et YOLOv8 sont tous deux des réalisations exceptionnelles dans le domaine de la vision par ordinateur.

DAMO-YOLO est un excellent choix pour les chercheurs intéressés par la recherche d'architecture neuronale et ceux qui déploient spécifiquement sur du matériel où sa colonne vertébrale personnalisée est entièrement optimisée.

Cependant, pour la plupart des développeurs, des chercheurs et des entreprises, Ultralytics YOLOv8 (et le plus récent YOLO11) offre une proposition de valeur supérieure :

  1. Polyvalence : Capable de gérer la Détection, la Segmentation, la Pose et l’OBB dans un seul framework.
  2. Facilité d'utilisation : Documentation inégalée, API simple et support communautaire robuste.
  3. Déploiement : La prise en charge étendue des modes d’exportation couvre tous les domaines, des téléphones mobiles aux serveurs cloud.
  4. Équilibre des performances : Excellent rapport précision/vitesse, en particulier sur les appareils CPU et Edge.

Pour ceux qui cherchent à rester à la pointe de la technologie, nous recommandons également de consulter YOLO11, qui s'appuie sur les forces de YOLOv8 avec une efficacité et une précision encore plus grandes.

Explorer d’autres comparaisons de modèles

Pour vous aider à prendre la décision la plus éclairée pour vos projets de vision par ordinateur, explorez ces comparaisons détaillées supplémentaires :


Commentaires