Passer au contenu

YOLOv7 vs. DAMO-YOLO : Une comparaison technique détaillée

Le choix de l'architecture de détection d'objets optimale est une décision cruciale dans le développement de la vision par ordinateur, équilibrant les demandes concurrentes de la latence d'inférence, de la précision et de l'allocation des ressources computationnelles. Cette analyse technique compare YOLOv7 et DAMO-YOLO, deux modèles influents publiés fin 2022 qui ont repoussé les limites de la détection en temps réel. Nous examinons leurs innovations architecturales uniques, leurs benchmarks de performance et leur adéquation à divers scénarios de déploiement pour vous aider à naviguer dans votre processus de sélection.

YOLOv7 : Optimisation de l'entraînement pour une précision en temps réel

YOLOv7 a marqué une évolution significative dans la famille YOLO, en privilégiant l'efficacité architecturale et les stratégies d'entraînement avancées pour améliorer les performances sans gonfler les coûts d'inférence. Développé par les auteurs originaux de Scaled-YOLOv4, il a introduit des méthodes pour permettre au réseau d'apprendre plus efficacement pendant la phase d'entraînement.

Auteurs: Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Date: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docs:https://docs.ultralytics.com/models/yolov7/

Innovations architecturales

Le cœur de YOLOv7 comprend le Extended Efficient Layer Aggregation Network (E-ELAN). Cette architecture permet au modèle d'apprendre diverses caractéristiques en contrôlant les chemins de gradient les plus courts et les plus longs, améliorant ainsi la convergence sans perturber le flux de gradient existant. De plus, YOLOv7 utilise des "trainable bag-of-freebies", un ensemble de techniques d'optimisation appliquées pendant le traitement des données d'entraînement qui n'affectent pas la structure du modèle pendant le déploiement. Ceux-ci incluent la re-paramétrisation du modèle et les têtes auxiliaires pour une supervision approfondie, garantissant que le backbone capture des caractéristiques robustes.

Bag-of-Freebies

Le terme « bag-of-freebies » fait référence à des méthodes qui augmentent la complexité de l'entraînement pour améliorer la précision, mais qui n'entraînent aucun coût pendant l'inférence en temps réel. Cette philosophie garantit que le modèle exporté final reste léger.

Points forts et faiblesses

YOLOv7 est réputé pour son excellent équilibre sur le benchmark MS COCO, offrant une précision moyenne (mAP) élevée pour sa taille. Sa principale force réside dans les tâches à haute résolution où la précision est primordiale. Cependant, la complexité de l'architecture peut rendre difficile sa modification pour la recherche personnalisée. De plus, bien que l'inférence soit efficace, le processus d'entraînement est gourmand en ressources, nécessitant une mémoire GPU substantielle par rapport aux architectures plus récentes.

En savoir plus sur YOLOv7

DAMO-YOLO : Recherche d'architecture neuronale pour la périphérie

DAMO-YOLO, issu de l'équipe de recherche d'Alibaba, adopte une approche différente en tirant parti de la recherche d'architecture neuronale (NAS) pour découvrir automatiquement des structures de réseau efficaces, conçues pour les environnements à faible latence.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 2022-11-23
Arxiv :https://arxiv.org/abs/2211.15444
GitHub :https://github.com/tinyvision/DAMO-YOLO

Innovations architecturales

DAMO-YOLO introduit MAE-NAS, une méthode pour générer un backbone appelé GiraffeNet, qui maximise le débit sous des contraintes de latence spécifiques. Ceci est complété par ZeroHead, une tête de détection légère qui découple les tâches de classification et de régression tout en supprimant les paramètres lourds, réduisant considérablement la taille du modèle. L'architecture utilise également un neck efficace connu sous le nom de RepGFPN (Generalized Feature Pyramid Network) pour la fusion de caractéristiques multi-échelles et aligne les scores de classification avec la précision de localisation en utilisant AlignedOTA pour l'attribution des labels.

Points forts et faiblesses

DAMO-YOLO excelle dans les scénarios d'IA en périphérie. Ses variantes plus petites (Tiny/Small) offrent des vitesses impressionnantes, ce qui les rend adaptées aux appareils mobiles et aux applications IoT. L'utilisation de NAS garantit que l'architecture est mathématiquement optimisée pour l'efficacité. Inversement, les plus grands modèles DAMO-YOLO sont parfois à la traîne par rapport aux modèles YOLOv7 de niveau supérieur en termes de précision pure. De plus, en tant que projet axé sur la recherche, il manque l'écosystème étendu et le support d'outillage que l'on trouve dans les frameworks plus larges.

En savoir plus sur DAMO-YOLO

Comparaison des métriques de performance

Le tableau suivant met en évidence les compromis en matière de performances. YOLOv7 atteint généralement une plus grande précision (mAP) au prix d'une complexité de calcul plus élevée (FLOPs), tandis que DAMO-YOLO privilégie la vitesse et l'efficacité des paramètres, en particulier dans ses configurations plus petites.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Applications concrètes

Le choix entre ces modèles dépend souvent du matériel de déploiement et des tâches de vision par ordinateur spécifiques requises.

  • Sécurité et analytique haut de gamme (YOLOv7) : Pour les applications exécutées sur des serveurs puissants où chaque point de pourcentage de précision compte, comme les systèmes d’alarme de sécurité ou la gestion du trafic détaillée, YOLOv7 est un candidat solide. Sa capacité à résoudre les détails fins le rend approprié pour la détection de petits objets dans les flux vidéo haute résolution.
  • Appareils Edge et robotique (DAMO-YOLO) : Dans les scénarios avec des budgets de latence stricts, tels que la robotique autonome ou les applications mobiles, l’architecture légère de DAMO-YOLO brille. Le faible nombre de paramètres réduit la pression sur la bande passante de la mémoire, ce qui est essentiel pour les appareils alimentés par batterie effectuant la détection d’objets.

L'avantage Ultralytics : pourquoi moderniser ?

Bien que YOLOv7 et DAMO-YOLO soient des modèles performants, le paysage de l'IA progresse rapidement. Les développeurs et les chercheurs à la recherche d'une solution pérenne, efficace et conviviale devraient envisager l'écosystème Ultralytics, en particulier YOLO11. La mise à niveau vers les modèles Ultralytics modernes offre plusieurs avantages distincts:

1. Facilité d'utilisation simplifiée

Les modèles Ultralytics donnent la priorité à l'expérience des développeurs. Contrairement aux référentiels de recherche qui nécessitent souvent des configurations d'environnement complexes et l'exécution manuelle de scripts, Ultralytics fournit une API et une CLI Python unifiées. Vous pouvez former, valider et déployer des modèles en quelques lignes de code seulement.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

2. Polyvalence complète

YOLOv7 et DAMO-YOLO sont principalement conçus pour la détection de boîtes englobantes. En revanche, YOLO11 prend en charge un large éventail de tâches en mode natif au sein du même framework, notamment la segmentation d’instance, l’estimation de pose, la détection d’objets orientés (OBB) et la classification d’images. Cela vous permet de résoudre des problèmes complexes, comme l’analyse de la posture humaine dans le sport, sans changer de bibliothèques.

3. Performance et efficacité supérieures

YOLO11 s'appuie sur des années de R&D pour offrir une précision de pointe avec une surcharge de calcul considérablement réduite. Il utilise une tête de détection sans ancrage et des opérations backend optimisées, ce qui réduit l'utilisation de la mémoire pendant l'entraînement et l'inférence par rapport aux anciennes versions de YOLO ou aux modèles basés sur des transformateurs comme RT-DETR. Cette efficacité se traduit par des coûts d'informatique en nuage inférieurs et un traitement plus rapide sur le matériel périphérique.

4. Écosystème robuste et support

L'adoption d'un modèle Ultralytics vous connecte à un écosystème prospère et bien maintenu. Avec des mises à jour fréquentes, une documentation complète et des canaux communautaires actifs, vous n'êtes jamais laissé à déboguer du code non pris en charge. De plus, des intégrations transparentes avec des outils tels que Ultralytics HUB facilitent le déploiement de modèles et la gestion des ensembles de données.

En savoir plus sur YOLO11

Conclusion

YOLOv7 et DAMO-YOLO ont tous deux contribué de manière significative au domaine de la détection d'objets en 2022. YOLOv7 a démontré comment les techniques d'optimisation entraînables pouvaient améliorer la précision, tandis que DAMO-YOLO a mis en évidence la puissance de la recherche d'architecture neuronale pour créer des modèles efficaces et prêts pour la périphérie.

Cependant, pour les environnements de production actuels, YOLO11 représente le summum de la technologie de vision IA. En combinant la vitesse de DAMO-YOLO, la précision de YOLOv7 et la convivialité inégalée du framework Ultralytics, YOLO11 offre une solution polyvalente qui accélère les cycles de développement et améliore les performances des applications. Que vous construisiez une infrastructure de ville intelligente ou que vous optimisiez le contrôle de la qualité de la fabrication, les modèles Ultralytics offrent la fiabilité et l'efficacité nécessaires au succès.

Explorer d'autres modèles

Si vous souhaitez explorer d'autres options dans le paysage de la vision par ordinateur, considérez ces modèles :

  • Ultralytics YOLOv8: Le prédécesseur de YOLO11, connu pour sa robustesse et sa large adoption dans l'industrie.
  • YOLOv10: Un détecteur en temps réel axé sur l'entraînement sans NMS pour une latence réduite.
  • YOLOv9 : Introduit l'information de gradient programmable (PGI) pour réduire la perte d'information dans les réseaux profonds.
  • RT-DETR: Un détecteur basé sur les transformeurs qui offre une haute précision, mais nécessite généralement plus de mémoire GPU.
  • YOLOv6: Un autre modèle axé sur l'efficacité et optimisé pour les applications industrielles.

Commentaires