YOLO11 YOLO: comparaison des détecteurs d'objets de nouvelle génération

Le choix de l'architecture optimale est une étape cruciale dans tout projet de vision par ordinateur. Ce guide technique propose une comparaison complète entre deux modèles puissants de détection d'objets : Ultralytics YOLO11 et DAMO-YOLO. Nous examinerons leurs innovations architecturales, leurs paradigmes d'entraînement et leur applicabilité dans le monde réel afin de vous aider à sélectionner le meilleur outil pour vos besoins de déploiement.

Aperçus des modèles

Ultralytics YOLO11

Développé par l'équipe d'Ultralytics, YOLO11 représente une itération hautement raffinée de la famille YOLO, optimisant fortement à la fois la précision et l'efficacité. Il est conçu pour les chercheurs et les ingénieurs à la recherche d'un écosystème unifié, prêt pour la production, qui s'étend de la gestion des jeux de données au déploiement en périphérie.

Auteurs : Glenn Jocher et Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :https://github.com/ultralytics/ultralytics
Documentation :https://docs.ultralytics.com/models/YOLO11/

En savoir plus sur YOLO11

YOLO11 par sa polyvalence. Alors que de nombreux modèles traditionnels se concentrent uniquement sur les boîtes englobantes, YOLO11 prend en charge YOLO11 la détection d'objets, la segmentation d'instances, la classification d'images et l'estimation de poses. Cette capacité multimodale permet aux développeurs de consolider leurs pipelines d'IA visuelle sous un cadre unique et bien entretenu.

DAMO-YOLO

DAMO-YOLO a été développé par des chercheurs du groupe Alibaba. Il exploite la recherche d'architecture neuronale (NAS) pour découvrir des architectures dorsales très efficaces, conçues pour l'inférence en temps réel sur les GPU et autres accélérateurs.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 2022-11-23
Arxiv :https://arxiv.org/abs/2211.15444v2
GitHub :https://github.com/tinyvision/DAMO-YOLO
Docs :https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

En savoir plus sur DAMO-YOLO

La philosophie fondamentale deYOLO autour de la rep-paramétrisation et de la recherche automatisée. En utilisant MAE-NAS (Multi-Objective Evolutionary Neural Architecture Search), les auteurs ont conçu une structure personnalisée qui augmente considérablement les vitesses d'inférence sur du matériel spécialisé. Elle intègre également un cou fortement optimisé appelé Efficient RepGFPN et une structure ZeroHead simplifiée afin de minimiser la latence.

Autres modèles à considérer

Lorsque vous comparez YOLO11 YOLO, pensez à jeter un œil au tout nouveau Ultralytics . Il introduit une inférence native de bout en bout NMS et offre CPU jusqu'à 43 % plus rapides. Vous pouvez également explorer les comparaisons impliquant YOLOX ou YOLOv8.

Comparaison des performances et de l'architecture

Il est essentiel de comprendre les compromis en matière de performances lors du déploiement d'applications d'IA en périphérie. Le tableau ci-dessous présente les indicateurs clés tels que la précision moyenne (mAP), la latence et la taille de calcul.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Plongée architecturale en profondeur

YOLO11 repose sur un backbone hautement efficace et conçu sur mesure qui équilibre parfaitement le nombre de paramètres et la capacité de représentation. Il est optimisé pour fonctionner parfaitement sur une large gamme de matériel, excellant nativement avec une utilisation minimale de la mémoire CUDA pendant l'entraînement et l'inférence. Cela en fait une option de choix pour le matériel grand public standard ou les appareils IoT à ressources limitées.

Inversement, les backbones générés par MAE-NAS de DAMO-YOLO sont finement optimisés pour les environnements GPU à haut débit. Son RepGFPN (Generalized Feature Pyramid Network) efficace intègre agressivement plusieurs échelles. Cependant, bien que la rep-paramétrisation accélère l'inférence, elle peut compliquer le processus de déploiement si votre pile matérielle ne prend pas explicitement bien en charge ces opérations.

Facilité d'utilisation et efficacité de la formation

Lorsque l'on tient compte du temps de développement, la facilité d'utilisation d'un modèle devient tout aussi importante que ses performances brutes.

YOLO11 repose largement sur le principe de l'accessibilité pour les développeurs. Le complet ultralytics Le package évite les tâches fastidieuses d'analyse, d'augmentation et de réglage des hyperparamètres des ensembles de données. Exportation des modèles vers des formats de production tels que ONNX, TensorRT, et OpenVINO ne nécessite qu'une seule commande.

from ultralytics import YOLO

# Initialize YOLO11 object detection model
model = YOLO("yolo11s.pt")

# Train the model with mixed precision on COCO8
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for edge deployment
model.export(format="engine", device=0)

DAMO-YOLO, issu d'un milieu académique et de recherche intensif, présente une courbe d'apprentissage plus raide. Atteindre sa précision maximale implique souvent des pipelines complexes de distillation des connaissances, ce qui signifie qu'il faut d'abord entraîner un réseau "enseignant" massif avant de transmettre ces connaissances à un réseau "étudiant" plus petit. Cela augmente considérablement la surcharge de calcul GPU requise et la durée globale de l'entraînement par rapport aux boucles d'entraînement allégées des modèles Ultralytics.

Cas d'utilisation et recommandations

Le choix entre YOLO11 et DAMO-YOLO dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.

Quand choisir YOLO11

YOLO11 un excellent choix pour :

Déploiement Edge en production : Applications commerciales sur des appareils comme le Raspberry Pi ou le NVIDIA Jetson, où la fiabilité et une maintenance active sont primordiales.
Applications de vision multi-tâches : Projets nécessitant la détection, la segmentation, l'estimation de pose et les OBB au sein d'un cadre unifié unique.
Prototypage et Déploiement Rapides : Les équipes qui ont besoin de passer rapidement de la collecte de données à la production en utilisant l'API Python rationalisée d'Ultralytics.

Quand choisir DAMO-YOLO

DAMO-YOLO est recommandé pour :

Analyse vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit par lot de 1 est la métrique principale.
Lignes de Fabrication Industrielles : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, telles que l'inspection qualité en temps réel sur les lignes d'assemblage.
Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Applications et cas d'utilisation réels

Systèmes autonomes et Drones

Pour l'imagerie aérienne et les déploiements de drones, YOLO11 offre un équilibre de performances incroyablement favorable. La détection de petits objets est un obstacle majeur dans l'analyse des données issues des drones, mais YOLO11 nativement différentes échelles dès son installation. De plus, grâce à ses faibles besoins en mémoire, les variantes YOLO11 et Small peuvent fonctionner directement sur des processeurs ou des processeurs neuronaux légers intégrés au drone.

Automatisation industrielle et contrôle qualité

Dans les usines intelligentes, la latence est primordiale. Si YOLO offre des vitesses d'inférence robustes sur les GPU de niveau serveur grâce à son cou RepGFPN, son intégration rigide peut s'avérer excessive. YOLO11 constitue YOLO11 une alternative supérieure pour le contrôle qualité automatisé grâce à ses API de suivi simples et à sa capacité à passer de manière transparente de la détection pure à des tâches de bounding box orienté (OBB) si les défauts nécessitent une reconnaissance des limites angulaires.

Santé intelligente et imagerie médicale

Les ensembles de données d'imagerie médicale sont souvent relativement petits, et il est difficile d'éviter le surapprentissage. Les techniques d'augmentation active, combinées aux pipelines d'apprentissage par transfert standard fournis par l'écosystème bien entretenu Ultralytics, aident les cliniciens et les développeurs à déployer de manière fiable des modèles précis de détection des tumeurs. Le vaste soutien de la communauté garantit que les problèmes dans des domaines complexes tels que les soins de santé sont rapidement résolus.

Embrasser l'avenir avec YOLO26

Si vous développez une nouvelle application à partir de zéro, pensez à explorer YOLO26. Lancé début 2026, il utilise un optimiseur MuSGD et des fonctions ProgLoss, offrant une précision exceptionnelle sur les petits objets et fournissant un pipeline complet NMS prêt à l'emploi !

En fin de compte, siYOLO une démonstration puissante de la recherche d'architecture neuronale, YOLO11 et la Ultralytics élargie restent la recommandation définitive pour les tâches de vision par ordinateur dans le monde réel, en privilégiant un déploiement rapide, la facilité d'utilisation pour les développeurs et des performances multimodales de premier ordre.