Passer au contenu

YOLO YOLO11: une analyse approfondie de la détection d'objets en temps réel

Le domaine de la détection d'objets est en constante évolution, les chercheurs et les ingénieurs s'efforçant de trouver un équilibre entre les exigences concurrentes de précision, de vitesse d'inférence et d'efficacité computationnelle. Deux architectures notables ont vu le jour dans ce domaine :YOLO, développée par Alibaba Group, et YOLO11, une puissante itération d'Ultralytics.

Alors queYOLO des concepts novateurs dans la recherche d'architecture neuronale (NAS) et la reparamétrisation lourde, YOLO11 une approche raffinée, centrée sur l'utilisateur, axée sur la maturité de production et la polyvalence. Cette comparaison explore les nuances architecturales, les mesures de performance et les considérations pratiques de déploiement pour les deux modèles.

Présentation de DAMO-YOLO

YOLO un détecteur d'objets haute performance proposé par les chercheurs de la DAMO Academy d'Alibaba. Il se distingue par l'utilisation de la recherche d'architecture neuronale (NAS) pour concevoir automatiquement des structures efficaces adaptées à des contraintes spécifiques.

L'architecture intègre un réseau RepGFPN (Reparameterized Generalized Feature Pyramid Network) spécialisé pour la fusion des caractéristiques et une tête légère baptisée « ZeroHead ». L'un des éléments clés de sa stratégie d'entraînement est « AlignedOTA », une méthode d'attribution dynamique d'étiquettes conçue pour résoudre les problèmes de désalignement entre les tâches de classification et de régression. De plus, elle s'appuie fortement sur la distillation à partir de modèles « enseignants » plus grands afin d'améliorer les performances des variantes plus petites.

YOLO11

YOLO11 sur l'héritage de laYOLO Ultralytics YOLO , en affinant la conception du réseau CSP (Cross Stage Partial) afin d'optimiser l'efficacité des paramètres. Contrairement aux modèles axés sur la recherche qui peuvent nécessiter des configurations complexes, YOLO11 conçu pour une application immédiate dans le monde réel, offrant une expérience « clé en main ».

YOLO11 la conception du bloc C3k2 et introduit des modules C2PSA (Cross Stage Partial with Spatial Attention) afin de mieux saisir le contexte global. Il est entièrement intégré à Ultralytics , prenant en charge la formation, la validation et le déploiement transparents sur divers matériels, notamment les processeurs, les cartes graphiques et les appareils périphériques.

En savoir plus sur YOLO11

Comparaison technique

Le tableau suivant met en évidence les différences de performances entre les modèles. Alors queYOLO de solides performances théoriques, YOLO11 offre YOLO11 un profil plus équilibré en termes de vitesse et de précision dans les scénarios pratiques, en particulier si l'on tient compte de la charge supplémentaire liée à l'exportation et au déploiement.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Architecture et méthodologies de formation

YOLO utilise MAE-NAS (Masked Autoencoder Neural Architecture Search) pour découvrir les structures de base optimales dans le cadre de contraintes de latence spécifiques. Il en résulte des modèles qui sont théoriquement efficaces, mais qui peuvent être difficiles à modifier ou à affiner sans le pipeline NAS d'origine. Le processus d'apprentissage est complexe et nécessite souvent une approche en deux étapes, dans laquelle un modèle enseignant lourd est d'abord formé afin de distiller les connaissances dans le modèle cible plus petit.

YOLO11, à l'inverse, utilise une architecture artisanale mais hautement optimisée qui équilibre la profondeur, la largeur et la résolution. Le pipeline de formation est rationalisé, utilisant des augmentations standard et des fonctions de perte qui ne nécessitent pas de modèles enseignants auxiliaires ni de phases de distillation complexes. Cela rend YOLO11 facile à former sur des ensembles de données personnalisés sans expertise approfondie du domaine.

Avertissement : complexité contre facilité d'utilisation

Alors que l'approche basée sur le NASYOLO produit des structures mathématiquement optimales, la Ultralytics privilégie la facilité d'utilisation. Un modèle tel que YOLO11 être entraîné à l'aide d'une seule CLI . yolo train, alors que les référentiels de recherche nécessitent souvent des fichiers de configuration complexes et une préparation en plusieurs étapes.

L'avantage Ultralytics

Le choix d'un modèle va au-delà mAP simples mAP ; il implique l'ensemble du cycle de vie d'un projet d'apprentissage automatique. Ultralytics tels que YOLO11et le très avancé YOLO26offrent des avantages distincts qui simplifient le développement.

Facilité d'utilisation et écosystème inégalés

Ultralytics est conçu pour réduire les frictions. La formation d'un YOLO11 nécessite un minimum de code, et Python est cohérente pour toutes les versions du modèle. Cela contraste avecYOLO, où les utilisateurs naviguent souvent dans une base de code de niveau recherche qui peut manquer de documentation robuste ou de maintenance à long terme.

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)

De plus, la Ultralytics offre une interface fluide pour la gestion des ensembles de données, l'étiquetage et la formation dans le cloud, démocratisant ainsi efficacement l'accès à des capacités avancées en matière de vision par ordinateur.

Polyvalence dans toutes les tâches

L'un des arguments les plus convaincants en faveur de l'adoption du Ultralytics est sa polyvalence. Alors queYOLO principalement un détecteur d'objets, YOLO11 un large éventail de tâches de vision par ordinateur au sein d'une même base de code :

Équilibre des performances et efficacité de la mémoire

Ultralytics sont réputés pour leur utilisation efficace des ressources. YOLO11 nécessite YOLO11 moins CUDA pendant l'entraînement que les architectures à forte utilisation de transformateurs ou les modèles complexes dérivés du NAS. Cela permet aux développeurs d'entraîner des lots plus importants sur des GPU grand public, accélérant ainsi le cycle d'itération.

Pour l'inférence, YOLO11 sont optimisés pour l'exportation vers des formats tels que ONNX, TensorRTet CoreML. Cela garantit que la grande précision observée dans les benchmarks se traduit par des performances en temps réel sur les appareils périphériques, des modules NVIDIA aux Raspberry Pi.

Perspectives : La puissance de YOLO26

Pour les développeurs à la recherche de performances optimales, Ultralytics lancé YOLO26. Ce modèle de nouvelle génération remplace YOLO11 des avancées révolutionnaires :

  • Conception NMS de bout en bout : YOLO26 élimine le post-traitement par suppression non maximale (NMS). Cette approche native de bout en bout simplifie les pipelines de déploiement et réduit la variance de latence, une fonctionnalité explorée pour la première fois dans YOLOv10.
  • Optimiseur MuSGD : inspiré par les innovations dans la formation des grands modèles linguistiques (LLM) (comme Kimi K2 de Moonshot AI), YOLO26 utilise l'optimiseur MuSGD pour une convergence plus rapide et une plus grande stabilité de formation.
  • Optimisation Edge-First : grâce à la suppression de la perte focale de distribution (DFL) et à CPU spécifiques, YOLO26 atteint une inférence jusqu'à 43 % plus rapide sur les CPU, ce qui en fait le choix idéal pour l'informatique de pointe.
  • ProgLoss + STAL : de nouvelles fonctions de perte améliorent la détection des petits objets, une fonctionnalité essentielle pour les applications de drones et d'IoT.

En savoir plus sur YOLO26

Cas d'utilisation idéaux

  • ChoisissezYOLO : vous êtes un chercheur étudiant l'efficacité du NAS dans les infrastructures de vision, ou si vous avez une contrainte matérielle très spécifique qui nécessite une architecture personnalisée et que vous disposez des ressources nécessaires pour gérer un pipeline de distillation complexe.
  • Choisissez YOLO11 : vous avez besoin d'un détecteur robuste et polyvalent qui offre un excellent équilibre entre vitesse et précision. Il est idéal pour les applications commerciales nécessitant un suivi, une formation facile sur des données personnalisées et une large compatibilité avec les plateformes.
  • Choisissez YOLO26 si : vous avez besoin des vitesses d'inférence les plus rapides possibles, en particulier sur les processeurs périphériques, ou si vous devez simplifier votre pile de déploiement en supprimant NMS. C'est le choix recommandé pour les nouveaux projets exigeant une efficacité et une polyvalence de pointe.

Conclusion

YOLO YOLO11 tous deux une contribution significative au domaine de la vision par ordinateur.YOLO le potentiel de la recherche automatisée d'architectures, tandis que YOLO11 l'application pratique de l'apprentissage profond en mettant l'accent sur la facilité d'utilisation et la prise en charge de l'écosystème.

Pour la plupart des développeurs et des entreprises, le Ultralytics , qui s'appuie sur YOLO11 le très innovant YOLO26, offre le chemin le plus direct vers la valeur ajoutée. Grâce à une documentation complète, au soutien actif de la communauté et à des outils tels que la Ultralytics , les utilisateurs peuvent passer du concept au déploiement en toute confiance et rapidement.

Pour ceux qui s'intéressent à d'autres architectures, la Ultralytics fournit également des comparaisons avec des modèles tels que RT-DETR (Real-Time DEtection TRansformer) et YOLOv9, vous garantissant ainsi une vision complète lorsque vous sélectionnez l'outil adapté à vos besoins en matière d'IA visuelle.


Commentaires