Passer au contenu

YOLO11 YOLO: évolution des architectures de détection d'objets en temps réel

La recherche en vision par ordinateur évolue à un rythme effréné, avec de nouvelles architectures qui redéfinissent constamment les limites de la vitesse et de la précision. Deux contributions importantes dans ce domaine sont YOLO11Ultralytics YOLO d'Alibaba Group. Si les deux modèles visent à résoudre le problème de la détection d'objets en temps réel, ils abordent cette question avec des philosophies différentes : l'un se concentre sur une utilisation et un déploiement fluides, tandis que l'autre privilégie une recherche rigoureuse d'architecture neuronale (NAS) et l'exploration académique.

Ce guide fournit une comparaison technique approfondie afin d'aider les développeurs, les chercheurs et les ingénieurs à choisir l'outil adapté à leurs applications spécifiques en matière de vision par ordinateur.

Aperçus des modèles

YOLO11

YOLO11 représente l'aboutissement d'années d'améliorations itératives apportées à la famille YOLO You Only Look Once). Lancé fin 2024 par Ultralytics, il s'appuie sur le succès de YOLOv8 en introduisant des améliorations architecturales qui augmentent l'efficacité de l'extraction des caractéristiques tout en conservant la philosophie « bag-of-freebies » (sac de cadeaux), offrant ainsi des performances élevées sans nécessiter de configurations d'entraînement complexes.

En savoir plus sur YOLO11

DAMO-YOLO

YOLO est un modèle axé sur la recherche développé par la DAMO Academy (Alibaba Group). Il introduit plusieurs technologies novatrices, notamment la recherche d'architecture neuronale (NAS) pour l'optimisation de la structure, le Reparameterized Generalized-FPN (RepGFPN) efficace et un cadre de formation basé sur la distillation. Il met fortement l'accent sur l'optimisation du compromis entre latence et précision grâce à la recherche automatisée de conception.

Comparaison technique

Architecture et philosophie de conception

La différence fondamentale entre ces deux modèles réside dans leurs origines conceptuelles. YOLO11 est conçu à la main pour offrir polyvalence et facilité d'utilisation. Il utilise une structure C3k2 (Cross Stage Partial) raffinée et une detect améliorée qui équilibre le nombre de paramètres et la représentation des caractéristiques. Cette conception garantit la robustesse du modèle pour une grande variété de tâches, non seulement la détection d'objets, mais aussi la segmentation d'instances, l'estimation de poses, la classification et les tâches OBB (Oriented Bounding Box).

YOLO, en revanche, utilise MAE-NAS (Method for Automated Efficient Neural Architecture Search) pour découvrir sa structure principale. Il en résulte une topologie de réseau qui est théoriquement optimale pour des contraintes matérielles spécifiques, mais qui peut être opaque et difficile à modifier manuellement. De plus,YOLO fortement sur un pipeline d'entraînement complexe impliquant une conception « ZeroHead » et une distillation à partir de modèles enseignants plus grands, ce qui augmente la complexité de l'entraînement sur des ensembles de données personnalisés.

Mesures de performance

Le tableau ci-dessous compare les performances de différents modèles à différentes échelles. YOLO11 une efficacité supérieure, en particulier dans les scénarios à faible latence (modèles N/S/M), tout en conservant une précision de pointe.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Analyse des performances

YOLO11 obtient systématiquement mAP plus élevés avec moins de paramètres queYOLO équivalentesYOLO . Par exemple, YOLO11 surpasse DAMO-YOLO de 1,0 mAP utilisant près de 40 % de paramètres en moins (9,4 millions contre 16,3 millions). Cette efficacité se traduit directement par une utilisation moindre de la mémoire et une inférence plus rapide sur les appareils périphériques.

Efficacité et facilité d'utilisation de la formation

YOLO11 brille par son accessibilité. Intégré dans le ultralytics Python , l'entraînement d'un modèle est aussi simple que de définir un fichier YAML contenant un ensemble de données et d'exécuter une seule commande. L'écosystème gère le réglage des hyperparamètres, l'augmentation des données et suivi des expériences automatiquement.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

À l'inverse, YOLO utilise un processus d'entraînement en plusieurs étapes. Il nécessite souvent d'entraîner d'abord un modèle « enseignant » lourd afin de distiller les connaissances dans un modèle « élève » plus petit. Cela augmente considérablement le temps GPU et la mémoire VRAM nécessaires à l'entraînement. Bien que cette méthode soit efficace pour tirer le maximum de précision des benchmarks académiques, sa complexité peut constituer un frein pour les équipes d'ingénieurs agiles.

Cas d'utilisation idéaux

Pourquoi choisir les modèles Ultralytics ?

Pour la grande majorité des applications concrètes, YOLO11 (et le plus récent YOLO26) offre le meilleur équilibre entre performances et praticité.

  • Facilité d'utilisation : Ultralytics est conçue pour satisfaire les développeurs. Des guides complets et une CLI unifiée CLI le passage du prototype à la production.
  • Écosystème bien entretenu : contrairement à de nombreux référentiels de recherche qui deviennent inactifs après publication, Ultralytics sont activement maintenus. Des mises à jour régulières garantissent la compatibilité avec les dernières versions de PyTorch , CUDA et aux formats d'exportation tels que OpenVINO et CoreML.
  • Polyvalence : alors queYOLO strictement un détecteur d'objets, YOLO11 nativement l'estimation de pose (points clés) et la segmentation d'instances. Cela permet à une seule famille d'architectures de gérer diverses tâches de vision dans des pipelines complexes.
  • Efficacité mémoire :YOLO Ultralytics sont optimisés pour une faible utilisation de la mémoire VRAM. Ils évitent la lourde charge mémoire souvent associée aux architectures basées sur des transformateurs ou aux pipelines de distillation complexes, ce qui les rend entraînables sur du matériel grand public.

Quand utiliserYOLO

  • Recherche universitaire : si votre objectif est d'étudier la recherche d'architecture neuronale (NAS) ou la reproduction de techniques spécifiques de paramétrage de représentation présentées dans YOLO .
  • Contraintes matérielles spécifiques : si vous disposez des ressources nécessaires pour effectuer des recherches approfondies dans le NAS afin de trouver une infrastructure parfaitement adaptée à un accélérateur matériel très spécifique et non standard.

Applications concrètes

YOLO11 est largement utilisé dans tous les secteurs grâce à sa robustesse :

  • Commerce intelligent :analyse du comportement des clients et gestion automatisée des stocks à l'aide de la détection d'objets.
  • Santé :détection des tumeurs dans l'imagerie médicale, où la vitesse permet un dépistage rapide.
  • Fabrication : systèmesde contrôle qualité qui nécessitent une inférence à grande vitesse sur des appareils périphériques afin de detect sur les chaînes de montage.

Aller de l'avant : l'avantage YOLO26

Bien que YOLO11 un excellent modèle, le domaine a continué à progresser. Pour les nouveaux projets démarrant en 2026, YOLO26 est le choix recommandé.

En savoir plus sur YOLO26

YOLO26 introduit plusieurs fonctionnalités révolutionnaires :

  • NMS de bout en bout : en éliminant la suppression non maximale (NMS), YOLO26 simplifie la logique de déploiement et réduit la variabilité de la latence, un concept lancé dans YOLOv10.
  • MuSGD Optimizer : un optimiseur hybride inspiré de la formation LLM qui garantit une convergence stable.
  • Détection améliorée des petits objets : les fonctions de perte telles que ProgLoss et STAL améliorent considérablement les performances sur les petites cibles, ce qui est crucial pour l'imagerie par drone et les capteurs IoT.

Conclusion

Les deux YOLO11 et YOLO ont tous deux contribué de manière significative à l'avancement de la détection d'objets.YOLO le potentiel de la recherche automatisée d'architectures. Cependant, YOLO11 reste le choix le plus judicieux pour les applications pratiques en raison de son flux de travail simplifié, de sa prise en charge étendue des tâches et de son utilisation efficace des paramètres.

Pour les développeurs qui souhaitent rester à la pointe de la technologie, la migration vers YOLO26 offre encore plus de rapidité et de simplicité, garantissant ainsi la pérennité de vos projets de vision par ordinateur.

Commencez votre projet

Prêt à commencer la formation ? Rendez-vous sur la Ultralytics pour annoter, former et déployer vos modèles en quelques minutes sans avoir à gérer une infrastructure complexe.


Commentaires