YOLOv5 vs YOLO11 : Une comparaison technique complète

Dans le paysage en évolution rapide de la vision par ordinateur, le choix du bon modèle de détection d'objets est essentiel pour la réussite d'un projet. Deux des étapes les plus importantes dans ce domaine sont YOLOv5 et le YOLO11 récemment publié. Alors que YOLOv5 a établi une norme légendaire en matière de facilité d'utilisation et de vitesse, YOLO11 repousse les limites de la précision et de l'efficacité, en tirant parti d'années de recherche et de développement.

Ce guide fournit une analyse technique détaillée de ces deux architectures, aidant les développeurs, les chercheurs et les ingénieurs à prendre des décisions éclairées pour leurs applications d'IA.

Ultralytics YOLOv5 : Le cheval de trait fiable

Lancé en 2020, YOLOv5 a révolutionné l'accessibilité de la détection d'objets. Il a été le premier modèle "You Only Look Once" implémenté nativement en PyTorch, ce qui a rendu la formation et le déploiement incroyablement faciles pour les développeurs. Son équilibre entre vitesse et précision en a fait le choix idéal pour tout, de l'inspection industrielle aux véhicules autonomes.

Détails techniques :

Auteurs : Glenn Jocher
Organisation :Ultralytics
Date : 2020-06-26
GitHub :https://github.com/ultralytics/yolov5
Documentation :https://docs.ultralytics.com/models/YOLOv5/

Principales caractéristiques et architecture

YOLOv5 utilise une architecture basée sur des ancres. Il a introduit un backbone CSPDarknet, qui a considérablement amélioré le flux de gradient et réduit le coût de calcul par rapport aux itérations précédentes. Le modèle utilise un neck de réseau d'agrégation de chemins (PANet) pour améliorer le flux d'informations et intègre l'augmentation des données Mosaic pendant l'entraînement, une technique qui est devenue une norme pour améliorer la robustesse du modèle contre les objets plus petits.

Points forts

YOLOv5 est réputé pour sa stabilité et sa maturité. Avec des années de tests communautaires, l'écosystème de tutoriels, d'intégrations tierces et de guides de déploiement est vaste. C'est un excellent choix pour les systèmes existants ou les appareils périphériques où des optimisations matérielles spécifiques pour son architecture sont déjà en place.

En savoir plus sur YOLOv5

Ultralytics YOLO11 : L’évolution à la pointe de la technologie

Prévu pour fin 2024, YOLO11 représente la pointe de l'IA de vision. Il s'appuie sur les leçons tirées de YOLOv5 et YOLOv8 pour fournir un modèle plus rapide, plus précis et plus efficace sur le plan du calcul.

Détails techniques :

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :https://github.com/ultralytics/ultralytics
Documentation :https://docs.ultralytics.com/models/YOLO11/

Architecture et principales fonctionnalités

YOLO11 introduit des améliorations architecturales significatives, notamment le bloc C3k2 et les modules C2PSA (Cross-Stage Partial with Spatial Attention). Contrairement à YOLOv5, YOLO11 utilise une tête de détection sans ancres, ce qui simplifie le processus d'entraînement en éliminant le besoin de calculer manuellement les boîtes d'ancrage. Ce changement de conception améliore la généralisation et permet au modèle de mieux s'adapter à divers ensembles de données.

Polyvalence inégalée

L'une des caractéristiques déterminantes de YOLO11 est sa prise en charge native de plusieurs tâches de vision par ordinateur dans un seul framework. Alors que YOLOv5 se concentrait principalement sur la détection (avec une prise en charge ultérieure de la segmentation), YOLO11 a été conçu dès le départ pour gérer :

Cette polyvalence permet aux développeurs de s'attaquer à des problèmes complexes de robotique et d'analyse sans changer de framework.

En savoir plus sur YOLO11

Comparaison des performances

La transition de YOLOv5 à YOLO11 entraîne des gains de performance substantiels. Les métriques démontrent que YOLO11 offre un compromis supérieur entre la vitesse et la précision.

Précision vs. Efficacité

YOLO11 atteint constamment une précision moyenne (mAP) plus élevée sur l'ensemble de données COCO par rapport aux modèles YOLOv5 de taille similaire. Par exemple, le modèle YOLO11m surpasse le YOLOv5x beaucoup plus grand en précision (51,5 contre 50,7 mAP) tout en fonctionnant avec une fraction des paramètres (20,1 M contre 97,2 M). Cette réduction drastique de la taille du modèle se traduit par des besoins en mémoire inférieurs pendant l'entraînement et l'inférence, un facteur essentiel pour le déploiement sur du matériel Edge AI aux ressources limitées.

Vitesse d'inférence

Grâce à des choix architecturaux optimisés, YOLO11 excelle en termes de vitesses d'inférence sur le CPU. Le modèle YOLO11n crée une nouvelle référence pour les applications en temps réel, atteignant seulement 56,1 ms sur le CPU avec ONNX, ce qui est considérablement plus rapide que son prédécesseur.

Efficacité de la mémoire

Les modèles Ultralytics YOLO11 sont conçus pour une utilisation optimale de la mémoire. Comparé aux détecteurs basés sur des transformeurs comme RT-DETR, YOLO11 nécessite beaucoup moins de mémoire CUDA pendant l'entraînement, ce qui le rend accessible aux développeurs avec des GPU grand public standard.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Entraînement et expérience développeur

Les deux modèles bénéficient de l'écosystème Ultralytics complet, connu pour sa "facilité d'utilisation".

Intégration transparente

YOLO11 est intégré au moderne ultralytics Package Python, qui unifie toutes les tâches sous une API simple. Cela permet l'entraînement, la validation et le déploiement en quelques lignes de code.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Bien que YOLOv5 ait son propre référentiel dédié, il peut également être chargé facilement via PyTorch Hub ou utilisé dans le nouvel écosystème pour certaines tâches. La documentation robuste des deux modèles garantit que, que vous effectuiez un réglage des hyperparamètres ou que vous exportiez vers OpenVINO, le processus est simplifié.

Avantages de l'écosystème

Choisir un modèle Ultralytics signifie avoir accès à une suite d'outils bien entretenue. De l'intégration avec Comet pour le suivi des expériences à la gestion transparente des ensembles de données, l'écosystème prend en charge l'ensemble du cycle de vie MLOps. Ce développement actif garantit que les correctifs de sécurité et les améliorations de performance sont régulièrement fournis.

Cas d'utilisation idéaux

Quand choisir YOLOv5

Matériel existant : Si vous avez des appareils Edge existants (comme les anciens Raspberry Pi) avec des pipelines spécifiquement optimisés pour l’architecture YOLOv5.
Flux de travail établis : Pour les projets en mode maintenance approfondie où la mise à jour de l'architecture du modèle de base entraînerait des coûts de refactorisation importants.
Optimisations GPU spécifiques : Dans les rares cas où des moteurs TensorRT spécifiques sont fortement réglés pour la structure de couche exacte de YOLOv5.

Quand choisir YOLO11

Nouveaux développements : Pour pratiquement tous les nouveaux projets, YOLO11 est le point de départ recommandé en raison de son rapport précision/calcul supérieur.
Applications CPU en temps réel : Les applications exécutées sur des processeurs standard, tels que les ordinateurs portables ou les instances en nuage, bénéficient énormément des optimisations de la vitesse CPU de YOLO11.
Tâches complexes : Projets nécessitant une segmentation d’instance ou une estimation de pose en plus de la détection.
Exigences de haute précision : Domaines tels que l’imagerie médicale ou l’analyse d’imagerie satellite, où la détection de petits objets avec une grande précision est primordiale.

Conclusion

YOLOv5 reste un témoignage de la conception d'IA efficace et accessible, ayant alimenté d'innombrables innovations au cours des dernières années. Cependant, YOLO11 représente l'avenir. Avec son architecture avancée sans ancrage, ses scores mAP supérieurs et sa polyvalence améliorée, il offre aux développeurs un ensemble d'outils plus puissant pour résoudre les défis modernes de la vision par ordinateur.

En adoptant YOLO11, vous bénéficiez non seulement de meilleures performances, mais vous pérennisez également vos applications au sein de l'écosystème Ultralytics en pleine expansion.

Explorer d'autres modèles

Si vous souhaitez comparer ces architectures avec d'autres modèles de pointe, explorez nos comparaisons détaillées :