YOLOv5 vs YOLO11 : Une comparaison technique complète

Lorsque tu choisis la bonne architecture de vision par ordinateur pour un nouveau projet, il est crucial de comprendre l'évolution des modèles de pointe. La progression des architectures antérieures vers des frameworks unifiés modernes souligne des avancées significatives tant en termes d'efficacité algorithmique que d'expérience de développement. Ce guide propose une comparaison technique approfondie entre deux modèles emblématiques développés par Ultralytics : le pionnier YOLOv5 et le très raffiné YOLO11.

Introduction aux modèles

Ces deux architectures représentent des étapes importantes dans le domaine de la détection d'objets en temps réel, offrant des avantages distincts selon ton environnement de déploiement et tes exigences en matière de systèmes existants.

YOLOv5 : Le pilier de l'industrie

Sorti durant l'été 2020, YOLOv5 est rapidement devenu une référence du secteur grâce à son implémentation native PyTorch, qui a considérablement abaissé la barrière à l'entrée pour l'entraînement et le déploiement. Il s'est éloigné des frameworks complexes en C Darknet de ses prédécesseurs, offrant une approche Pythonique de la création de modèles.

YOLOv5 a établi une base solide pour la facilité d'utilisation et a introduit des méthodologies d'entraînement puissantes, notamment l'augmentation de données mosaïque avancée et l'auto-ancrage. Il reste incroyablement populaire auprès des chercheurs qui s'appuient sur une base de code bien documentée et rigoureusement testée.

En savoir plus sur YOLOv5

YOLO11 : Le framework de vision unifié

En s'appuyant sur des années de retours d'expérience et de recherche architecturale, YOLO11 a été introduit dans le cadre d'un framework unifié capable de gérer nativement plusieurs tâches de vision. Au-delà des simples boîtes englobantes, il a été conçu dès le départ pour une polyvalence et une efficacité maximales.

YOLO11 offre une expérience utilisateur simplifiée via le package Python ultralytics, doté d'une API simple qui unifie la détection d'objets, la segmentation d'instance, la classification, l'estimation de pose et les boîtes englobantes orientées (OBB). Il atteint un équilibre très favorable entre vitesse et précision, ce qui le rend idéal pour divers scénarios de déploiement réels.

En savoir plus sur YOLO11

Plateforme intégrée

Les deux modèles bénéficient de l'écosystème bien entretenu fourni par la Plateforme Ultralytics. Cet environnement intégré simplifie l'annotation des jeux de données, l'entraînement dans le cloud et l'exportation de modèles vers diverses cibles matérielles.

Comparaison des performances et des métriques

Une comparaison directe de ces modèles révèle comment les raffinements architecturaux se traduisent par des gains de performance tangibles. Le tableau ci-dessous illustre la précision moyenne (mAP) évaluée sur le jeu de données COCO, ainsi que les vitesses d'inférence CPU et GPU et le nombre de paramètres.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045,4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24,720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Analyse des résultats

Les mesures mettent en évidence un saut clair dans l'équilibre des performances atteint par YOLO11. Par exemple, le modèle YOLO11n (nano) atteint une mAP de 39,5 % par rapport aux 28,0 % du YOLOv5n, tout en réduisant simultanément le temps d'inférence CPU lors de l'exportation via ONNX. De plus, YOLO11 maintient des besoins en mémoire remarquablement inférieurs pendant l'entraînement par rapport aux modèles lourds basés sur Transformer, ce qui le rend très accessible pour un déploiement sur du matériel grand public et des appareils edge.

Différences architecturales

Les améliorations de performance dans YOLO11 découlent de plusieurs évolutions architecturales clés. Alors que YOLOv5 utilisait une architecture CSPNet standard avec des modules C3, YOLO11 a introduit des blocs d'extraction de caractéristiques plus efficaces comme C2f et plus tard C3k2, qui optimisent le flux de gradient et réduisent la surcharge computationnelle.

YOLO11 dispose également d'une tête considérablement raffinée. En s'éloignant de la conception basée sur les ancres des anciens modèles, les architectures Ultralytics plus récentes adoptent une approche sans ancre. Cela réduit le nombre de prédictions de boîtes, rationalisant le pipeline de post-traitement et améliorant la capacité du modèle à généraliser sur différentes échelles et ratios d'aspect. De plus, ces modèles bénéficient d'une efficacité d'entraînement supérieure et de poids pré-entraînés facilement disponibles qui accélèrent la convergence des jeux de données affinés.

Implémentation et exemples de code

L'une des caractéristiques marquantes de l'écosystème Ultralytics est sa simplicité. Alors que YOLOv5 a popularisé l'utilisation de torch.hub pour une inférence rapide, YOLO11 va encore plus loin avec le package Python unifié ultralytics.

Entraîner avec YOLO11

Charger, entraîner et valider un modèle nécessite un minimum de code standard. L'API gère le réglage des hyperparamètres et la gestion des modèles de manière transparente.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

Inférence legacy avec YOLOv5

Si tu maintiens un pipeline plus ancien, YOLOv5 s'intègre directement au mécanisme de chargement natif de PyTorch, ce qui rend son insertion dans des scripts d'inférence existants triviale.

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()
Flexibilité de déploiement

Les deux modèles prennent en charge de nombreux formats d'exportation. Que tu vises un NVIDIA Jetson en utilisant TensorRT ou une application iOS utilisant CoreML, le processus de déploiement est minutieusement documenté et soutenu par la communauté.

Cas d'utilisation idéaux

Le choix entre ces modèles dépend largement de l'étape du cycle de vie de ton projet et de tes exigences spécifiques.

Quand choisir YOLOv5

  • Maintien de bases de code héritées : Si ton environnement de production est fortement personnalisé autour de la structure du dépôt YOLOv5 ou de techniques spécifiques d'évolution des hyperparamètres.
  • Bases académiques : Lorsque tu publies des recherches nécessitant une comparaison directe avec les standards établis de vision par ordinateur de 2020-2022.

Quand choisir YOLO11

  • Projets multi-tâches : Lorsque ton application nécessite un mélange de tâches telles que l'estimation de pose et la segmentation d'instance en utilisant une API unique et unifiée.
  • Déploiements Edge : Pour des scénarios d'edge computing où il est critique d'obtenir le maximum de mAP pour un budget computationnel (FLOPs) donné.
  • Solutions IA commerciales : Idéal pour les applications d'entreprise dans le commerce de détail et la sécurité, en tirant parti du support robuste de la Plateforme Ultralytics.

La nouvelle génération : Ultralytics YOLO26

Bien que YOLO11 représente un équilibre fantastique entre vitesse et précision, le domaine de l'intelligence artificielle évolue rapidement. Pour les développeurs qui démarrent de nouveaux projets aujourd'hui, nous recommandons vivement d'explorer le tout dernier standard en IA de vision : Ultralytics YOLO26.

Sorti en janvier 2026, YOLO26 introduit des avancées révolutionnaires conçues spécifiquement pour les besoins de déploiement modernes :

  • Conception de bout en bout sans NMS : S'appuyant sur des concepts introduits pour la première fois dans YOLOv10, YOLO26 est nativement de bout en bout. Il élimine le besoin de post-traitement Non-Maximum Suppression (NMS), simplifiant considérablement les pipelines de déploiement et réduisant la latence.
  • Optimiseur MuSGD : Inspiré par les innovations en matière d'entraînement des LLM issues de modèles comme Kimi K2 de Moonshot AI, cet hybride de SGD et Muon assure un entraînement incroyablement stable et une convergence nettement plus rapide.
  • Vitesse CPU sans précédent : En supprimant la Distribution Focal Loss (DFL), YOLO26 atteint une vitesse d'inférence CPU jusqu'à 43 % plus rapide, ce qui en fait le choix absolu pour les appareils edge et les environnements dépourvus de GPU dédiés.
  • Fonctions de perte avancées : L'intégration de ProgLoss et STAL produit des améliorations notables dans la reconnaissance de petits objets, ce qui est crucial pour l'analyse par drone, l'IoT et la robotique.
  • Améliorations spécifiques aux tâches : Il introduit des optimisations spécialisées, telles que l'estimation de log-vraisemblance résiduelle (RLE) pour la pose et une perte d'angle spécialisée pour les boîtes englobantes orientées, garantissant des performances supérieures sur toutes les tâches de vision par ordinateur.

En savoir plus sur YOLO26

Pour les utilisateurs intéressés par des architectures spécialisées au-delà de la détection d'objets standard, tu pourrais également explorer des modèles comme RT-DETR pour la détection basée sur Transformer, ou YOLO-World pour le suivi et la détection en vocabulaire ouvert. Adopter ces outils bien entretenus et hautement optimisés garantit que tes pipelines de vision par ordinateur restent efficaces, évolutifs et à la pointe.

Commentaires