Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 vs YOLOv7#

Le paysage de la vision par ordinateur continue d'évoluer à un rythme rapide, la détection d'objets en temps réel restant à la pointe des applications d'IA. Choisir la bonne architecture pour ton projet nécessite de naviguer dans un compromis complexe entre vitesse, précision et facilité de déploiement. Dans ce guide, nous proposons une comparaison technique complète entre deux architectures majeures : Ultralytics YOLO11 et YOLOv7.

Link to this sectionContexte du modèle et détails techniques#

Les deux modèles ont eu un impact significatif sur la communauté du deep learning, mais ils découlent de philosophies de développement et d'époques différentes.

Détails sur YOLO11 :
Auteurs : Glenn Jocher et Jing Qiu
Organisation : Ultralytics\nDate : 27-09-2024
GitHub : https://github.com/ultralytics/ultralytics
Docs : https://docs.ultralytics.com/models/yolo11/

En savoir plus sur YOLO11

Détails sur YOLOv7 :
Auteurs : Chien-Yao Wang, Alexey Bochkovskiy, et Hong-Yuan Mark Liao
Organisation : Institute of Information Science, Academia Sinica, Taiwan\nDate : 06-07-2022
Arxiv : https://arxiv.org/abs/2207.02696
GitHub : https://github.com/WongKinYiu/yolov7
Docs : https://docs.ultralytics.com/models/yolov7/

En savoir plus sur YOLOv7

Link to this sectionDifférences architecturales#

Lors de l'analyse des mécanismes internes, les deux détecteurs utilisent des concepts de pointe, mais leurs fondations structurelles diffèrent.

YOLOv7 a introduit le concept de réseaux d'agrégation de couches efficaces étendus (E-ELAN). Cette architecture a été conçue pour améliorer continuellement la capacité d'apprentissage du réseau sans détruire le chemin de gradient original, une percée cruciale rapportée dans leur article de recherche. YOLOv7 repose fortement sur la re-paramétrisation structurelle et une méthodologie robuste de "bag-of-freebies" lors de l'entraînement, améliorant la précision globale sur le jeu de données COCO sans augmenter les coûts d'inférence.

En revanche, YOLO11 est construit sur l'architecture Ultralytics hautement optimisée. Il met l'accent sur un pipeline d'extraction de caractéristiques plus raffiné avec moins de paramètres, ce qui entraîne une utilisation moindre de la mémoire pendant l'entraînement. YOLO11 atteint un équilibre de performance très favorable, utilisant moins de ressources informatiques (FLOPs) tout en égalant ou dépassant la précision de détection de modèles plus lourds. De plus, YOLO11 prend intrinsèquement en charge une plus grande variété de tâches, ce qui en fait un choix hautement polyvalent pour les applications modernes de vision par ordinateur.

Efficacité mémoire

L'une des caractéristiques marquantes des modèles YOLO d'Ultralytics est leur besoin en mémoire plus faible pendant l'entraînement par rapport à d'autres modèles de pointe, permettant aux développeurs d'entraîner des réseaux puissants sur du matériel PyTorch grand public.

Link to this sectionComparaison des performances et des mesures#

Pour évaluer avec précision la viabilité réelle, il est essentiel d'évaluer des métriques telles que la précision moyenne moyenne (mAP), la vitesse d'inférence, les paramètres du modèle et la complexité informatique (FLOPs). Le tableau suivant montre comment les variantes de mise à l'échelle de YOLO11 se comparent aux modèles YOLOv7 plus grands.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811,356,9194.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053,1-11.5771.3189.9

Comme observé, un modèle tel que YOLO11x atteint un mAP de 54,7 plus élevé par rapport au mAP de 53,1 de YOLOv7x, tout en utilisant nettement moins de paramètres (56,9M contre 71,3M). Cela souligne l'efficacité architecturale supérieure de YOLO11.

Link to this sectionEfficacité de l'entraînement et utilisabilité de l'écosystème#

L'une des caractéristiques les plus déterminantes séparant ces deux architectures est l'expérience développeur et l'écosystème environnant.

YOLOv7 est fondamentalement un dépôt de recherche académique. L'entraînement des modèles nécessite souvent des configurations d'environnement complexes, la gestion manuelle des dépendances et l'utilisation de longs arguments de ligne de commande. Bien qu'il prenne en charge l'expérimentation de pointe, l'adaptation du code du dépôt GitHub YOLOv7 pour des environnements de production personnalisés peut prendre beaucoup de temps.

YOLO11 redéfinit complètement la facilité d'utilisation. Il est entièrement intégré à la plateforme Ultralytics, un écosystème complet et bien maintenu offrant des flux de travail de bout en bout fluides. De l'annotation des données et l'entraînement local au déploiement, l'API Python unifiée et l'interface de ligne de commande simple rationalisent l'ensemble du processus.

Link to this sectionComparaison de code#

Entraîner un modèle de détection d'objets avec YOLO11 ne nécessite que quelques lignes de code, réduisant considérablement la barrière à l'entrée :

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Quickly export to ONNX format
model.export(format="onnx")

En revanche, une commande d'entraînement YOLOv7 typique ressemble à ceci, nécessitant une configuration minutieuse des chemins, des fichiers de configuration et des scripts bash :

python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'

YOLO11 offre également une immense polyvalence. Alors que YOLOv7 nécessite des bases de code entièrement différentes ou des modifications lourdes pour prendre en charge des tâches au-delà de la détection (comme la pose ou la segmentation), YOLO11 gère la détection d'objets, la segmentation d'instances, la classification d'images, l'estimation de pose et la détection Oriented Bounding Box (OBB) via un cadre unique et cohérent.

Exporter en toute simplicité

L'exportation de YOLO11 vers des formats comme TensorRT ou OpenVINO ne nécessite qu'une seule commande, atténuant les problèmes de support d'opérateur typiques rencontrés avec les modèles hérités.

Link to this sectionApplications réelles et cas d'utilisation idéaux#

Le choix entre YOLOv7 et YOLO11 dépend entièrement de la portée du projet et des contraintes de déploiement.

Quand considérer YOLOv7 :

  • Benchmarking des anciens modèles : Les chercheurs académiques explorant les conceptions de chemins de gradient peuvent utiliser YOLOv7 comme base de référence pour évaluer les nouveaux réseaux neuronaux convolutifs.
  • Pipelines personnalisés existants : Équipes avec des pipelines C++ ou CUDA fortement personnalisés construits spécifiquement autour de la logique unique de décodage de boîtes englobantes de YOLOv7.

Quand choisir YOLO11 :

  • Production commerciale : Les applications dans le commerce de détail intelligent ou le diagnostic de santé bénéficient grandement de la base de code maintenue et de la haute stabilité de YOLO11.
  • Environnements aux ressources limitées : L'empreinte légère de YOLO11n le rend exceptionnellement adapté au déploiement sur des appareils mobiles et périphériques via ONNX.
  • Projets multi-tâches : Si une seule application doit identifier une personne, mapper son squelette (pose) et segmenter un objet qu'elle tient, YOLO11 fournit une solution unifiée.

Link to this sectionÀ la pointe : Aller de l'avant avec YOLO26#

Bien que YOLO11 soit un choix très robuste, l'innovation dans l'intelligence artificielle ne dort jamais. Pour les ingénieurs qui démarrent de nouveaux projets aujourd'hui, explorer Ultralytics YOLO26 est vivement recommandé.

Sorti en janvier 2026, YOLO26 introduit une conception sans NMS de bout en bout, éliminant complètement les goulots d'étranglement de latence associés au post-traitement de Non-Maximum Suppression. De plus, YOLO26 intègre l'optimiseur révolutionnaire MuSGD, inspiré des méthodologies d'entraînement LLM, pour assurer une convergence plus rapide. Avec des améliorations de perte ciblées via ProgLoss + STAL et une inférence CPU jusqu'à 43 % plus rapide grâce à la suppression du DFL, YOLO26 est spécifiquement optimisé pour l'informatique en périphérie et représente le summum actuel de l'IA de vision.

En savoir plus sur YOLO26

Pour les utilisateurs intéressés par des structures alternatives spécialisées, l'exploration du RT-DETR basé sur des transformateurs ou des modèles YOLO-World à vocabulaire ouvert dynamique peut également donner des résultats bénéfiques pour divers déploiements de vision par ordinateur.

Contributeurs

Commentaires