Passer au contenu

YOLO11 vs. YOLOv7: Comparaison technique détaillée

Le choix du bon modèle de détection d'objets est une décision cruciale qui a un impact sur la vitesse, la précision et l'évolutivité des applications de vision par ordinateur. Ce guide propose une comparaison technique approfondie entre Ultralytics YOLO11 et YOLOv7deux étapes importantes dans la lignée YOLO (You Only Look Once). Alors que YOLOv7 représentait une avancée majeure en 2022, la récente version de YOLO11 introduit des raffinements architecturaux qui redéfinissent les performances de pointe pour le développement de l'IA moderne.

Ultralytics YOLO11: la nouvelle norme pour l'IA de la vision

Sortie fin 2024, Ultralytics YOLO11 s'appuie sur les bases solides de ses prédécesseurs pour offrir une efficacité et une polyvalence inégalées. Il est conçu pour gérer un large éventail de tâches de vision par ordinateur dans un cadre unique et unifié.

Architecture et innovations

YOLO11 introduit une architecture raffinée comprenant le bloc C3k2 et les mécanismes C2PSA (Cross-Stage Partial with Spatial Attention). Ces améliorations permettent au modèle d'extraire des caractéristiques avec une plus grande granularité tout en conservant un nombre de paramètres inférieur à celui des générations précédentes. L'architecture est optimisée pour la vitesse, garantissant que même les variantes les plus importantes du modèle conservent des capacités d'inférence en temps réel sur du matériel standard.

L'une des caractéristiques de YOLO11 est sa prise en charge native de plusieurs tâches au-delà de la détection d'objets, notamment la segmentation d'instances, l'estimation de la pose, la détection de boîtes de délimitation orientées (OBB) et la classification d'images.

Intégration de l'écosystème Ultralytics

YOLO11 est entièrement intégré à l'écosystème Ultralytics , offrant aux développeurs un accès transparent aux outils de gestion des données, de formation des modèles et de déploiement. Cette intégration réduit considérablement la complexité des pipelines MLOps, permettant aux équipes de passer plus rapidement du prototype à la production.

En savoir plus sur YOLO11

YOLOv7: une référence en matière de formation efficace

YOLOv7, publié à la mi-2022, s'est fortement concentré sur l'optimisation du processus d'apprentissage afin d'obtenir une grande précision sans augmenter les coûts d'inférence. Il a introduit plusieurs nouveaux concepts qui ont influencé les recherches ultérieures dans ce domaine.

Architecture et innovations

Le cœur de YOLOv7 est le réseau E-ELAN (Extended Efficient Layer Aggregation Network), qui améliore la capacité d'apprentissage du modèle sans détruire le chemin de gradient original. Les auteurs ont également introduit le "trainable bag-of-freebies", un ensemble de stratégies d'optimisation, telles que le re-paramétrage du modèle et les têtes de détectionauxiliaires , quiaméliorent la précision lors de l'apprentissage, mais sont éliminées lors de l'inférence.

Bien que YOLOv7 ait établi des références impressionnantes lors de sa sortie, il s'agit avant tout d'une architecture de détection d'objets. L'adapter à d'autres tâches telles que la segmentation ou l'estimation de la pose nécessite souvent des branches spécifiques ou des forks de la base de code, ce qui contraste avec l'approche unifiée des modèles plus récents.

L'héritage de l'architecture

YOLOv7 s'appuie sur des méthodes de détection basées sur l'ancrage et sur des têtes auxiliaires complexes. Bien qu'efficaces, ces choix architecturaux peuvent rendre le modèle plus difficile à personnaliser et à optimiser pour le déploiement en périphérie, par rapport aux conceptions rationalisées et sans ancrage que l'on trouve dans les modèles Ultralytics modernes.

En savoir plus sur YOLOv7

Analyse des performances : Vitesse, précision et efficacité

Lorsque l'on compare les paramètres techniques, les progrès de l'architecture de YOLO11 deviennent évidents. Le nouveau modèle atteint une précision comparable ou supérieure avec beaucoup moins de paramètres et des vitesses d'inférence plus rapides.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Points clés à retenir

  1. Efficacité des paramètres : YOLO11 permet une réduction drastique de la taille des modèles. Par exemple, YOLO11l surpasse la précision de YOLOv7x (53,4 % contre 53,1 % mAP) tout en utilisant près de 65 % de paramètres en moins (25,3M contre 71,3M). Cette réduction est essentielle pour le déploiement de modèles sur des appareils dont le stockage et la mémoire sont limités.
  2. Vitesse d'inférence : Les optimisations architecturales de YOLO11 se traduisent directement en vitesse. Sur un GPU T4 utilisant TensorRTYOLO11l est presque deux fois plus rapide que YOLOv7x. Pour les applications CPU, la version légère YOLO11n offre des vitesses incroyables (56,1 ms), permettant une détection en temps réel sur du matériel de pointe, là où les variantes de YOLOv7 auraient du mal à le faire.
  3. Exigences en matière de calcul : Le nombre d'opérations en virgule flottante ( FLOP ) est nettement inférieur pour les modèles YOLO11 . Cette charge de calcul réduite se traduit par une diminution de la consommation d'énergie et de la production de chaleur, ce qui rend YOLO11 particulièrement adapté aux dispositifs d'intelligence artificielle alimentés par batterie.

Ecosystème et expérience des développeurs

Au-delà des mesures brutes, l'expérience du développeur est un facteur de différenciation majeur. Les modèlesYOLO d'Ultralytics sont réputés pour leur facilité d'utilisation et leur écosystème robuste.

Flux de travail rationalisé

YOLOv7 nécessite généralement de cloner un référentiel et d'interagir avec des scripts shell complexes pour la formation et les tests. En revanche, YOLO11 est distribué via un paquetage Python standard (ultralytics). Cela permet aux développeurs d'intégrer des capacités avancées de vision par ordinateur dans leurs logiciels avec seulement quelques lignes de code.

from ultralytics import YOLO

# Load a model (YOLO11n recommended for speed)
model = YOLO("yolo11n.pt")

# Train the model with a single command
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Polyvalence et efficacité de la formation

YOLO11 prend en charge un large éventail de tâches dès sa sortie de l'emballage. Si les exigences d'un projet passent de la simple boîte de délimitation à la segmentation d'instance ou estimation de la poseles développeurs peuvent simplement changer le fichier de poids du modèle (par ex, yolo11n-seg.pt) sans modifier l'ensemble de la base de code ou du pipeline. YOLOv7 nécessite généralement de trouver et de configurer des forks spécifiques pour ces tâches.

En outre, YOLO11 bénéficie d'une efficacité de formation. Les modèles utilisent des techniques d'optimisation modernes et sont livrés avec des poids pré-entraînés de haute qualité, convergeant souvent plus rapidement que les anciennes architectures. Cette efficacité s'étend aux besoins en mémoire; les modèles Ultralytics sont optimisés pour minimiser l'utilisation de la mémoire CUDA pendant l'apprentissage, évitant ainsi les erreurs courantes de sortie de mémoire (OOM) qui affectent les détecteurs plus anciens ou basés sur Transformer.

Documentation et assistance

Ultralytics dispose d'une documentation complète et d'une communauté dynamique. Les utilisateurs bénéficient de mises à jour fréquentes, de corrections de bogues et d'un accès clair à l'assistance de l'entreprise. À l'inverse, le référentiel YOLOv7 , bien qu'historiquement important, est moins activement maintenu, ce qui peut présenter des risques pour les déploiements de production à long terme.

Applications concrètes

  • Analyse de la vente au détail : La précision et la rapidité de YOLO11 permettent de suivre en temps réel le comportement des clients et de contrôler les stocks sur du matériel de magasin standard.
  • Robotique autonome : La faible latence de YOLO11n en fait la solution idéale pour la navigation et l'évitement des obstacles dans les drones et les robots où chaque milliseconde compte.
  • Imagerie médicale : Grâce à la prise en charge native de la segmentation, YOLO11 peut être rapidement adapté à l'identification et à la mise en évidence d'anomalies dans les scanners médicaux avec une grande précision.
  • Inspection industrielle : La capacité à gérer les OBB (Oriented Bounding Boxes) rend YOLO11 supérieur pour la détection de pièces tournées ou de texte sur les lignes d'assemblage, une fonctionnalité qui n'est pas disponible dans la version standard YOLOv7

Conclusion

YOLOv7 reste un modèle performant et témoigne des progrès rapides de la vision par ordinateur en 2022, Ultralytics YOLO11 représente le choix définitif pour le développement de l'IA moderne. Il offre un équilibre supérieur en termes de performances, d'efficacité et de facilité d'utilisation.

Pour les développeurs et les chercheurs, la transition vers YOLO11 offre des avantages immédiats : des temps d'inférence plus rapides, des coûts matériels réduits et un flux de travail unifié pour diverses tâches de vision. Soutenu par l'écosystème actif d'Ultralytics , YOLO11 n'est pas seulement un modèle mais une solution complète pour déployer une vision par ordinateur de pointe dans le monde réel.

Poursuite de l'exploration

Explorez d'autres comparaisons pour trouver le modèle le mieux adapté à vos besoins spécifiques :


Commentaires