Passer au contenu

YOLOv6.0 vs YOLOv7: exploration des architectures de détection d'objets en temps réel

L'évolution de la vision par ordinateur en temps réel a été marquée par des progrès rapides en matière d'efficacité architecturale et de méthodologies d'entraînement. Deux modèles importants qui ont considérablement influencé le paysage sont YOLOv6.YOLOv6 et YOLOv7. Ces deux frameworks ont introduit des techniques novatrices pour équilibrer la vitesse d'inférence et la précision de détection, en ciblant des déploiements allant des GPU de serveurs haut de gamme aux appareils périphériques.

Cette comparaison technique complète explore leurs architectures, leurs mesures de performance et leurs cas d'utilisation idéaux, tout en soulignant comment la Ultralytics moderne et le dernier modèle YOLO26 s'appuient sur ces concepts fondamentaux pour offrir une expérience de développement inégalée.

YOLOv6.0 : optimisation du débit industriel

Développé par le département Vision AI de Meituan, YOLOv6-3.0 a été explicitement conçu pour les applications industrielles à haut débit. Il se concentre fortement sur la maximisation des performances sur les accélérateurs matériels, ce qui en fait un candidat solide pour les environnements où le traitement par lots sur des GPU dédiés est réalisable.

  • Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
  • Organisation : Meituan
  • Date : 2023-01-13
  • Arxiv : 2301.05586
  • GitHub : YOLOv6

Innovations architecturales

YOLOv6.YOLOv6 s'appuie sur une structure EfficientRep, une architecture compatible avec le matériel conçue pour optimiser les coûts d'accès à la mémoire sur les GPU. Afin d'améliorer la fusion des fonctionnalités à différentes échelles, le modèle introduit un module de concaténation bidirectionnelle (BiC) dans son cou. Cela permet au réseau de capturer des hiérarchies spatiales complexes plus efficacement que les itérations précédentes.

De plus, YOLOv6. YOLOv6 met en œuvre une stratégie d'apprentissage assisté par ancrage (AAT). Cette approche combine les signaux de gradient riches de l'apprentissage basé sur l'ancrage avec les avantages d'un déploiement rationalisé de l'inférence sans ancrage, aidant le modèle à converger de manière plus stable sans sacrifier la vitesse de post-traitement.

En savoir plus sur YOLOv6

Considérations matérielles

Si YOLOv6. YOLOv6 excelle sur les GPU de niveau serveur (comme le NVIDIA ), sa forte dépendance à une reparamétrisation structurelle spécifique peut parfois entraîner une latence sous-optimale sur les appareils périphériques strictement CPU par rapport aux architectures plus récentes.

YOLOv7: le pionnier du « Bag-of-Freebies »

Publié par des chercheurs de l'Academia Sinica, YOLOv7 une approche différente en se concentrant fortement sur l'analyse des chemins de gradient et les optimisations du temps d'entraînement qui n'augmentent pas le coût de l'inférence, un concept que les auteurs appellent « trainable bag-of-freebies » (sac de cadeaux entraînables).

  • Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
  • Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
  • Date : 06/07/2022
  • Arxiv : 2207.02696
  • GitHub : WongKinYiu/yolov7

Innovations architecturales

Le cœur de YOLOv7 son réseau d'agrégation de couches efficace étendu (E-ELAN). E-ELAN optimise le chemin du gradient en permettant à différentes couches d'apprendre des caractéristiques plus diverses sans perturber la topologie originale du réseau. Il en résulte un modèle très expressif capable d'atteindre une précision moyenne (mAP) de premier ordre.

YOLOv7 utilise YOLOv7 largement la reparamétrisation des modèles, fusionnant les couches convolutives avec la normalisation par lots pendant l'inférence. Cela réduit le nombre de paramètres et accélère le passage vers l'avant lorsqu'il est déployé à l'aide de frameworks tels que NVIDIA TensorRT ou ONNX.

En savoir plus sur YOLOv7

Comparaison des performances

Lorsque nous évaluons ces modèles sur l'ensemble de données MS COCO, nous observons un compromis distinct entre les variantes ultra-légères de YOLOv6 les YOLOv7 fortement paramétrées et axées sur la précision.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Les données révèlent que YOLOv6. YOLOv6 offre une vitesse d'inférence exceptionnelle, ce qui le rend adapté à l'analyse vidéo à haute fréquence. À l'inverse, YOLOv7x atteint le mAP le plus élevé, dominant dans les tâches où la précision de détection prime sur la fréquence d'images brute.

Cas d'utilisation et recommandations

Le choix entre YOLOv6 et YOLOv7 dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.

Quand choisir YOLOv6

YOLOv6 un excellent choix pour :

  • Déploiement Industriel Optimisé pour le Matériel : Scénarios où la conception du modèle optimisée pour le matériel et la reparamétrisation efficace offrent des performances optimisées sur du matériel cible spécifique.
  • Détection rapide en une seule étape : Applications privilégiant une vitesse d'inférence brute sur GPU pour le traitement vidéo en temps réel dans des environnements contrôlés.
  • Intégration à l'écosystème Meituan : Équipes travaillant déjà au sein de la pile technologique et de l'infrastructure de déploiement de Meituan.

Quand choisir YOLOv7

YOLOv7 recommandé pour :

  • Étalonnage Académique : Pour la reproduction de résultats de pointe de l'ère 2022 ou l'étude des effets des techniques E-ELAN et des « bag-of-freebies » entraînables.
  • Recherche sur la reparamétrisation : Investigation des convolutions reparamétrées planifiées et des stratégies de mise à l'échelle de modèles composés.
  • Pipelines personnalisés existants : Projets avec des pipelines fortement personnalisés conçus autour de l'architecture spécifique de YOLOv7 qui ne peuvent pas être facilement refactorisés.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
  • Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
  • Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Ultralytics : entrer dans l'avenir

Si YOLOv6. YOLOv6 et YOLOv7 des avancées significatives, l'intégration de référentiels disparates dans les pipelines de production pose souvent des défis en matière de déploiement de modèles et de réglage des hyperparamètres. Ultralytics résout ces difficultés en offrant une interface simplifiée et unifiée.

Pourquoi choisir Ultralytics ?

  • Facilité d'utilisation : L'API Python Ultralytics permet aux développeurs de charger, d'entraîner et d'exporter des modèles avec seulement quelques lignes de code. Le passage d'un modèle plus ancien à la dernière architecture ne nécessite que la modification d'une seule chaîne de caractères.
  • Écosystème bien entretenu : Ultralytics propose des mises à jour fréquentes, un support communautaire actif et une documentation robuste.
  • Polyvalence : Contrairement aux modèles précédents qui se concentraient principalement sur les boîtes englobantes, les modèles Ultralytics prennent en charge nativement l'apprentissage multi-tâches, y compris la segmentation d'instances, l'estimation de pose et les boîtes englobantes orientées (OBB).
  • Exigences de mémoire : Les modèles Ultralytics YOLO maintiennent une consommation de mémoire plus faible pendant l'entraînement par rapport aux architectures basées sur des transformeurs comme RT-DETR, ce qui permet aux chercheurs de s'entraîner efficacement sur du matériel grand public.

Mise à niveau vers YOLO26

Pour les développeurs à la recherche de performances optimales, YOLO26 (sorti en janvier 2026) change radicalement le paradigme de la détection d'objets. Il introduit une conception entièrement de bout en bout NMS, éliminant ainsi la logique complexe de post-traitement et réduisant considérablement la variance de latence sur les appareils périphériques.

Les principales innovations de YOLO26 comprennent :

  • Optimiseur MuSGD : Un hybride sophistiqué de SGD et de Muon qui assure une dynamique d'entraînement incroyablement stable et une convergence plus rapide.
  • Suppression de la DFL : En supprimant la Distribution Focal Loss, YOLO26 simplifie la compatibilité d'exportation et améliore les performances sur les appareils à faible consommation.
  • ProgLoss + STAL : Des fonctions de perte avancées qui produisent des améliorations notables dans la reconnaissance de petits objets.
  • Vitesse inégalée : Atteint une inférence CPU jusqu'à 43 % plus rapide par rapport aux générations précédentes, ce qui le rend parfait pour les systèmes embarqués tels que le Raspberry Pi ou les déploiements Apple CoreML.

D'autres modèles très performants au sein de l'écosystème comprennent YOLO11 et YOLOv8, qui offrent tous deux un excellent équilibre de performances pour les intégrations matérielles existantes.

Assurez la pérennité de votre pipeline

En développant vos applications de vision par ordinateur sur la Plateforme Ultralytics, vous assurez un accès immédiat aux futurs modèles de pointe sans avoir à réécrire vos chargeurs de données ou vos scripts de déploiement.

Exemple de code : Entraînement optimisé

L'extrait suivant illustre la facilité avec laquelle vous pouvez entraîner un modèle YOLO26 de pointe à l'aide de Ultralytics . Ce workflow s'applique parfaitement à YOLO11 YOLOv8, en supprimant le code standard généralement requis par les anciens référentiels.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model for rapid training
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The API handles dataset downloading, augmentation, and hyperparameter configuration
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cuda:0",  # Automatically utilizes PyTorch GPU acceleration
)

# Run an end-to-end, NMS-free inference on a test image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for cross-platform deployment
model.export(format="onnx")

Conclusion

YOLOv6.YOLOv6 et YOLOv7 relever différents aspects du défi de la détection en temps réel. YOLOv6. YOLOv6 est une solution puissante pour GPU industriels spécialisés, tandis que YOLOv7 une grande précision grâce à une optimisation rigoureuse du chemin de gradient.

Cependant, pour les applications modernes qui exigent une polyvalence inégalée, un déploiement sans friction et des performances de pointe, Ultralytics s'impose comme le choix incontournable. Son architecture NMS, son optimiseur MuSGD avancé et son intégration profonde avec la Ultralytics garantissent aux développeurs un déploiement plus rapide que jamais de solutions d'IA visuelle puissantes et évolutives.


Commentaires