Passer au contenu

YOLO YOLOv7: une analyse approfondie de la détection d'objets en temps réel

L'année 2022 a marqué un tournant dans l'évolution de la vision par ordinateur, avec la sortie de deux architectures très influentes : YOLO et YOLOv7. Ces deux modèles cherchaient à redéfinir les limites du compromis entre vitesse et précision, mais ils ont abordé ce défi à partir de philosophies d'ingénierie fondamentalement différentes.

YOLO, développé par Alibaba Group, exploite la recherche d'architecture neuronale (NAS) et une reparamétrisation intensive pour tirer le maximum de débit du matériel. À l'inverse, YOLOv7, créé par les auteurs de YOLOv4, se concentre sur l'optimisation des chemins de propagation des gradients et des stratégies d'entraînement « bag-of-freebies » afin d'atteindre une précision de pointe.

Ce guide propose une comparaison technique rigoureuse de ces deux modèles, en analysant leur architecture, leurs performances et leur adéquation aux applications modernes de vision par ordinateur. Nous examinerons également comment le paysage a évolué avec l'introduction Ultralytics , qui intègre le meilleur de ces approches traditionnelles dans un cadre unifié et convivial.

Métriques de performance et benchmarks

Pour comprendre les différences pratiques entre ces architectures, il est essentiel d'examiner leurs performances sur des benchmarks standard tels que COCO . Le tableau ci-dessous compare les modèles en fonction de la précision moyenne (mAP), de la vitesse d'inférence (latence) et de la complexité computationnelle.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Comme le montrent les données, YOLOv7 domine généralement en termes de précision brute, la variante YOLOv7 atteignant un remarquable mAP de 53,1 %. Cela en fait un candidat idéal pour les scénarios où la précision est indispensable, tels que l'analyse d'images médicales ou l'examen de documents médico-légaux. Cependant, YOLO excelle en termes d'efficacité, en particulier avec sa variante « Tiny », qui offre une latence extrêmement faible (2,32 ms) sur du matériel TensorRT, ce qui le rend adapté au tri industriel à grande vitesse.

Innovations architecturales

La différence fondamentale entre ces deux modèles réside dans la manière dont leurs architectures ont été conçues.

YOLO: l'approche NAS

YOLO Distillation-Augmented MOdel) s'appuie fortement sur la recherche d'architecture neuronale (NAS). Au lieu de créer chaque bloc à la main, les auteurs ont utilisé une méthode appelée MAE-NAS pour découvrir automatiquement des structures de base efficaces.

  • RepGFPN : Il présente un réseau pyramidal généralisé reparamétré efficace. Cela permet une fusion multi-échelle supérieure des caractéristiques, garantissant une détection efficace des objets petits et grands.
  • ZeroHead : Afin de réduire le coût de calcul de la tête de détection,YOLO une stratégie « ZeroHead », qui simplifie les couches finales afin de gagner quelques millisecondes cruciales lors de l'inférence.
  • Distillation : une partie essentielle du processus d'apprentissage consiste en une distillation intensive des connaissances, dans laquelle un modèle enseignant plus grand guide le modèle élève plus petit, améliorant ainsi la précision sans augmenter le coût de l'inférence.

YOLOv7: Optimisation du chemin de gradient

YOLOv7 sur les « bags-of-freebies entraînables », des optimisations qui améliorent la précision pendant l'entraînement sans augmenter le coût de l'inférence.

  • E-ELAN : le réseau d'agrégation de couches efficace étendu (Extended Efficient Layer Aggregation Network) est la colonne vertébrale de YOLOv7. Il crée une architecture qui permet au réseau d'apprendre davantage de caractéristiques en contrôlant les chemins de gradient les plus courts et les plus longs, garantissant ainsi une convergence efficace du réseau.
  • Mise à l'échelle du modèle : contrairement aux versions précédentes qui se contentaient d'élargir ou d'approfondir le réseau, YOLOv7 ces attributs de mise à l'échelle, en maintenant un équilibre optimal pour différentes contraintes matérielles.
  • Tête auxiliaire : le processus d'apprentissage utilise une tête auxiliaire pour fournir une supervision approfondie, aidant les couches intermédiaires à apprendre des caractéristiques riches.

En savoir plus sur YOLOv7

L'alternative moderne : Ultralytics

SiYOLO YOLOv7 des avancées techniques significatives, le domaine a connu une évolution rapide. Pour les développeurs qui lancent de nouveaux projets en 2026, Ultralytics offre une solution unifiée qui pallie les limites des deux modèles existants.

YOLO26 n'est pas seulement une mise à jour incrémentielle, c'est un changement de paradigme conçu pour un monde axé sur la périphérie. Il intègre la haute précision associée à YOLOv7 les objectifs d'efficacité deYOLO, mais avec une facilité d'utilisation supérieure et des avancées architecturales modernes.

Principaux avantages de YOLO26

  1. Conception NMS de bout en bout : contrairement à YOLOv7, qui nécessite une suppression non maximale (NMS) pour filtrer les détections en double, YOLO26 est nativement de bout en bout. Cela élimine la variance de latence causée par NMS , ce qui se traduit par des vitesses d'inférence déterministes cruciales pour la robotique en temps réel.
  2. Optimiseur MuSGD : inspiré par les innovations dans la formation des grands modèles linguistiques (LLM) (en particulier Kimi K2 de Moonshot AI), YOLO26 utilise l'optimiseur MuSGD. Cet hybride de SGD Muon apporte une stabilité sans précédent à la formation en vision par ordinateur, permettant aux modèles de converger plus rapidement avec moins d'époques.
  3. Efficacité Edge-First : en supprimant la perte focale de distribution (DFL), YOLO26 simplifie le graphe du modèle pour l'exportation. Il en résulte CPU jusqu'à 43 % plus rapide par rapport aux générations précédentes, ce qui en fait le choix idéal pour les appareils tels que le Raspberry Pi ou les téléphones mobiles qui ne disposent pas de GPU.
  4. ProgLoss + STAL : l'intégration de Programmable Loss (ProgLoss) et Soft-Target Anchor Labeling (STAL) apporte des gains significatifs dans la détection des petits objets, un point faible traditionnel des modèles plus légers commeYOLO.

Flux de travail simplifié avec Ultralytics

La migration des référentiels de recherche vers la production est souvent difficile en raison de la fragmentation des bases de code. La Ultralytics résout ce problème en offrant une interface unifiée. Vous pouvez entraîner un modèle YOLO26, track et déployer des formats tels que ONNX ou CoreML un seul clic, ce qui contraste fortement avec les scripts d'exportation manuels requis pourYOLO.

En savoir plus sur YOLO26

Facilité d'utilisation et écosystème

L'architecture d'un modèle n'est qu'une partie de l'histoire ; c'est l'écosystème qui détermine la facilité avec laquelle vous pouvez le mettre en œuvre.

YOLO est avant tout un référentiel de recherche. Bien que le code soit open source, il ne dispose pas d'une API standardisée permettant une intégration facile dans Python plus importantes. Les utilisateurs doivent souvent gérer manuellement les chargeurs de données, les fichiers de configuration et les scripts d'exportation.

YOLOv7 amélioré cela avec une meilleure documentation, mais il repose toujours sur un flux de travail plus traditionnel basé sur des scripts (train.py, detect.py).

Ultralytics modèles privilégient la facilité d'utilisation. La bibliothèque fournit une API Python qui traite les modèles comme des objets. Cela permet une intégration transparente dans les piles logicielles existantes.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)

# Run inference with NMS-free speed
# No post-processing steps required by the user
results = model("https://ultralytics.com/images/bus.jpg")

De plus, Ultralytics sont réputés pour leur polyvalence. Alors queYOLO strictement un détecteur d'objets, le Ultralytics prend en charge la classification d'images, la segmentation d'instances, l'estimation de pose et la détection de boîtes englobantes orientées (OBB). Cela permet à une seule équipe de gérer diverses tâches de vision par ordinateur à l'aide d'une seule bibliothèque bien entretenue.

Efficacité et ressources d'entraînement

La formation des modèles de vision modernes peut nécessiter beaucoup de ressources. YOLOv7 est connu pour son « bag-of-freebies », ce qui signifie que le modèle apprend très efficacement, mais que le processus d'entraînement peut être très gourmand en VRAM. Le recours à la distillation YOLO implique que vous devez effectivement exécuter deux modèles (enseignant et élève) pendant l'entraînement, ce qui augmente la charge mémoire et la complexité du pipeline d'entraînement.

Ultralytics répond aux exigences en matière de mémoire en optimisant l'architecture afin de réduire l'utilisation CUDA . Cela permet aux développeurs d'utiliser des lots plus importants sur des GPU grand public. De plus, la suppression de composants complexes tels que DFL et l'introduction de l'optimiseur MuSGD garantissent non seulement la stabilité de la formation, mais également son efficacité sur le plan informatique.

Conclusion

YOLO YOLOv7 tous deux YOLOv7 une contribution majeure au domaine de l'intelligence artificielle. YOLOv7 les limites de la précision grâce à des optimisations artisanales, tandis queYOLO la puissance de la recherche automatisée d'architectures pour les applications à faible latence.

Cependant, pour les développeurs à la recherche d'une solution robuste et pérenne en 2026, Ultralytics est clairement recommandé. Il combine la haute précision héritée de la YOLO avec des innovations modernes telles que la détection NMS et les optimiseurs inspirés du LLM. Soutenu par la documentation complète et la communauté active de Ultralytics , YOLO26 offre un équilibre parfait entre performances, facilité d'utilisation et flexibilité de déploiement.

YOLO

YOLOv7


Commentaires