Passer au contenu

YOLOv7 YOLO: trouver le juste équilibre entre innovation architecturale et vitesse

Le paysage de la détection d'objets en temps réel a connu des changements importants en 2022 avec l'introduction de YOLOv7 et YOLO. Ces deux modèles visaient à repousser les limites de la précision et de la latence, mais abordaient le défi sous des angles techniques fondamentalement différents. YOLOv7 sur l'optimisation du processus d'apprentissage grâce à une approche « bag-of-freebies », tandis queYOLO la recherche d'architecture neuronale (NAS) pour découvrir automatiquement des structures efficaces.

Cette comparaison exhaustive examine leurs architectures, leurs indicateurs de performance et leurs méthodologies d'entraînement afin de vous aider à déterminer quel modèle convient le mieux à vos applications spécifiques de vision par ordinateur. Bien que les deux restent pertinents pour les projets existants, nous expliquerons également pourquoi les solutions modernes telles que YOLO26 sont désormais la norme recommandée pour les nouveaux développements.

YOLOv7 : L'ensemble d'optimisations entraînables

Sorti en juillet 2022, YOLOv7 une étape importante dans la YOLO , en mettant l'accent sur des réformes architecturales qui ont amélioré la précision sans augmenter les coûts d'inférence.

Innovations architecturales

YOLOv7 le réseau d'agrégation de couches efficace étendu (E-ELAN). Contrairement à l'ELAN standard, qui contrôle les chemins de gradient les plus courts et les plus longs, l'E-ELAN utilise l'expansion, le remaniement et la fusion de cardinalité pour améliorer la capacité d'apprentissage du réseau sans détruire le chemin de gradient d'origine. Cette conception permet au modèle d'apprendre des caractéristiques plus diverses, améliorant ainsi les performances sur des ensembles de données complexes tels que COCO.

Un concept clé de YOLOv7 le « trainable bag-of-freebies » (sac de cadeaux entraînables). Il s'agit de méthodes d'optimisation, telles que la reparamétrisation du modèle et l'attribution dynamique d'étiquettes, qui augmentent les coûts d'entraînement afin d'améliorer la précision, mais n'entraînent aucune pénalité lors de l'inférence. Cela fait de YOLOv7 excellent choix pour les scénarios nécessitant une grande précision, tels que l'analyse d'images médicales ou l'inspection industrielle critique pour la sécurité.

En savoir plus sur YOLOv7

Développé par le groupe Alibaba,YOLO intégré par la suite à la suite de vision DAMO-Academy) privilégiait la vitesse et la faible latence, ciblant spécifiquement les applications industrielles soumises à des contraintes strictes en termes de millisecondes.

MAE-NAS et distillation

L'architectureYOLO a été dérivée à l'aide d'une méthode appelée MAE-NAS (Method of Automating Efficiency-Neural Architecture Search). Ce processus automatisé a permis de trouver des structures de base qui maximisaient les performances de détection dans le cadre de budgets de latence spécifiques. Il a également introduit le RepGFPN (Rep-parameterized Generalized Feature Pyramid Network) pour une fusion efficace des caractéristiques et le ZeroHead, une tête de détection légère.

Une caractéristique distinctive deYOLO son recours intensif à la distillation. Les modèles sont généralement entraînés à l'aide d'un modèle « enseignant » plus grand, qui guide le modèle « élève » afin qu'il apprenne de meilleures représentations. Bien que cela permette d'obtenir une efficacité impressionnante, cela complique considérablement le processus d'entraînement par rapport aux workflows standard de détection d'objets.

Comparaison des performances

Le tableau suivant compare les performances desYOLO YOLOv7 YOLO . YOLOv7 offre YOLOv7 une précision (mAP) supérieure, tandis queYOLO des modèles extrêmement légers optimisés pour la vitesse.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Analyse des compromis

  • Précision :YOLOv7x arrive en tête avec un mAP 53,1 %, ce qui le rend adapté aux tâches où une détection manquée coûte cher.
  • Vitesse :DAMO-YOLOt est incroyablement rapide (2,32 ms sur T4 TensorRT), idéal pour la compréhension de vidéos à haut débit d'images par seconde ou le déploiement sur des appareils périphériques limités.
  • Complexité : les paramètres et les FLOP YOLOv7 sont nettement plus élevés, ce qui reflète son orientation vers la capacité plutôt que vers l'efficacité pure.

Remarque sur la complexité de la formation

SiYOLO un excellent compromis entre vitesse et précision, reproduire ses résultats sur des ensembles de données personnalisés peut s'avérer difficile. Sa méthode d'entraînement nécessite souvent un processus en plusieurs étapes impliquant un modèle enseignant lourd pour la distillation, tandis que YOLOv7 une méthodologie simple de « formation à partir de zéro » plus facile à mettre en œuvre.

Pourquoi Ultralytics est le choix idéal

Si YOLOv7 YOLO un impact considérable à leur époque, le domaine a rapidement évolué. Pour les développeurs et les chercheurs qui lancent de nouveaux projets en 2026, YOLO26 offre une solution unifiée qui surpasse ses deux prédécesseurs en combinant une grande précision et un déploiement simplifié.

Facilité d'utilisation et écosystème inégalés

Ultralytics est réputé pour sa conception conviviale. Contrairement aux pipelines de distillation complexes deYOLO, YOLO26 offre une Python simplifiée qui gère tout, de l'annotation des données au déploiement des modèles.

YOLO26 Avancées techniques

YOLO26 introduit plusieurs innovations clés qui résolvent les limites des architectures plus anciennes :

  1. Conception NMS de bout en bout : en éliminant la suppression non maximale (NMS), YOLO26 réduit la latence d'inférence et simplifie la logique d'exportation, une fonctionnalité qui fait défaut dansYOLO YOLOv7 YOLO standard.
  2. Optimiseur MuSGD : inspiré de la formation LLM (comme Kimi K2), cet optimiseur hybride combine SGD Muon pour une convergence plus rapide et une formation stable.
  3. Optimisation des bords : la suppression de la perte focale de distribution (DFL) et CPU spécifiques CPU rendent YOLO26 jusqu'à 43 % plus rapide en termes d' inférence CPU par rapport aux générations précédentes, répondant ainsi aux besoins de faible latenceYOLO ciblés parYOLO .
  4. ProgLoss + STAL : les fonctions de perte avancées améliorent la détection des petits objets, une capacité essentielle pour l'imagerie par drone et la robotique.

En savoir plus sur YOLO26

Exemple de code : Formation avec Ultralytics

Cet exemple montre à quel point il est facile de former un modèle YOLO26 moderne à l'aide de Ultralytics . Cette interface unique remplace les fichiers de configuration complexes et les pipelines à plusieurs étapes requis par les anciens référentiels.

from ultralytics import YOLO

# Load the latest YOLO26 model (recommended over YOLOv7/DAMO-YOLO)
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Conclusion

YOLOv7 YOLO tous deuxYOLO de manière significative à l'évolution de la vision par ordinateur. YOLOv7 que les architectures conçues à la main pouvaient encore obtenir des résultats SOTA grâce à des stratégies d'entraînement intelligentes, tandis queYOLO la puissance du NAS pour les environnements soumis à des contraintes de latence.

Cependant, pour un déploiement pratique et concret aujourd'hui, YOLO26 est le choix incontournable. Il offre un équilibre parfait entre haute précision et vitesse, des besoins en mémoire considérablement réduits pendant la formation par rapport aux Transformers, et le soutien solide de Ultralytics . Que vous développiez pour la périphérie ou le cloud, la conception de bout en bout et la prise en charge polyvalente des tâches de YOLO26 constituent la voie la plus efficace vers la production.

Lectures complémentaires


Commentaires