YOLO YOLOv7: évaluation des détecteurs d'objets en temps réel
L'évolution rapide de la vision par ordinateur a donné naissance à des modèles de détection d'objets hautement efficaces, conçus pour trouver le juste équilibre entre précision et coût de calcul. Deux modèles notables introduits en 2022 sont YOLO et YOLOv7. Bien que tous deux visent à repousser les limites des tâches de vision en temps réel, ils obtiennent leurs résultats grâce à des paradigmes architecturaux et des méthodologies d'entraînement très différents.
Cette comparaison technique exhaustive explore les approches distinctes des deux modèles, en examinant leur architecture, leur potentiel de déploiement et leurs indicateurs de performance afin d'aider les ingénieurs en apprentissage automatique à choisir l'outil le mieux adapté à leurs applications spécifiques de vision par ordinateur.
Origines du modèle et métadonnées
Avant de se plonger dans l'analyse technique approfondie, il est essentiel de contextualiser les origines de ces deux modèles de vision par ordinateur.
DAMO-YOLO
Développé par les chercheurs du groupe Alibaba,YOLO introduit afin d'optimiser à la fois la vitesse et la précision grâce à la recherche et à la distillation automatisées de l'architecture.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation :Alibaba Group
- Date : 23 novembre 2022
- Arxiv :2211.15444v2
- GitHub :tinyvision/DAMO-YOLO
YOLOv7
Lancé comme la technologie de pointe à la mi-2022, YOLOv7 l'inférence en temps réel en introduisant des « bag-of-freebies » entraînables sans augmenter les coûts de déploiement.
- Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
- Organisation :Institute of Information Science, Academia Sinica, Taïwan
- Date : 6 juillet 2022
- Arxiv :2207.02696
- Docs :Documentation YOLOv7
Écosystème pris en charge
YOLOv7 officiellement pris en charge dans Ultralytics , ce qui permet une formation, une validation et une exportation transparentes grâce à une API unifiée.
Innovations architecturales
YOLO: NAS et distillation
YOLO plusieurs techniques de pointe visant à optimiser l'efficacité :
- Backbones NAS : utilise la recherche d'architecture neuronale (NAS) pour concevoir automatiquement des backbones optimaux (MAE-NAS) adaptés aux environnements où la latence est critique.
- RepGFPN efficace : un réseau pyramidal généralisé modifié qui améliore considérablement l'efficacité de la fusion des caractéristiques à plusieurs échelles.
- ZeroHead & AlignedOTA : intègre une tête de détection légère et une stratégie d'attribution d'étiquettes optimisée (AlignedOTA) afin de réduire la charge de calcul.
- Amélioration de la distillation : exploite largement la distillation des connaissances pendant l'entraînement afin d'améliorer les performances des variantes de modèles plus petits sans augmenter leur nombre de paramètres.
YOLOv7: E-ELAN et Bag-of-Freebies
YOLOv7 une approche plus structurelle, en se concentrant sur l'optimisation du chemin de gradient et des stratégies d'entraînement robustes.
- Architecture E-ELAN : le réseau d'agrégation de couches efficace étendu permet au modèle d'apprendre des caractéristiques plus diverses en contrôlant les chemins de gradient les plus courts et les plus longs, garantissant ainsi une convergence efficace de l'apprentissage.
- Mise à l'échelle des modèles : introduit une méthode de mise à l'échelle composite adaptée aux modèles basés sur la concaténation, qui met simultanément à l'échelle la profondeur et la largeur pour l'alignement structurel.
- Trainable Bag-of-Freebies : utilise des techniques telles que les convolutions reparamétrées (RepConv) sans connexions d'identité et des stratégies d'attribution dynamique d'étiquettes, qui améliorent la précision pendant l'entraînement sans affecter la vitesse d'inférence.
Analyse des performances
Lorsqu'on évalue la précision moyenne (mAP), la vitesse et l'efficacité, les deux modèles affichent des résultats impressionnants, bien qu'ils ciblent des segments légèrement différents. YOLOv7 principalement sur GPU à haute précision, tandis que les structures dérivées du NASYOLO visent un déploiement CPU périphérique agressif à faible latence.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Comme le montrent les mesures, alors queYOLO des variantes extrêmement légères (comme le petit modèle avec seulement 8,5 millions de paramètres), YOLOv7 un pic de précision global plus élevé, YOLOv7x atteignant un impressionnant 53,1 mAP COCO .
L'avantage de l'écosystème Ultralytics
Si l'architecture théorique est importante, la praticité d'un modèle dépend de son écosystème. Les modèles pris en charge par Ultralytics, tels que YOLOv7, bénéficient d'un écosystème bien entretenu et d'une facilité d'utilisation inégalée.
- Équilibre des performances : Ultralytics offrent systématiquement un compromis optimal entre vitesse d'inférence et précision de détection, ce qui les rend idéaux pour les appareils périphériques et le déploiement de modèles basés sur le cloud.
- Exigences en matière de mémoire : contrairement aux modèles Transformer plus lourds,YOLO Ultralytics ont de faibles exigences en matière de mémoire. CUDA pendant l'entraînement. Cela permet d'utiliser des lots plus importants, ce qui rationalise le processus d'entraînement, même sur du matériel grand public.
- Polyvalence : le Ultralytics va au-delà de la détection d'objets pour inclure des tâches telles que la segmentation d'instances et l'estimation de poses, offrant ainsi aux développeurs une boîte à outils complète pour la vision par ordinateur.
Efficacité de l'entraînement
Ultralytics vous permet de passer en quelques minutes seulement et en toute transparence d'un ensemble de données à un modèle entièrement entraîné, grâce à des chargeurs de données hautement optimisés et des poids pré-entraînés.
Exemple de code : Formation YOLOv7 Ultralytics
L'intégration YOLOv7 votre pipeline de vision par ordinateur est extrêmement simple grâce àPython Ultralytics .
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)
La nouvelle norme : présentation de YOLO26
Si YOLOv7 YOLO des avancées significatives en 2022, le domaine de l'IA visuelle évolue rapidement. Pour les équipes qui lancent aujourd'hui de nouveaux projets, le modèle recommandé est le tout dernier Ultralytics , sorti en janvier 2026.
YOLO26 apporte un bond générationnel en termes de performances et de convivialité, intégrant des innovations de pointe :
- Conception NMS de bout en bout : YOLO26 est nativement de bout en bout. En éliminant le post-traitementNMS(Non-Maximum Suppression), il offre une logique de déploiement plus rapide et plus simple, un changement de paradigme initialement lancé par YOLOv10.
- Optimiseur MuSGD : inspiré par les innovations en matière de modèles linguistiques à grande échelle telles que Kimi K2 de Moonshot AI, YOLO26 utilise un hybride de SGD Muon. Cet optimiseur garantit une dynamique d'entraînement très stable et des taux de convergence considérablement plus rapides.
- CPU jusqu'à 43 % plus rapide : grâce à la suppression ciblée de la perte focale de distribution (DFL) et à des améliorations structurelles profondes, YOLO26 est fortement optimisé pour l'informatique de pointe à faible consommation d'énergie, surpassant les générations précédentes surGPU .
- ProgLoss + STAL : intègre de nouvelles fonctions de perte avancées qui ciblent explicitement et améliorent la reconnaissance des petits objets, une capacité essentielle pour les applications dans l'imagerie aérienne, la robotique et la surveillance de sécurité.
- Améliorations spécifiques à certaines tâches : au-delà de la détection standard, YOLO26 propose des améliorations adaptées à diverses tâches, notamment le prototypage multi-échelle pour la segmentation, le RLE pour l'estimation de la pose et les pertes d'angle spécifiques pour les boîtes englobantes orientées (OBB).
Cas d'utilisation idéaux
Le choix de l'architecture appropriée dépend entièrement de votre environnement de déploiement cible et des contraintes du projet.
Quand choisirYOLO:
- Vous travaillez dans des environnements périphériques fortement contraints et aux ressources limitées, où le nombre de paramètres bruts doit être maintenu à un niveau extrêmement bas (par exemple, les microcontrôleurs).
- Vous utilisez des pipelines d'apprentissage automatique intégrés spécifiquement aux services cloud propriétaires d'Alibaba.
Quand choisir YOLOv7:
- Vous disposez déjà de GPU hérités optimisés pour l'inférence haute précision basée sur des ancres.
- Vous travaillez dans des environnements où la précision en temps réel est primordiale, comme les véhicules autonomes à grande vitesse ou la robotique avancée.
Quand choisir YOLO26 (recommandé) :
- Vous développez une nouvelle application de vision par ordinateur à partir de zéro et avez besoin d'une technologie de pointe en matière de précision et de vitesse d'inférence CPU.
- Vous avez besoin d'un déploiement rapide et transparent (tel que l'exportation vers CoreML ou TensorRT) sans avoir à gérer les contraintes liées NMS .
- Vous souhaitez exploiter toutes les fonctionnalités de la Ultralytics pour la formation au cloud, la gestion des ensembles de données et le déploiement automatisé.
En tirant parti de l'écosystème robuste Ultralytics , les développeurs peuvent réduire considérablement le temps d'ingénierie tout en garantissant des performances prédictives de premier ordre pour leurs applications concrètes.