YOLOv6.0 vs. YOLO: une comparaison technique pour la détection d'objets
Le choix de la bonne architecture de vision par ordinateur est une décision cruciale pour les ingénieurs et les chercheurs. Le paysage de la détection d'objets est compétitif, avec des géants industriels qui repoussent constamment les limites de la vitesse et de la précision. Cette page présente une comparaison technique complète entre YOLOv6.0, un modèle à faible consommation de matériel de Meituan, et YOLO, une architecture à forte teneur technologique d'Alibaba Group.
Vue d'ensemble de YOLOv6.0
YOLOv6.0 est un cadre robuste spécialement conçu pour les applications industrielles. Publié par le département Vision AI de Meituan, il donne la priorité à l'efficacité dans le monde réel et vise à offrir des performances élevées sur les contraintes matérielles standard rencontrées dans les secteurs de la fabrication et de l'automatisation.
- Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
- Organisation :Meituan
- Date : 2023-01-13
- Arxiv :YOLOv6 v3.0 : Un rechargement à pleine échelle
- GitHub :YOLOv6
- Docs :DocumentationUltralytics YOLOv6
Architecture et innovations clés
YOLOv6.0 affine le paradigme du détecteur à une étape en mettant l'accent sur le reparamétrage. Cette technique permet au modèle d'avoir une structure complexe pendant l'entraînement pour un meilleur apprentissage, mais se réduit à une structure plus simple et plus rapide pendant l'inférence.
- L'épine dorsale EfficientRep : L'épine dorsale utilise des blocs distincts pour différentes tailles de modèles (EfficientRep pour les petits modèles et CSPStackRep pour les plus grands), optimisant ainsi l'utilisation des capacités matérielles du GPU .
- Cou Rep-PAN : Le cou utilise une topologie Rep-PAN, qui améliore la fusion des caractéristiques tout en maintenant des vitesses d'inférence élevées.
- Autodistillation : Une méthodologie de formation clé dans laquelle le modèle apprend à partir de ses propres prédictions (en particulier, une branche de l'enseignant dans le même réseau) pour améliorer la précision sans le coût de calcul d'un modèle de l'enseignant séparé pendant le déploiement.
Optimisation industrielle
YOLOv6 est explicitement conçu en tenant compte de la quantification. Son architecture est adaptée à la quantification post-entraînement (PTQ) et à l'entraînement conscient de la quantification (QAT), ce qui en fait un candidat de choix pour le déploiement sur des appareils périphériques où la précision INT8 est privilégiée pour des raisons de rapidité.
Présentation de DAMO-YOLO
YOLO, développé par le groupe Alibaba, présente une série de nouvelles technologies visant à optimiser le compromis entre les performances et la latence. Il se distingue par l'intégration de la recherche d'architecture neuronale (NAS) et de techniques avancées de fusion des caractéristiques.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation :Alibaba Group
- Date : 2022-11-23
- Arxiv :YOLO: Un rapport sur la conception de la détection d'objets en temps réel
- GitHub :YOLO
- Docs :YOLO GitHub README
Architecture et innovations clés
YOLO s'éloigne des architectures purement artisanales, en s'appuyant en partie sur des stratégies de recherche automatisées pour trouver des structures efficaces.
- Backbone alimenté par NAS (MazeNet) : L'épine dorsale est générée à l'aide de MAE-NAS (Neural Architecture Search), ce qui permet d'obtenir une structure appelée MazeNet qui est hautement optimisée pour différents budgets de calcul.
- RepGFPN efficace : Il utilise un réseau pyramidal de caractéristiques généralisé (GFPN) combiné à un reparamétrage. Cela permet de fusionner des caractéristiques multi-échelles riches, ce qui est essentiel pour la détection d'objets de différentes tailles.
- ZeroHead : une conception simplifiée de la tête de détection qui réduit le nombre de paramètres et la complexité de calcul à l'étape finale du réseau.
- AlignedOTA : une stratégie dynamique d'attribution d'étiquettes qui résout le problème de désalignement entre les tâches de classification et de régression au cours du processus de formation.
Fusion de fonctions avancées
Le cou RepGFPN de YOLO est particulièrement efficace pour traiter des scènes complexes avec des objets qui se chevauchent. En permettant de sauter des connexions entre différents niveaux d'échelle, il préserve les informations sémantiques mieux que les structures FPN standard.
Analyse des performances : Vitesse vs. Précision
La comparaison suivante utilise les données de l'ensemble de donnéesCOCO val2017. Les mesures mettent en évidence les compromis entre les deux modèles à différentes échelles.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Points clés à retenir
- Leader en matière de latence :YOLOv6.0n est le modèle le plus rapide de ce comparatif, avec un temps de réponse de 1,17 ms sur un GPU T4. Il est donc particulièrement bien adapté aux exigences des scénarios d'inférence en temps réel avec des taux de rafraîchissement élevés.
- Pic de précision :YOLOv6.0l atteint la plus grande précision avec une mAP de 52,8, ce qui démontre l'efficacité de son épine dorsale lourde et de sa stratégie d'autodistillation, bien qu'au prix de paramètres et de FLOPs plus élevés que ceux de YOLO.
- Efficacité :DAMO-YOLOs surpasse YOLOv6.0s en termes de précision (46,0 contre 45,0 mAP) tout en ayant moins de paramètres (16,3M contre 18,5M). Cela met en évidence l'efficacité de l'épine dorsale de recherche NAS dans le régime des petits modèles.
- Efficacité des paramètres : En général, les modèles YOLO présentent des FLOPs et des nombres de paramètres inférieurs pour une précision comparable dans la gamme moyenne à grande, ce qui valide l'efficacité de la conception ZeroHead.
L'avantage Ultralytics
YOLOv6.0 et YOLO offrent des caractéristiques intéressantes pour des niches spécifiques, Ultralytics YOLO11 d'Ultralytics offre une solution plus globale pour le développement de l'IA moderne. En choisissant un modèle Ultralytics , vous accédez à un écosystème complet conçu pour rationaliser l'ensemble du cycle de vie de l'apprentissage automatique.
Pourquoi choisir Ultralytics YOLO?
- Facilité d'utilisation inégalée : Contrairement aux référentiels de recherche qui nécessitent souvent des configurations d'environnement complexes et la compilation d'opérateurs C++ personnalisés, les modèles Ultralytics peuvent être installés via un simple bouton
pip install ultralytics. L'intuition API Python vous permet d'entraîner et de déployer des modèles en quelques lignes de code seulement. - Équilibre des performances : YOLO11 est conçu pour offrir un équilibre optimal entre la vitesse d'inférence et la précision. Il surpasse souvent ses concurrents dans les tests de référence réels tout en conservant des besoins en mémoire réduits pendant l'entraînement.
- Polyvalence des tâches : Alors que YOLOv6 et YOLO sont principalement des détecteurs d'objets, Ultralytics YOLO prend en charge un large éventail de tâches en mode natif, notamment la segmentation des instances, l'estimation de la pose, la classification et la détection de la boîte englobante orientée (Oriented Bounding Box, OBB).
- Un écosystème bien entretenu : Ultralytics fournit un écosystème vivant avec des mises à jour fréquentes, une documentation complète et un support communautaire via Discord et GitHub. Cela garantit que votre projet reste à l'épreuve du temps et compatible avec les dernières bibliothèques matérielles et logicielles.
- Flexibilité de déploiement : Exportez facilement vos modèles formés vers différents formats tels que ONNXTensorRT, CoreML et OpenVINO en utilisant le mode d'exportation intégré, ce qui facilite le déploiement sur tous les supports, des serveurs en nuage aux appareils Raspberry Pi.
Exemple : Exécution de la détection d'objets avec YOLO11
Avec Ultralytics, il est remarquablement simple de se lancer dans la détection de pointe :
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
Conclusion
YOLOv6.0 et YOLO représentent tous deux des étapes importantes dans l'évolution de la détection d'objets. YOLOv6.0 excelle dans les environnements industriels où la vitesse brute et la quantification sont primordiales, en particulier avec sa variante Nano. YOLO illustre la puissance de la recherche par architecture neuronale et de la fusion innovante de caractéristiques, offrant une efficacité et une précision élevées dans la gamme des modèles de petite à moyenne taille.
Cependant, pour les développeurs qui recherchent une solution prête pour la production qui combine des performances de pointe avec la polyvalence et la facilité d'utilisation, Ultralytics YOLO11 reste le choix recommandé. Son écosystème robuste, ses capacités multitâches et son intégration transparente dans les flux de travail MLOps modernes constituent un avantage indéniable pour garantir la réussite des projets.
Explorer d'autres modèles
Pour mieux comprendre le paysage de la détection d'objets, vous pouvez consulter ces comparaisons de modèles :
- YOLO11 vs. YOLOv6
- DAMO-YOLO vs. YOLOv8
- DAMO-YOLO vs. RT-DETR
- YOLOv6 vs. EfficientDet
- DAMO-YOLO vs. YOLOX