YOLOv6.0 vs. YOLOv9: la vitesse industrielle rencontre l'efficacité de pointe
Le choix du modèle optimal de détection d'objets est une décision cruciale dans le développement de la vision par ordinateur, qui nécessite un équilibre stratégique entre la précision, la vitesse d'inférence et l'efficacité de calcul. Cette comparaison examine les nuances techniques de YOLOv6.0, un modèle conçu par Meituan pour un rendement industriel, et de YOLOv6, un modèle conçu par Meituan pour un rendement industriel. YOLOv9une architecture de pointe qui redéfinit l'efficacité par la préservation de l'information.
YOLOv6.0 : Optimisé pour les applications industrielles
YOLOv6.0 se concentre fortement sur des scénarios de déploiement pratiques où la latence du matériel est le principal goulot d'étranglement.
- Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
- Organisation :Meituan
- Date : 2023-01-13
- Arxiv :https://arxiv.org/abs/2301.05586
- GitHub :https://github.com/meituan/YOLOv6
- Docs :https://docs.ultralytics.com/models/yolov6/
Philosophie de l'architecture et du design
YOLOv6.0 est conçu comme un réseau neuronal convolutif (CNN) adapté au matériel. L'architecture utilise une épine dorsale de reparamétrage efficace et des blocs hybrides (RepBi-PAN) pour maximiser le débit sur les GPU. En adaptant la structure du modèle aux caractéristiques spécifiques du matériel, YOLOv6 vise à fournir des vitesses d'inférence élevées sans compromettre gravement la précision. Il s'agit d'un détecteur à étape unique optimisé pour l'automatisation industrielle et la surveillance, où le traitement en temps réel n'est pas négociable.
Points forts et limites
Points forts :
- Vitesse d'inférence : le modèle excelle dans les environnements à faible latence, en particulier sur les GPU NVIDIA T4, ce qui le rend adapté aux chaînes de fabrication à grande vitesse.
- Optimisation du matériel : Sa conception "adaptée au matériel" garantit que le modèle utilise efficacement la bande passante de la mémoire et les unités de calcul pendant le déploiement.
Faiblesses :
- Représentation des caractéristiques : Ne dispose pas des techniques avancées de préservation des informations de gradient que l'on trouve dans les modèles plus récents tels que YOLOv9, ce qui entraîne une baisse de précision plus importante lorsque la taille du modèle diminue.
- Soutien de l'écosystème : Bien qu'efficace, l'écosystème environnant pour les outils, le soutien de la communauté et l'intégration facile est moins étendu que le cadre Ultralytics .
- Polyvalence limitée : Principalement axé sur la détection des boîtes englobantes, il offre moins de prise en charge native des tâches complexes telles que la segmentation ou l'estimation de la pose que les modèles polyvalents d'Ultralytics .
YOLOv9: Redéfinir la précision et le flux d'informations
YOLOv9 introduit de nouveaux concepts architecturaux qui abordent le problème fondamental de la perte d'informations dans les réseaux profonds, en obtenant des mesures de performance supérieures.
- Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
- Organisation :Institut des sciences de l'information, Academia Sinica, Taiwan
- Date : 2024-02-21
- Arxiv :https://arxiv.org/abs/2402.13616
- GitHub :https://github.com/WongKinYiu/yolov9
- Docs :https://docs.ultralytics.com/models/yolov9/
Architecture : PGI et GELAN
YOLOv9 se différencie par deux innovations révolutionnaires : l'information de gradient programmable (PGI) et le réseau d'agrégation de couches efficace généralisé (GELAN).
- L'IGP combat le problème du goulot d'étranglement de l'information inhérent aux réseaux neuronaux profonds. En conservant des données de gradient cruciales entre les couches, l'IGP garantit que le modèle apprend des caractéristiques plus fiables, ce qui se traduit par une plus grande précision.
- GELAN optimise l'utilisation des paramètres, ce qui permet au modèle d'atteindre une plus grande précision avec moins de paramètres et de coûts de calcul par rapport aux architectures traditionnelles.
Pleins feux sur l'innovation : Information programmable sur le gradient (PGI)
Les réseaux profonds perdent souvent des informations au fur et à mesure que les données traversent les couches successives, un phénomène connu sous le nom de goulot d'étranglement de l'information. L'IGP de YOLOv9 agit comme un mécanisme de supervision auxiliaire, garantissant que les données essentielles à l'apprentissage des objets cibles sont préservées dans toute la profondeur du réseau. Il en résulte une convergence et une précision nettement meilleures, en particulier pour les objets difficiles detect détecter.
Avantages de l'écosystème Ultralytics
L'intégration de YOLOv9 dans l'écosystème Ultralytics offre des avantages indéniables aux développeurs :
- Facilité d'utilisation : Une APIPython unifiée et un CLI simplifient la formation, la validation et le déploiement.
- Équilibre des performances : YOLOv9 atteint l'état de l'art mAP de pointe tout en conservant des vitesses d'inférence compétitives, ce qui constitue un excellent compromis pour diverses applications.
- Efficacité de la mémoire : Les implémentations Ultralytics sont optimisées pour des empreintes mémoire réduites pendant la formation, ce qui contraste avec les besoins élevés en VRAM de certains modèles basés sur des transformateurs.
- Polyvalence : Au-delà de la détection, la flexibilité de l'architecture dans le cadre d'Ultralytics permet l'extension à d'autres tâches, soutenue par une communauté solide et des mises à jour fréquentes.
Analyse comparative des performances
Les données de performance mettent en évidence une distinction claire : YOLOv6.0 optimise la vitesse brute sur un matériel spécifique, tandis que YOLOv9 domine en termes d'efficacité (précision par paramètre).
Par exemple, YOLOv9c atteint un mAP 53,0 % avec seulement 25,3 millions de paramètres, surpassant YOLOv6.0l (52,8 % mAP) qui nécessite plus du double de paramètres (59,6 millions) et des FLOP beaucoup plus élevés. Cela suggère que les innovations architecturales de YOLOv9(GELAN et PGI) lui permettent d'"apprendre plus avec moins", ce qui en fait un choix très efficace pour les environnements à ressources limitées qui exigent toujours une grande précision.
À l'inverse, le YOLOv6.0n offre une latence extrêmement faible (1,17 ms), ce qui le rend viable pour l'inférence en temps réel ultra-rapide où une baisse de la précision (37,5 % mAP) est acceptable.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Workflows de formation et de déploiement
L'expérience du développeur varie considérablement entre les deux modèles. YOLOv6.0 s'appuie généralement sur un flux de travail spécifique au référentiel, impliquant des scripts shell et des fichiers de configuration manuels. Bien que puissant, ce modèle peut présenter une courbe d'apprentissage plus abrupte pour les nouveaux venus.
En revanche, YOLOv9 bénéficie de la technologie rationalisée Ultralytics rationalisé. La formation d'un modèle de pointe nécessite un minimum de code, et l'écosystème prend en charge l'exportation transparente vers des formats tels que ONNX, TensorRTet CoreML pour une large compatibilité de déploiement.
Exemple : Former YOLOv9 avec Ultralytics
L'interfacePython d'Ultralytics permet d'initier des cycles d'entraînement avec seulement quelques lignes de code, en gérant automatiquement l'augmentation des données, l'enregistrement et l'évaluation.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Flexibilité du déploiement
Les modèles Ultralytics , y compris YOLOv9, prennent en charge l'exportation en un clic vers différents formats adaptés à l'IA périphérique et au déploiement dans le nuage. Cette flexibilité simplifie le passage de la recherche à la production.
Cas d'utilisation idéaux
YOLOv6.0
- Lignes d'assemblage à grande vitesse : Systèmes de contrôle de la qualité où la vitesse des convoyeurs exige une latence inférieure à 2 ms.
- Matériel dédié : Scénarios fonctionnant sur des GPU NVIDIA spécifiques où l'architecture matérielle est pleinement exploitée.
YOLOv9
- Systèmes autonomes : lesvéhicules et la robotiqueautopilotés nécessitent une grande précision pour naviguer en toute sécurité dans des environnements complexes.
- Imagerie médicale : Applications telles que la détection de tumeurs, où l'absence d'une petite caractéristique (faux négatif) est inacceptable.
- CV à usage général : Développeurs à la recherche d'un modèle robuste et facile à utiliser, doté d'une excellente documentation et du soutien de la communauté pour diverses tâches.
Conclusion
YOLOv6.0 reste un outil puissant pour les applications industrielles spécialisées qui privilégient le débit brut sur du matériel spécifique, YOLOv9 s'impose comme le meilleur choix pour la majorité des projets modernes de vision par ordinateur.
L'architecture innovante PGI et GELAN de YOLOv9 offre un meilleur équilibre entre précision et efficacité, surpassant souvent YOLOv6 en termes de performance par paramètre. De plus, l'intégration avec l'écosystèmeUltralytics permet aux développeurs de bénéficier d'un flux de travail rationalisé, d'une maintenance active et d'une suite d'outils qui accélèrent le passage des données au déploiement. Pour ceux qui recherchent un modèle polyvalent, performant et à l'épreuve du temps, YOLOv9 est la voie à suivre.
Explorer d'autres modèles
Si vous êtes à la recherche d'options de pointe, considérez ces autres modèles puissants dans la bibliothèque Ultralytics :
- YOLO11: La dernière évolution de la série YOLO , qui offre des performances de pointe en matière de détection, de segmentation et d'estimation de la pose.
- YOLOv8: Un modèle très populaire et polyvalent connu pour son équilibre entre vitesse et précision dans de multiples tâches.
- RT-DETR: un détecteur à base de transformateur qui excelle dans la précision sans nécessiter de suppression non maximaleNMS