YOLOv6-3.0 contre EfficientDet : Comparaison détaillée
Choisir le modèle de détection d'objets optimal est une décision essentielle pour les projets de vision par ordinateur. Cette page offre une comparaison technique entre YOLOv6-3.0 de Meituan et EfficientDet de Google, deux modèles de premier plan dans le domaine de la détection d'objets. Nous allons examiner leurs conceptions architecturales, leurs benchmarks de performance et leurs applications appropriées afin de vous aider à faire un choix éclairé pour vos besoins spécifiques.
Présentation de YOLOv6-3.0
YOLOv6-3.0, développé par Meituan, est un framework de détection d'objets en une seule étape conçu pour les applications industrielles, mettant l'accent sur un équilibre entre haute performance et efficacité. Il s'appuie sur l'héritage de YOLO en introduisant une conception de réseau neuronal tenant compte du matériel.
Détails :
- Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
- Organisation : Meituan
- Date : 2023-01-13
- Arxiv: https://arxiv.org/abs/2301.05586
- GitHub : https://github.com/meituan/YOLOv6
- Documentation : https://docs.ultralytics.com/models/yolov6/
Architecture et principales fonctionnalités
Les principales caractéristiques architecturales de YOLOv6-3.0 comprennent un Backbone de reparamétrisation efficace qui optimise la structure du réseau après l’entraînement pour accélérer la vitesse d’inférence et des blocs hybrides qui équilibrent la précision et l’efficacité dans les couches d’extraction de caractéristiques. Cette conception le rend particulièrement efficace pour les applications en temps réel.
Performance et cas d'utilisation
YOLOv6-3.0 est particulièrement bien adapté aux tâches de détection d'objets en temps réel où la vitesse et la précision sont toutes deux essentielles. Sa conception efficace permet des temps d'inférence rapides, ce qui le rend idéal pour des applications telles que :
- Automatisation industrielle : Contrôle qualité et surveillance des processus de fabrication.
- Surveillance en temps réel : Systèmes de sécurité et gestion du trafic.
- Applications d'IA en périphérie : Déploiement sur des appareils avec des ressources de calcul limitées comme NVIDIA Jetson.
Points forts de YOLOv6-3.0
- Vitesse d’inférence élevée : Optimisé pour des performances rapides, ce qui le rend adapté aux besoins industriels.
- Bonne précision : Fournit des scores mAP compétitifs, en particulier dans les variantes de modèles plus grands.
- Orientation industrielle : Spécialement conçu pour des scénarios de déploiement industriel pratiques.
Faiblesses de YOLOv6-3.0
- Polyvalence limitée : Principalement axé sur la détection d’objets, il ne prend pas en charge nativement d’autres tâches telles que la segmentation ou l’estimation de pose.
- Écosystème : Bien qu'il soit open source, son écosystème n'est pas aussi complet que celui d'Ultralytics, ce qui peut signifier moins de support communautaire et des mises à jour plus lentes.
Aperçu d'EfficientDet
EfficientDet, introduit par Google, est réputé pour son efficacité et son évolutivité dans la détection d'objets, atteignant une haute précision avec moins de paramètres que de nombreux modèles précédents.
Détails :
- Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
- Organisation : Google
- Date : 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub : https://github.com/google/automl/tree/master/efficientdet
- Docs : https://github.com/google/automl/tree/master/efficientdet#readme
Architecture et principales fonctionnalités
L'architecture d'EfficientDet repose sur deux innovations clés :
- BiFPN (Bidirectional Feature Pyramid Network) : Un réseau de pyramide de caractéristiques bidirectionnel pondéré qui permet une fusion de caractéristiques multi-échelle efficace. Contrairement aux FPN traditionnels, BiFPN utilise des connexions bidirectionnelles inter-échelles et une fusion de caractéristiques pondérée pour une meilleure circulation de l’information.
- Backbone EfficientNet : Il exploite la série EfficientNet comme réseau de backbone. Les modèles EfficientNet ont été développés via la recherche d'architecture neurale (NAS), atteignant un excellent équilibre entre performances et efficacité.
EfficientDet utilise une méthode de mise à l'échelle composite pour mettre à l'échelle la largeur, la profondeur et la résolution du réseau, créant ainsi une famille de détecteurs de D0 à D7 pour différents budgets de calcul.
Performance et cas d'utilisation
Les modèles EfficientDet sont connus pour leur haute précision, ce qui les rend adaptés aux applications où la précision est la priorité absolue, mais où les ressources de calcul restent un facteur. Les cas d'utilisation comprennent :
- Analyse d’images de haute précision : Analyse d’images médicales et analyse d’images satellite.
- Compréhension détaillée de la scène : Robotique et conduite autonome nécessitant une reconnaissance d'objets précise.
Points forts d'EfficientDet
- Haute précision : Obtient un mAP à la pointe de la technologie avec des architectures relativement efficaces par rapport aux anciens détecteurs à deux étapes.
- Scalabilité : Offre une large gamme de modèles (D0-D7) pour répondre à différents besoins de calcul.
- Fusion de caractéristiques efficace : Le BiFPN est très efficace pour fusionner des caractéristiques multi-échelles, ce qui améliore la précision de la détection.
Faiblesses d'EfficientDet
- Vitesse d'inférence : Généralement plus lent que les détecteurs à une étape comme YOLOv6-3.0, en particulier les variantes les plus grandes, ce qui le rend moins adapté aux applications en temps réel.
- Complexité : L'architecture, en particulier la BiFPN, est plus complexe que les détecteurs à une étape plus simples.
En savoir plus sur EfficientDet
Comparaison des performances : YOLOv6-3.0 vs. EfficientDet
Les benchmarks de performance sur le jeu de données COCO révèlent un compromis clair entre la vitesse et la précision. Les modèles YOLOv6-3.0 démontrent un avantage significatif en termes de latence d'inférence, en particulier lorsqu'ils sont accélérés avec TensorRT sur un GPU. Par exemple, YOLOv6-3.0l atteint un mAP de 52,8 avec un temps d'inférence de seulement 8,95 ms, tandis que le EfficientDet-d6 comparable atteint un mAP similaire de 52,6, mais est près de 10 fois plus lent à 89,29 ms. Bien que le plus grand modèle EfficientDet-d7 atteigne la plus haute précision à 53,7 mAP, sa vitesse d'inférence extrêmement lente le rend impraticable pour la plupart des déploiements réels. En revanche, YOLOv6-3.0 offre un équilibre beaucoup plus pratique, offrant une forte précision avec les vitesses élevées nécessaires pour les systèmes industriels et en temps réel.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Conclusion
YOLOv6-3.0 et EfficientDet sont tous deux des détecteurs d'objets puissants, mais ils répondent à des priorités différentes. EfficientDet excelle dans les scénarios où l'obtention de la plus grande précision possible est primordiale et où la latence d'inférence est une préoccupation secondaire. Son architecture BiFPN sophistiquée et évolutive en fait un concurrent de taille pour l'analyse hors ligne de scènes complexes. Cependant, pour la grande majorité des applications industrielles et du monde réel, YOLOv6-3.0 offre une solution beaucoup plus pratique et efficace en raison de son meilleur équilibre vitesse-précision.
Pour les développeurs et les chercheurs à la recherche d'un modèle qui repousse les limites de la performance, de la polyvalence et de la facilité d'utilisation, la recommandation claire est de se tourner vers l'écosystème Ultralytics. Les modèles tels que le populaire Ultralytics YOLOv8 et le dernier cri YOLO11 offrent des avantages significatifs:
- Équilibre des performances : Les modèles Ultralytics YOLO sont réputés pour leur compromis exceptionnel entre vitesse et précision, surpassant souvent leurs concurrents dans les deux mesures pour une taille de modèle donnée.
- Polyvalence : Contrairement à YOLOv6 et EfficientDet, qui sont principalement destinés à la détection d'objets, les modèles Ultralytics sont des frameworks multitâches prenant en charge la segmentation d'instance, l'estimation de pose, la classification d'images, et plus encore, le tout dans un package unique et unifié.
- Facilité d'utilisation : Le framework Ultralytics est conçu pour une expérience utilisateur simplifiée avec une API Python simple, une documentation exhaustive et de nombreux tutoriels.
- Écosystème bien maintenu : Les utilisateurs bénéficient d'un développement actif, d'un fort soutien de la communauté, de mises à jour fréquentes et d'une intégration transparente avec des outils tels que Ultralytics HUB pour un MLOps de bout en bout.
- Efficacité de l'entraînement : Les modèles Ultralytics sont efficaces à entraîner, nécessitant souvent moins de mémoire et de temps, et sont livrés avec des poids pré-entraînés facilement disponibles sur l'ensemble de données COCO pour accélérer les projets personnalisés.
Explorer d'autres modèles
Si vous explorez des options au-delà de YOLOv6-3.0 et EfficientDet, envisagez d'autres modèles de pointe documentés par Ultralytics. Vous pourriez trouver des comparaisons détaillées avec des modèles tels que YOLOv8, YOLOv7, YOLOX, et le RT-DETR basé sur les transformeurs instructives pour votre projet.