EfficientDet vs. YOLOv6-3.0 : Une comparaison technique complète

Dans le paysage évolutif de la vision par ordinateur, le choix de la bonne architecture de détection d'objets est essentiel pour un déploiement réussi. Cette comparaison explore les distinctions techniques entre EfficientDet, un modèle axé sur la recherche de Google, et YOLOv6-3.0, un détecteur de qualité industrielle de Meituan. Alors que EfficientDet a introduit des concepts d'efficacité révolutionnaires tels que la mise à l'échelle composite, YOLOv6-3.0 a été spécialement conçu pour les applications industrielles à faible latence, soulignant ainsi le passage des benchmarks académiques au débit réel.

Comparaison des métriques de performance

Les benchmarks suivants sur le COCO dataset illustrent le compromis entre l'efficacité architecturale et la latence d'inférence. YOLOv6-3.0 démontre une vitesse supérieure sur le matériel GPU, en tirant parti des techniques de reparamétrisation, tandis qu'EfficientDet maintient une précision compétitive à des coûts de calcul plus élevés.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

EfficientDet : Efficacité évolutive

EfficientDet a représenté un changement de paradigme dans la conception de modèles en optimisant systématiquement la profondeur, la largeur et la résolution du réseau. Construit sur le backbone EfficientNet, il a introduit le Bi-directional Feature Pyramid Network (BiFPN), permettant une fusion facile des caractéristiques multi-échelle.

Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google
Date : 2019-11-20
Arxiv : https://arxiv.org/abs/1911.09070
GitHub : https://github.com/google/automl/tree/master/efficientdet
Docs : https://github.com/google/automl/tree/master/efficientdet#readme

Innovations architecturales

Le cœur d'EfficientDet est le BiFPN, qui permet à l'information de circuler à la fois de haut en bas et de bas en haut, fusionnant à plusieurs reprises les caractéristiques à différentes échelles. Cela contraste avec les réseaux de pyramides de caractéristiques (FPN) plus simples souvent utilisés dans les détecteurs plus anciens. De plus, EfficientDet utilise la mise à l'échelle composée, une méthode qui met à l'échelle uniformément le backbone, le BiFPN et les réseaux de classes/boîtes en utilisant un seul coefficient composé $\phi$. Cette approche structurée garantit que les ressources sont équilibrées entre les dimensions du modèle, évitant ainsi les goulots d'étranglement souvent rencontrés dans les architectures conçues manuellement.

Points forts et faiblesses

EfficientDet excelle dans l'efficacité des paramètres, atteignant un mAP élevé avec relativement moins de paramètres que ses contemporains comme YOLOv3. Il est particulièrement efficace pour les tâches de classification d'images et de détection où la taille du modèle (stockage) est une contrainte mais la latence est négociable. Cependant, les connexions irrégulières complexes dans la couche BiFPN et l'utilisation intensive de convolutions séparables en profondeur peuvent être inefficaces sur les GPU standard, entraînant une latence d'inférence plus élevée malgré un nombre de FLOPs inférieur.

Latence vs. FLOPs

Bien que EfficientDet ait de faibles FLOPs (Floating Point Operations), cela ne se traduit pas toujours par une vitesse plus rapide sur les GPU. Les coûts d'accès à la mémoire de ses convolutions séparables en profondeur peuvent étrangler les performances par rapport aux convolutions standard utilisées dans les modèles YOLO.

En savoir plus sur EfficientDet

YOLOv6-3.0 : Vitesse industrielle

YOLOv6-3.0 s'éloigne des mesures purement académiques pour se concentrer sur le débit réel, en optimisant spécifiquement les contraintes matérielles rencontrées dans les environnements industriels.

Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation : Meituan
Date : 2023-01-13
Arxiv : https://arxiv.org/abs/2301.05586
GitHub : https://github.com/meituan/YOLOv6
Docs : https://docs.ultralytics.com/models/yolov6/

Architecture et conception

YOLOv6-3.0 emploie un EfficientRep Backbone, qui utilise la reparamétrisation (style RepVGG) pour découpler les architectures de temps d'entraînement et de temps d'inférence. Pendant l'entraînement, le modèle utilise des blocs multi-branches complexes pour un meilleur flux de gradient ; pendant l'inférence, ceux-ci se replient en convolutions uniques de $3 \times 3$, maximisant la densité de calcul du GPU. La version 3.0 a également intégré des stratégies avancées telles que Quantization-Aware Training (QAT) et l'auto-distillation, permettant au modèle de maintenir la précision même lorsqu'il est quantifié en précision INT8 pour le déploiement sur des appareils edge.

Cas d'utilisation idéaux

En raison de sa conception adaptée au matériel, YOLOv6-3.0 est idéal pour :

Fabrication à haute vitesse : Détection des défauts sur les chaînes de montage rapides où la vitesse d’inférence est non négociable.
Automatisation de la vente au détail : Alimentation des systèmes de caisse sans caissier qui nécessitent une reconnaissance d'objets à faible latence.
Analyses de villes intelligentes : Traitement de plusieurs flux vidéo pour l'analyse du trafic ou les systèmes de sécurité.

En savoir plus sur YOLOv6-3.0

Analyse comparative

La divergence dans la philosophie de conception entre ces deux modèles crée des avantages distincts en fonction du matériel de déploiement.

Précision vs. Vitesse

Comme le montre le tableau, YOLOv6-3.0l atteint un mAP comparable (52,8) à EfficientDet-d6 (52,6) mais fonctionne près de 10 fois plus vite sur un GPU T4 (8,95 ms contre 89,29 ms). Cet écart important met en évidence l'inefficacité des convolutions depthwise sur le matériel à haut débit par rapport aux convolutions denses de YOLOv6. EfficientDet conserve un léger avantage en termes de précision absolue avec sa plus grande variante D7, mais avec un coût de latence qui interdit l'inférence en temps réel.

Entraînement et polyvalence

EfficientDet repose fortement sur l'écosystème TensorFlow et l'accélération TPU pour un entraînement efficace. En revanche, YOLOv6 s'intègre à l'écosystème PyTorch, ce qui le rend plus accessible aux chercheurs en général. Cependant, les deux modèles sont principalement conçus pour la détection d'objets. Pour les projets nécessitant une segmentation d'instance ou une estimation de pose, les utilisateurs doivent souvent rechercher des forks externes ou des architectures alternatives.

L'avantage Ultralytics

Bien que YOLOv6-3.0 et EfficientDet soient des modèles performants, Ultralytics YOLO11 représente la prochaine évolution de la vision par ordinateur, répondant aux limitations des deux prédécesseurs grâce à un cadre unifié et centré sur l'utilisateur.

Pourquoi choisir Ultralytics YOLO11 ?

Facilité d’utilisation et écosystème : Contrairement aux référentiels fragmentés des modèles de recherche, Ultralytics offre une expérience transparente. Une API Python cohérente vous permet d’entraîner, de valider et de déployer des modèles en quelques lignes de code seulement.
Polyvalence inégalée : YOLO11 ne se limite pas aux boîtes englobantes. Il prend en charge nativement la classify d’images, la segment d’instance, l’estimation de pose et les boîtes englobantes orientées (OBB), ce qui en fait une solution unique pour les pipelines d’IA complexes.
Efficacité de l'entraînement : Les modèles Ultralytics sont optimisés pour les besoins en mémoire, convergeant souvent plus rapidement et utilisant moins de VRAM que les architectures plus anciennes ou lourdes en transformateurs. Cette accessibilité démocratise le développement de l'IA haut de gamme pour ceux qui n'ont pas d'énormes clusters de calcul.
Écosystème bien maintenu : Soutenu par une communauté active et des mises à jour fréquentes, l’écosystème Ultralytics garantit que vos projets restent à l’épreuve du temps, avec des intégrations faciles dans des outils pour l’annotation de données, la journalisation et le déploiement.

Développement simplifié

Avec Ultralytics, passer de la détection d’objets à la segmentation d’instances est aussi simple que de modifier le nom du modèle (par exemple, yolo11n.pt à yolo11n-seg.pt). Cette flexibilité réduit considérablement le temps de développement par rapport à l'adaptation de différentes architectures comme EfficientDet pour de nouvelles tâches.

Exemple de code

Découvrez la simplicité de l'API Ultralytics par rapport aux bases de code de recherche complexes :

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

En savoir plus sur YOLO11

Conclusion

EfficientDet reste une référence dans la théorie du scaling de modèles, idéal pour la recherche académique ou le traitement hors ligne où la précision est la seule métrique. YOLOv6-3.0 repousse les limites de l'IA de périphérie industrielle, offrant une excellente vitesse sur le matériel pris en charge.

Cependant, pour une solution holistique qui équilibre les performances de pointe avec la productivité des développeurs, Ultralytics YOLO11 est le choix recommandé. Son intégration de diverses tâches de vision, son faible encombrement mémoire et son système de support robuste permettent aux développeurs de passer du prototype à la production en toute confiance.

Explorer d'autres modèles

Si vous souhaitez explorer davantage, considérez ces comparaisons connexes dans notre documentation :