Passer au contenu

YOLOv6.0 vs EfficientDet : Équilibrer la vitesse et la précision dans la détection d'objets

Dans le paysage en évolution rapide de la vision par ordinateur, le choix de la bonne architecture de détection d'objets est essentiel pour la réussite de votre projet. Cette comparaison porte sur YOLOv6.0 et EfficientDet, deux modèles de premier plan qui abordent le défi de la reconnaissance visuelle sous des angles différents. Alors qu'EfficientDet se concentre sur l'efficacité des paramètres et l'évolutivité, YOLOv6.0 est conçu spécifiquement pour les applications industrielles où la latence de l'inférence et la vitesse en temps réel ne sont pas négociables.

Mesures de performance et analyse technique

La différence fondamentale entre ces deux architectures réside dans leur philosophie de conception. EfficientDet s'appuie sur un mécanisme sophistiqué de fusion des caractéristiques connu sous le nom de BiFPN, qui améliore la précision mais souvent au détriment de la vitesse de calcul sur les GPU. À l'inverse, YOLOv6.0 adopte une conception tenant compte du matériel, en utilisant le reparamétrage pour rationaliser les opérations pendant l'inférence, ce qui permet d'obtenir un nombre d' images par seconde ( FPS ) nettement plus élevé.

Le tableau ci-dessous illustre ce compromis. Alors qu'EfficientDet-d7 atteint un mAP élevé, sa latence est substantielle. En revanche, YOLOv6.0l offre une précision comparable avec des temps d'inférence considérablement réduits, ce qui le rend beaucoup plus adapté aux scénarios d'inférence en temps réel.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Optimisation des performances

Pour les déploiements industriels, la combinaison de YOLOv6.0 et de TensorRT peut apporter des améliorations considérables en termes de vitesse. La simplicité architecturale de YOLOv6 lui permet de s'adapter très efficacement aux instructions matérielles du GPU par rapport aux réseaux pyramidaux complexes que l'on trouve dans les anciens modèles.

YOLOv6.0 : Conçu pour l'industrie

YOLOv6.0 est un détecteur d'objets à un étage conçu pour combler le fossé entre la recherche universitaire et les exigences industrielles. Il privilégie la vitesse sans sacrifier la précision nécessaire à des tâches telles que l'inspection de la qualité.

Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation:Meituan
Date : 2023-01-13
Arxiv:YOLOv6 v3.0 : A Full-Scale Reloading
GitHub:YOLOv6
Docs:YOLOv6 Documentation

Architecture et atouts

Le cœur de YOLOv6.0 est son épine dorsale efficace et sa conception "RepOpt". En utilisant le reparamétrage, le modèle découple les structures multi-branches du temps d'apprentissage des structures mono-branches du temps d'inférence. Il en résulte un modèle facile à entraîner avec des gradients riches, mais extrêmement rapide à exécuter.

  • Autodistillation : La stratégie de formation utilise l'autodistillation, où la prédiction du modèle lui-même agit comme une étiquette souple pour guider l'apprentissage, améliorant ainsi la précision sans données supplémentaires.
  • Prise en charge de la quantification : Il a été conçu en tenant compte de la quantification du modèle, ce qui permet de minimiser les pertes de précision lors de la conversion en INT8 pour le déploiement en périphérie.
  • Objectif industriel : idéal pour l'IA dans les secteurs de la fabrication et de la robotique, où la latence à la milliseconde compte.

En savoir plus sur YOLOv6.0

EfficientDet : Précision évolutive

EfficientDet a révolutionné le domaine en introduisant le concept d'échelle composée dans la détection d'objets. Il optimise simultanément la profondeur, la largeur et la résolution du réseau afin d'obtenir d'excellentes performances pour chaque paramètre.

Auteurs : Mingxing Tan, Ruoming Pang, et Quoc V. Le
Organisation :Google
Date : 2019-11-20
Arxiv:EfficientDet : Détection d'objets efficace et évolutive
GitHub:google

Architecture et atouts

EfficientDet s'appuie sur l'épine dorsale EfficientNet et introduit le Bi-directional Feature Pyramid Network (BiFPN). Cette structure complexe permet une fusion facile et rapide des caractéristiques multi-échelles.

  • BiFPN : Contrairement aux FPN traditionnelles, la BiFPN permet aux informations de circuler à la fois de haut en bas et de bas en haut, en appliquant des pondérations aux différentes caractéristiques d'entrée afin de souligner leur importance.
  • Mise à l'échelle composée : Un simple coefficient $\phi$ permet aux utilisateurs d'augmenter l'échelle du modèle (de d0 à d7) en fonction des ressources disponibles, ce qui permet d'obtenir une courbe prévisible entre la précision et le calcul.
  • Efficacité des paramètres : Les variantes les plus petites (d0-d2) sont extrêmement légères en termes de taille de disque et de FLOP, ce qui les rend utiles dans les environnements où le stockage est limité.

Complexité architecturale

Bien que le BiFPN soit très efficace en termes de précision, ses schémas d'accès à la mémoire irréguliers peuvent le rendre plus lent sur les GPU par rapport aux blocs de convolution denses et réguliers utilisés dans les architectures YOLO . C'est la raison pour laquelle EfficientDet se compare souvent avec une latence d'inférence plus élevée malgré un nombre réduit de paramètres.

En savoir plus sur EfficientDet

Cas d'utilisation concrets

Le choix entre ces modèles dépend souvent des contraintes spécifiques de l'environnement de déploiement.

Scénarios idéaux pour YOLOv6.0

  • Fabrication à grande vitesse : Détection des défauts sur les bandes transporteuses à rotation rapide, où un taux d'échantillonnage élevé est nécessaire pour track chaque article.
  • Navigation autonome : Permettre à la robotique de naviguer dans des environnements dynamiques en traitant les flux vidéo en temps réel.
  • Informatique en périphérie : Déploiement sur des appareils tels que le NVIDIA Jetson où les ressources GPU doivent être maximisées pour le débit.

Scénarios idéaux pour EfficientDet

  • Analyse médicale : analyse d'images statiques à haute résolution, comme la détection de tumeurs aux rayons X, où le temps de traitement est moins important que la précision.
  • Télédétection : Traitement de l'imagerie satellitaire hors ligne pour identifier les changements environnementaux ou le développement urbain.
  • IoT à faible capacité de stockage : Appareils dont la capacité de stockage est extrêmement limitée et qui nécessitent un fichier modèle de petite taille (comme EfficientDet-d0).

L'avantage Ultralytics : Pourquoi choisir YOLO11 ?

Si YOLOv6.0 et EfficientDet sont des modèles performants, le modèle Ultralytics YOLO11 représente la pointe de la technologie en matière de vision par ordinateur. YOLO11 affine les meilleurs attributs des générations précédentes de YOLO et les intègre dans un écosystème transparent et convivial.

Principaux avantages de YOLO11

  1. Facilité d'utilisation : Ultralytics donne la priorité à l'expérience des développeurs. Avec une API Pythonique, vous pouvez entraîner, valider et déployer des modèles en quelques lignes de code, contrairement aux fichiers de configuration complexes souvent requis pour EfficientDet.
  2. Polyvalence : Contrairement à YOLOv6 et EfficientDet qui sont principalement des modèles de détection d'objets, YOLO11 prend en charge de manière native de multiples tâches, notamment la segmentation d'instances, l'estimation de la pose, les boîtes de délimitation orientées (OBB) et la classification.
  3. Équilibre des performances : YOLO11 réalise un compromis de pointe entre la vitesse et la précision. Il surpasse régulièrement les architectures plus anciennes sur l'ensemble de donnéesCOCO tout en conservant une faible latence.
  4. Un écosystème bien entretenu : Les modèles Ultralytics sont soutenus par une communauté active et des mises à jour fréquentes. Vous avez accès à une documentation complète, à des tutoriels et à des intégrations transparentes avec des outils tels qu'Ultralytics HUB pour la formation en nuage et la gestion des ensembles de données.
  5. Efficacité de la formation : YOLO11 est conçu pour être économe en ressources lors de l'apprentissage, convergeant souvent plus rapidement et nécessitant moins de mémoireGPU que les modèles complexes basés sur les transformateurs ou les architectures plus anciennes.
from ultralytics import YOLO

# Load the YOLO11 model (recommended over older versions)
model = YOLO("yolo11n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

En savoir plus sur YOLO11

Explorer d'autres modèles

Si vous évaluez des options pour votre pipeline de vision par ordinateur, envisagez d'explorer d'autres modèles du catalogue Ultralytics . Les modèles YOLOv8 offre des performances robustes pour un large éventail de tâches, tandis que le modèle RT-DETR basé sur un transformateur, constitue une alternative pour les scénarios nécessitant une connaissance du contexte global. Pour les applications mobiles spécifiques, YOLOv10 mérite également d'être étudié. La comparaison avec EfficientDet peut vous aider à affiner votre choix en fonction de votre matériel spécifique et de vos exigences en matière de précision.


Commentaires