Passer au contenu

DAMO-YOLO vs. EfficientDet : Une comparaison technique

Dans le paysage en évolution rapide de la vision par ordinateur, le choix de la bonne architecture de détection d'objets est essentiel pour la réussite d'une application. Cette analyse complète compare DAMO-YOLO, un modèle haute performance d'Alibaba, à EfficientDet, une architecture évolutive et efficace de Google. Les deux modèles ont introduit des innovations significatives dans le domaine, en s'attaquant au compromis éternel entre la vitesse, la précision et le coût de calcul.

Aperçus des modèles

Avant de plonger dans les métriques de performance, il est essentiel de comprendre l'origine et la philosophie architecturale de chaque modèle.

DAMO-YOLO

Développé par Alibaba Group, DAMO-YOLO (Distillation-Enhanced Neural Architecture Search-based YOLO) se concentre sur la maximisation de la vitesse d'inférence sans compromettre la précision. Il introduit des technologies telles que la recherche d'architecture neuronale (NAS) pour les backbones, un RepGFPN (Reparameterized Generalized Feature Pyramid Network) efficace et un head de détection léger connu sous le nom de ZeroHead.

Détails de DAMO-YOLO :

En savoir plus sur DAMO-YOLO

EfficientDet

EfficientDet, créé par l’équipe Google Brain, a révolutionné la détection d’objets en proposant une méthode de mise à l’échelle composée. Cette approche met à l’échelle uniformément la résolution, la profondeur et la largeur du backbone, du réseau de caractéristiques et des réseaux de prédiction. Il est doté du BiFPN (Bi-directional Feature Pyramid Network), qui permet une fusion facile et rapide des caractéristiques.

Détails d'EfficientDet :

En savoir plus sur EfficientDet

Analyse des performances : Vitesse, précision et efficacité

Le graphique et le tableau suivants fournissent une comparaison quantitative des modèles EfficientDet et DAMO-YOLO sur le COCO dataset. Ces benchmarks mettent en évidence les objectifs d'optimisation distincts de chaque architecture.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Points clés à retenir

D'après les données, nous pouvons observer des points forts distincts pour chaque famille de modèles :

  1. Latence du GPU : DAMO-YOLO domine en vitesse d'inférence GPU. Par exemple, DAMO-YOLOm atteint un précision moyenne (mAP) de 49,2 avec une latence de seulement 5,09 ms sur un GPU T4. En revanche, EfficientDet-d4, avec un mAP similaire de 49,7, est significativement plus lent à 33,55 ms.
  2. Efficacité des paramètres : EfficientDet est extrêmement léger en termes de paramètres et opérations en virgule flottante (FLOPs). EfficientDet-d0 n'utilise que 3,9 millions de paramètres, ce qui le rend très efficace en termes de stockage, bien que cela ne se traduise pas toujours par une inférence plus rapide sur les GPU modernes par rapport aux modèles optimisés pour l'architecture comme DAMO-YOLO.
  3. Performance du CPU : EfficientDet fournit des benchmarks CPU fiables, ce qui suggère qu’il reste une option viable pour le matériel existant où l’accélération GPU n’est pas disponible.

Note sur l'architecture

L'avantage de YOLO en termes de vitesse provient de son optimisation spécifique pour la latence matérielle en utilisant la recherche d'architecture neuronale (NAS), alors qu'EfficientDet optimise pour les FLOPs théoriques, ce qui n'est pas toujours en corrélation linéaire avec la latence dans le monde réel.

Plongée architecturale en profondeur

EfficientDet : La puissance de la mise à l’échelle composée

EfficientDet est basé sur le backbone EfficientNet, qui utilise des convolutions de bottleneck inversées mobiles (MBConv). Sa caractéristique déterminante est le BiFPN, un réseau de pyramides de caractéristiques bidirectionnel pondéré. Contrairement aux FPN traditionnels qui ne font que sommer les caractéristiques de haut en bas, BiFPN permet à l'information de circuler à la fois de haut en bas et de bas en haut, en traitant chaque couche de caractéristiques avec des poids apprenables. Cela permet au réseau de comprendre l'importance des différentes caractéristiques d'entrée.

Le modèle s'adapte à l'aide d'un coefficient composé, phi, qui augmente uniformément la largeur, la profondeur et la résolution du réseau, de sorte que les modèles plus grands (comme d7) restent équilibrés en termes de précision et d'efficacité.

DAMO-YOLO : Innovation axée sur la vitesse

DAMO-YOLO adopte une approche différente en se concentrant sur la latence en temps réel. Il utilise MAE-NAS (Method of Automating Architecture Search) pour trouver la structure de backbone optimale sous des contraintes de latence spécifiques.

Les principales innovations comprennent :

  • RepGFPN : Une amélioration par rapport au GFPN standard, améliorée par la reparamétrisation pour optimiser les chemins de fusion des caractéristiques pour la vitesse.
  • ZeroHead : Une tête de détection simplifiée qui réduit la charge de calcul généralement associée aux couches de prédiction finales.
  • AlignedOTA : Une stratégie d’attribution d’étiquettes qui résout le désalignement entre les tâches de classification et de régression pendant la formation.

Cas d'utilisation et applications

Les différences architecturales dictent où chaque modèle excelle dans les scénarios du monde réel.

  • EfficientDet est idéal pour les environnements à stockage limité ou les applications reposant sur l’inférence CPU où la minimisation des FLOPs est cruciale. Il est souvent utilisé dans les applications mobiles et les systèmes embarqués où la durée de vie de la batterie (corrélée aux FLOPs) est une préoccupation majeure.
  • DAMO-YOLO excelle dans l'automatisation industrielle, la conduite autonome et la surveillance de sécurité où l'inférence en temps réel sur les GPU est requise. Sa faible latence permet de traiter des flux vidéo à fréquence d'images élevée sans perte d'images.

L'avantage Ultralytics

Bien que DAMO-YOLO et EfficientDet soient des modèles performants, l'écosystème Ultralytics offre une solution plus complète pour le développement de l'IA moderne. Les modèles tels que YOLO11, à la pointe de la technologie, et le modèle polyvalent YOLOv8 offrent des avantages significatifs en termes de convivialité, de performances et d'ensemble de fonctionnalités.

En savoir plus sur YOLO11

Pourquoi choisir Ultralytics ?

  • Équilibre des performances : Les modèles Ultralytics sont conçus pour offrir le meilleur compromis entre vitesse et précision. YOLO11, par exemple, offre une mAP supérieure par rapport aux générations précédentes tout en conservant des vitesses d'inférence exceptionnelles sur les CPU et les GPU.
  • Facilité d'utilisation : Avec une philosophie « batteries incluses », Ultralytics fournit une API Python simple et une interface de ligne de commande (CLI) puissante. Les développeurs peuvent passer de l'installation à l'entraînement en quelques minutes.

    from ultralytics import YOLO
    
    # Load a pre-trained YOLO11 model
    model = YOLO("yolo11n.pt")
    
    # Run inference on an image
    results = model("path/to/image.jpg")
    
  • Écosystème bien maintenu : Contrairement à de nombreux modèles de recherche qui sont abandonnés après leur publication, Ultralytics maintient un dépôt actif avec des mises à jour fréquentes, des corrections de bugs et un support communautaire via les problèmes GitHub et les discussions.

  • Polyvalence : Les modèles Ultralytics ne sont pas limités aux boîtes englobantes. Ils prennent en charge nativement la segmentation d’instance, l’estimation de pose, la classification d’images et les boîtes englobantes orientées (OBB), le tout dans un seul framework unifié.
  • Efficacité de la mémoire : Les modèles Ultralytics YOLO sont conçus pour être efficaces en termes de mémoire pendant l’entraînement. Cela contraste avec les modèles basés sur des transformateurs ou les anciennes architectures, qui nécessitent souvent une mémoire CUDA importante, ce qui rend les modèles Ultralytics accessibles sur du matériel grand public.
  • Efficacité de l'entraînement : Le framework prend en charge des fonctionnalités telles que la précision mixte automatique (AMP), l'entraînement multi-GPU et la mise en cache, garantissant que l'entraînement d'ensembles de données personnalisés est rapide et rentable.

Conclusion

DAMO-YOLO et EfficientDet représentent tous deux des étapes importantes dans l'histoire de la vision par ordinateur. EfficientDet a démontré la puissance de la mise à l'échelle basée sur des principes et de la fusion efficace de caractéristiques, tandis que DAMO-YOLO a repoussé les limites de la recherche d'architectures tenant compte de la latence.

Cependant, pour les développeurs à la recherche d'une solution prête à la production qui combine des performances élevées avec une expérience développeur exceptionnelle, Ultralytics YOLO11 est le choix recommandé. Son intégration dans un écosystème robuste, sa prise en charge de multiples tâches de vision par ordinateur et ses améliorations continues en font l'outil le plus pratique pour transformer les données visuelles en informations exploitables.

Explorer d’autres comparaisons de modèles

Pour vous aider davantage dans le processus de sélection de votre modèle, explorez ces comparaisons connexes dans la documentation Ultralytics :


Commentaires