Passer au contenu

DAMO-YOLO vs. EfficientDet : Une comparaison technique

Dans le paysage en évolution rapide de la vision par ordinateur, le choix de la bonne architecture de détection d'objets est essentiel pour la réussite de l'application. Cette analyse complète compare YOLO, un modèle haute performance d'Alibaba, à EfficientDet, une architecture évolutive et efficace de Google. Les deux modèles ont introduit des innovations significatives dans le domaine, en s'attaquant à l'éternel compromis entre la vitesse, la précision et le coût de calcul.

Aperçu des modèles

Avant de se pencher sur les mesures de performance, il est essentiel de comprendre le pedigree et la philosophie architecturale de chaque modèle.

DAMO-YOLO

Développé par le groupe Alibaba, YOLO (Distillation-Enhanced Neural Architecture Search-based YOLO) vise à maximiser la vitesse d'inférence sans compromettre la précision. Il introduit des technologies telles que la recherche d'architecture neuronale (NAS) pour les dorsales, un réseau efficace RepGFPN (Reparameterized Generalized Feature Pyramid Network) et une tête de détection légère appelée ZeroHead.

YOLO Détails :

En savoir plus sur DAMO-YOLO

EfficientDet

EfficientDet, créé par l'équipe de Google Brain, a révolutionné la détection d'objets en proposant une méthode de mise à l'échelle composée. Cette approche met uniformément à l'échelle la résolution, la profondeur et la largeur de l'épine dorsale, du réseau de caractéristiques et des réseaux de prédiction. Elle utilise le BiFPN (Bi-directional Feature Pyramid Network), qui permet une fusion facile et rapide des caractéristiques.

EfficientDet Details :

En savoir plus sur EfficientDet

Analyse des performances : Vitesse, précision et efficacité

Le graphique et le tableau suivants fournissent une comparaison quantitative des modèles EfficientDet et YOLO sur l'ensemble de donnéesCOCO . Ces repères mettent en évidence les objectifs d'optimisation distincts de chaque architecture.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Points clés à retenir

Les données permettent d'observer des points forts distincts pour chaque famille de modèles :

  1. Temps de latence du GPU : YOLO domine la vitesse d'inférence du GPU . A titre d'exemple, DAMO-YOLOm atteint un précision moyennemAP de 49,2 avec une latence de seulement 5,09 ms sur un GPU T4. En revanche, EfficientDet-d4avec une mAP similaire de 49,7, est nettement plus lent (33,55 ms).
  2. Paramètre Efficacité : EfficientDet est extrêmement léger en termes de paramètres et d'outils. opérations en virgule flottante (FLOP). EfficientDet-d0 n'utilise que 3,9 millions de paramètres, ce qui le rend très efficace en termes de stockage, bien que cela ne se traduise pas toujours par une inférence plus rapide sur les GPU modernes par rapport aux modèles à architecture optimisée tels que YOLO.
  3. Performance duCPU : EfficientDet fournit des références CPU fiables, ce qui suggère qu'il reste une option viable pour le matériel existant où l'accélération GPU n'est pas disponible.

Note sur l'architecture

L'avantage de YOLO en termes de vitesse provient de son optimisation spécifique pour la latence matérielle en utilisant la recherche d'architecture neuronale (NAS), alors qu'EfficientDet optimise pour les FLOPs théoriques, ce qui n'est pas toujours en corrélation linéaire avec la latence dans le monde réel.

Plongée architecturale en profondeur

EfficientDet : La puissance de l'échelle composée

EfficientDet est construit sur l'épine dorsale EfficientNet, qui utilise des convolutions mobiles à goulot d'étranglement inversé (MBConv). Sa caractéristique principale est le BiFPN, un réseau pyramidal bidirectionnel pondéré. Contrairement aux réseaux pyramidaux traditionnels qui n'additionnent que les caractéristiques de haut en bas, le BiFPN permet aux informations de circuler à la fois de haut en bas et de bas en haut, en traitant chaque couche de caractéristiques avec des poids qui peuvent être appris. Cela permet au réseau de comprendre l'importance des différentes caractéristiques d'entrée.

Le modèle s'échelonne à l'aide d'un coefficient composé, phi, qui augmente uniformément la largeur, la profondeur et la résolution du réseau, de sorte que les modèles les plus importants (comme le d7) restent équilibrés entre la précision et l'efficacité.

YOLO: L'innovation axée sur la vitesse

YOLO adopte une approche différente en se concentrant sur la latence en temps réel. Il utilise la méthode MAE-NAS (Method of Automating Architecture Search) pour trouver la structure optimale du réseau fédérateur en fonction de contraintes de latence spécifiques.

Les principales innovations sont les suivantes :

  • RepGFPN : Une amélioration du GFPN standard, avec reparamétrage pour optimiser les chemins de fusion des caractéristiques pour plus de rapidité.
  • ZeroHead : une tête de détection simplifiée qui réduit la charge de calcul généralement associée aux couches de prédiction finales.
  • AlignedOTA : une stratégie d'attribution d'étiquettes qui résout les problèmes d'alignement entre les tâches de classification et de régression au cours de la formation.

Cas d'utilisation et applications

Les différences architecturales déterminent où chaque modèle excelle dans les scénarios du monde réel.

  • EfficientDet est idéal pour les environnements à stockage limité ou les applications reposant sur l'inférence CPU où la minimisation des FLOPs est cruciale. Il est souvent utilisé dans les applications mobiles et les systèmes embarqués où la durée de vie de la batterie (corrélée aux FLOP) est une préoccupation majeure.
  • YOLO excelle dans l'automatisation industrielle, la conduite autonome et la surveillance de la sécurité où l'inférence en temps réel sur les GPU est nécessaire. Sa faible latence permet de traiter des flux vidéo à haut débit sans perte d'images.

L'avantage Ultralytics

Si YOLO et EfficientDet sont des modèles performants, le modèle Ultralytics offre une solution plus complète pour le développement de l'IA moderne. Des modèles tels que le modèle de pointe YOLO11 et le polyvalent YOLOv8 offrent des avantages significatifs en termes de convivialité, de performances et de fonctionnalités.

En savoir plus sur YOLO11

Pourquoi choisir Ultralytics?

  • Équilibre des performances : Les modèles Ultralytics sont conçus pour offrir le meilleur compromis entre vitesse et précision. YOLO11, par exemple, offre une mAP supérieure à celle des générations précédentes tout en conservant des vitesses d'inférence exceptionnelles sur les CPU et les GPU.
  • Facilité d'utilisation : Avec une philosophie "piles incluses", Ultralytics fournit une API Python simple et une interface de ligne de commande (CLI) puissante. Les développeurs peuvent passer de l'installation à la formation en quelques minutes.

    from ultralytics import YOLO
    
    # Load a pre-trained YOLO11 model
    model = YOLO("yolo11n.pt")
    
    # Run inference on an image
    results = model("path/to/image.jpg")
    
  • Un écosystème bien entretenu : Contrairement à de nombreux modèles de recherche qui sont abandonnés après publication, Ultralytics maintient un dépôt actif avec des mises à jour fréquentes, des corrections de bogues et le soutien de la communauté via les problèmes et les discussions sur GitHub.

  • Polyvalence : Les modèles Ultralytics ne se limitent pas aux boîtes englobantes. Ils prennent nativement en charge la segmentation d'instances, l'estimation de la pose, la classification d'images et les boîtes englobantes orientées (OBB), le tout dans un cadre unique et unifié.
  • Efficacité de la mémoire : Les modèlesYOLO d'Ultralytics sont conçus pour être peu gourmands en mémoire pendant l'apprentissage. Cela contraste avec les modèles basés sur les transformateurs ou les architectures plus anciennes, qui nécessitent souvent une mémoire CUDA importante, ce qui rend les modèles Ultralytics accessibles sur du matériel grand public.
  • Efficacité de la formation : Le cadre prend en charge des fonctions telles que la précision mixte automatique (AMP), la formation GPU et la mise en cache, ce qui garantit une formation rapide et rentable des ensembles de données personnalisés.

Conclusion

YOLO et EfficientDet représentent tous deux des étapes importantes dans l'histoire de la vision par ordinateur. EfficientDet a démontré la puissance d'une mise à l'échelle fondée sur des principes et d'une fusion efficace des caractéristiques, tandis que YOLO a repoussé les limites de la recherche d'une architecture tenant compte des temps de latence.

Cependant, pour les développeurs à la recherche d'une solution prête pour la production qui combine des performances élevées avec une expérience exceptionnelle pour les développeurs, Ultralytics YOLO11 est le choix recommandé. Son intégration dans un écosystème solide, sa prise en charge de multiples tâches de vision par ordinateur et ses améliorations continues en font l'outil le plus pratique pour transformer des données visuelles en informations exploitables.

Explorer d’autres comparaisons de modèles

Pour vous aider davantage dans votre processus de sélection de modèle, explorez ces comparaisons connexes dans la documentation d'Ultralytics :


Commentaires