Passer au contenu

YOLO11 vs RTDETRv2 : Comparaison technique de détecteurs en temps réel

La sélection de l'architecture optimale de détection d'objets nécessite de naviguer dans un paysage complexe de compromis entre la vitesse d'inférence, la précision de détection et l'efficacité des ressources informatiques. Cette analyse fournit une comparaison technique complète entre Ultralytics YOLO11la dernière itération du détecteur CNN standard de l'industrie, et RTDETRv2, un transformateur de détection en temps réel très performant.

RTDETRv2 démontre le potentiel des architectures de transformateurs pour les tâches de haute précision, YOLO11 offre généralement un meilleur équilibre pour un déploiement pratique, en offrant des vitesses d'inférence plus rapides, des empreintes mémoire nettement plus faibles et un écosystème de développeurs plus robuste.

Ultralytics YOLO11: la norme pour la vision par ordinateur en temps réel

Ultralytics YOLO11 représente l'aboutissement d'années de recherche sur les réseaux neuronaux convolutifs (CNN) efficaces. Conçu pour être l'outil définitif pour les applications de vision par ordinateur dans le monde réel, il donne la priorité à l'efficacité sans compromettre la précision de pointe.

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHubultralytics
Docsyolo11

Architecture et atouts

YOLO11 utilise une architecture raffinée à un seul niveau, sans ancrage. Il intègre des modules avancés d'extraction de caractéristiques, notamment des blocs C3k2 optimisés et des modules SPPF (Spatial Pyramid Pooling - Fast), afin de capturer des caractéristiques à différentes échelles.

En savoir plus sur YOLO11

RTDETRv2 : Précision alimentée par transformateur

RTDETRv2 est un transformateur de détection en temps réelRT-DETR) qui exploite la puissance des transformateurs de vision (ViT) pour obtenir une grande précision sur des ensembles de données de référence. Il vise à résoudre les problèmes de latence traditionnellement associés aux modèles de type DETR.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, et Yi Liu
Organisation : Baidu
Date : 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
DocsRT-DETR

Architecture et caractéristiques

RTDETRv2 utilise une architecture hybride combinant une épine dorsale CNN avec un codeur-décodeur transformateur efficace. Le mécanisme d'auto-attention permet au modèle de capturer le contexte global, ce qui est bénéfique pour les scènes présentant des relations complexes entre les objets.

  • Contexte global : L'architecture du transformateur permet de distinguer des objets dans des environnements encombrés où les caractéristiques locales peuvent être ambiguës.
  • Intensité des ressources : Bien qu'optimisées pour la vitesse, les couches du transformateur requièrent intrinsèquement plus de calculs et de mémoire, en particulier pour les données d'entrée à haute résolution.
  • Focus : RTDETRv2 est avant tout une architecture axée sur la détection, dépourvue du support multitâche natif que l'on trouve dans la famille YOLO .

En savoir plus sur RTDETRv2

Analyse des performances : Vitesse, précision et efficacité

En comparant YOLO11 et RTDETRv2, la différence réside dans le compromis architectural entre les mesures de précision pure et l'efficacité opérationnelle.

Considérations sur le matériel

Les modèles basés sur les transformateurs comme RTDETRv2 nécessitent souvent des GPU puissants pour une formation et une inférence efficaces. En revanche, les modèles basés sur le CNN comme YOLO11 sont hautement optimisés pour une gamme plus large de matériel, y compris les CPU et les appareils d'intelligence artificielle de pointe comme le Raspberry Pi.

Comparaison quantitative

Le tableau ci-dessous illustre les mesures de performance sur l'ensemble de donnéesCOCO . Alors que RTDETRv2 affiche de bons scores mAP , YOLO11 fournit une précision compétitive avec des vitesses d'inférence significativement plus rapides, en particulier sur l'CPU.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Analyse des résultats

  1. Vitesse d'inférence : YOLO11 domine en termes de vitesse. Par exemple, YOLO11x atteint une plus grande précision (54,7 mAP) que RTDETRv2-x (54,3 mAP) tout en fonctionnant environ 25 % plus vite sur un GPU T4 (11,3 ms contre 15,03 ms).
  2. Efficacité des paramètres : Les modèles YOLO11 nécessitent généralement moins de paramètres et de FLOP pour atteindre des niveaux de précision similaires. YOLO11l atteint les mêmes 53,4 mAP que RTDETRv2-l, mais avec près de la moitié des FLOPs (86,9B contre 136B).
  3. Performance de lCPU : Les opérations de transformation dans RTDETRv2 sont coûteuses en termes de calcul sur les processeurs. YOLO11 reste le choix préféré pour les déploiements GPU GPU, offrant des taux de trame viables sur des processeurs standard.

Flux de travail et facilité d'utilisation

Pour les développeurs, le "coût" d'un modèle comprend le temps d'intégration, la stabilité de la formation et la facilité de déploiement.

Facilité d'utilisation et écosystème

L'APIPython d'Ultralytics résume les boucles d'entraînement complexes en quelques lignes de code.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

En revanche, si RTDETRv2 est un outil de recherche puissant, il nécessite souvent une configuration plus manuelle et une connaissance plus approfondie de la base de code sous-jacente pour s'adapter à des ensembles de données personnalisés ou pour exporter vers des formats spécifiques tels que ONNX ou TensorRT.

Efficacité de la formation

L'entraînement des modèles de transformateurs nécessite généralement une mémoire GPU (VRAM) beaucoup plus importante. Cela peut obliger les développeurs à utiliser des lots plus petits ou à louer du matériel cloud plus coûteux. L'architecture CNN de YOLO11 est économe en mémoire, ce qui permet d'augmenter la taille des lots et d'accélérer la convergence sur des GPU grand public.

Cas d'utilisation idéaux

Quand choisir YOLO11

  • Déploiement en temps réel en périphérie : Lors du déploiement sur des appareils tels que NVIDIA Jetson, Raspberry Pi, ou des téléphones mobiles où les ressources de calcul sont limitées.
  • Diverses tâches de vision : Si votre projet nécessite une segmentation ou une estimation de la pose en plus de la détection.
  • Développement rapide : Lorsque le délai de mise sur le marché est critique, la documentation complète et le support de la communauté d'Ultralytics accélèrent le cycle de vie.
  • Analyse vidéo : Pour un traitement à haute fréquence dans des applications telles que la surveillance du trafic ou l'analyse sportive.

Quand choisir RTDETRv2

  • Recherche académique : Pour l'étude des propriétés des transformateurs de vision et des mécanismes d'attention.
  • Traitement côté serveur : Lorsque l'on dispose d'une puissance GPU illimitée et que l'on recherche la plus grande précision sur des points de référence spécifiques - sans tenir compte de la latence -.
  • Analyse d'images statiques : Scénarios où le temps de traitement n'est pas une contrainte, comme l'analyse d'imagerie médicale hors ligne.

Conclusion

RTDETRv2 présente les progrès académiques des architectures de transformateurs dans le domaine de la vision, Ultralytics YOLO11 reste le choix pragmatique pour la grande majorité des applications réelles. Son rapport vitesse/précision supérieur, ses faibles besoins en mémoire et sa capacité à gérer plusieurs tâches de vision en font un outil polyvalent et puissant. Associé à un écosystème mature et bien entretenu, YOLO11 permet aux développeurs de passer du concept à la production avec un minimum de friction.

Explorer d'autres modèles

La comparaison des modèles permet de sélectionner l'outil le mieux adapté à vos contraintes spécifiques. Pour en savoir plus sur les comparaisons, consultez la documentation Ultralytics :


Commentaires