YOLO11 vs RTDETRv2 : Une comparaison technique des détecteurs en temps réel

Le choix de l'architecture de détection d'objets optimale nécessite de naviguer dans un paysage complexe de compromis entre la vitesse d'inférence, la précision de la détection et l'efficacité des ressources de calcul. Cette analyse fournit une comparaison technique complète entre Ultralytics YOLO11, la dernière itération du détecteur basé sur CNN, standard de l'industrie, et RTDETRv2, un Real-Time Detection Transformer haute performance.

Bien que RTDETRv2 démontre le potentiel des architectures de transformateurs pour les tâches de haute précision, YOLO11 offre généralement un meilleur équilibre pour un déploiement pratique, offrant des vitesses d'inférence plus rapides, des empreintes mémoire significativement plus faibles et un écosystème de développeurs plus robuste.

Ultralytics YOLO11 : La norme pour la vision artificielle en temps réel

Ultralytics YOLO11 représente le point culminant d’années de recherche sur les réseaux neuronaux convolutifs (CNN) efficaces. Conçu pour être l’outil définitif pour les applications de vision par ordinateur du monde réel, il privilégie l’efficacité sans compromettre la précision de pointe.

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :https://github.com/ultralytics/ultralytics
Docs :https://docs.ultralytics.com/models/yolo11/

Architecture et points forts

YOLO11 utilise une architecture affinée à un seul étage et sans ancres. Il intègre des modules avancés d'extraction de caractéristiques, notamment des blocs C3k2 optimisés et des modules SPPF (Spatial Pyramid Pooling - Fast), pour capturer les caractéristiques à différentes échelles.

Polyvalence : Contrairement à de nombreux modèles spécialisés, YOLO11 prend en charge un large éventail de tâches de vision par ordinateur au sein d’un seul framework, notamment la détection d’objets, la segmentation d’instance, l’estimation de pose, les boîtes englobantes orientées (OBB) et la classification d’images.
Efficacité de la mémoire : YOLO11 est conçu pour fonctionner efficacement sur du matériel allant des appareils périphériques embarqués aux serveurs d’entreprise. Il nécessite beaucoup moins de mémoire CUDA pendant l’entraînement par rapport aux alternatives basées sur des transformateurs.
Intégration de l'écosystème : Le modèle est soutenu par l'écosystème Ultralytics, offrant un accès transparent à des outils tels que Ultralytics HUB pour la gestion des modèles et Ultralytics Explorer pour l'analyse des ensembles de données.

En savoir plus sur YOLO11

RTDETRv2 : La précision basée sur le Transformer

RTDETRv2 est un transformateur de détection en temps réel (RT-DETR) qui exploite la puissance des Vision Transformers (ViT) pour atteindre une haute précision sur les ensembles de données de référence. Il vise à résoudre les problèmes de latence traditionnellement associés aux modèles de type DETR.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 2023-04-17
Arxiv :https://arxiv.org/abs/2304.08069
GitHub :https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs :https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Architecture et caractéristiques

RTDETRv2 utilise une architecture hybride combinant un backbone CNN avec un encodeur-décodeur de transformateur efficace. Le mécanisme d'auto-attention permet au modèle de capturer le contexte global, ce qui est bénéfique pour les scènes avec des relations d'objets complexes.

Contexte global : L'architecture du transformateur excelle à distinguer les objets dans les environnements encombrés où les caractéristiques locales peuvent être ambiguës.
Intensité des ressources : Bien qu'optimisées pour la vitesse, les couches de transformateurs nécessitent intrinsèquement plus de calcul et de mémoire, en particulier pour les entrées à haute résolution.
Priorité : RTDETRv2 est principalement une architecture axée sur la détection, dépourvue de la prise en charge native multitâche que l’on retrouve dans la famille YOLO.

En savoir plus sur RTDETRv2

Analyse des performances : Vitesse, précision et efficacité

Lors de la comparaison de YOLO11 et RTDETRv2, la distinction réside dans le compromis architectural entre les métriques de précision pures et l'efficacité opérationnelle.

Considérations matérielles

Les modèles basés sur des Transformers comme RT-DETRv2 nécessitent souvent des GPU puissants pour un entraînement et une inférence efficaces. En revanche, les modèles basés sur CNN comme YOLO11 sont hautement optimisés pour une gamme plus large de matériel, y compris les CPU et les appareils edge AI comme le Raspberry Pi.

Comparaison quantitative

Le tableau ci-dessous illustre les mesures de performance sur l'ensemble de données COCO. Bien que RTDETRv2 affiche de solides scores mAP, YOLO11 offre une précision compétitive avec des vitesses d'inférence significativement plus rapides, en particulier sur le CPU.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Analyse des résultats

Vitesse d'inférence : YOLO11 domine en vitesse. Par exemple, YOLO11x atteint une précision plus élevée (54,7 mAP) que RTDETRv2-x (54,3 mAP) tout en fonctionnant environ 25 % plus rapidement sur un GPU T4 (11,3 ms contre 15,03 ms).
Efficacité des paramètres : Les modèles YOLO11 nécessitent généralement moins de paramètres et de FLOPs pour atteindre des niveaux de précision similaires. YOLO11l atteint le même mAP de 53,4 que RTDETRv2-l, mais le fait avec près de la moitié des FLOPs (86,9B contre 136B).
Performance du CPU : Les opérations de transformateur dans RTDETRv2 sont coûteuses en calcul sur les CPU. YOLO11 reste le choix préféré pour les déploiements sans GPU, offrant des fréquences d’images viables sur les processeurs standard.

Flux de travail et convivialité

Pour les développeurs, le "coût" d'un modèle comprend le temps d'intégration, la stabilité de l'entraînement et la facilité de déploiement.

Facilité d'utilisation et écosystème

L'API python Ultralytics résume les boucles d'entraînement complexes en quelques lignes de code.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

En revanche, bien que RTDETRv2 soit un outil de recherche puissant, il nécessite souvent plus de configuration manuelle et une connaissance plus approfondie du code sous-jacent pour s'adapter aux ensembles de données personnalisés ou pour exporter vers des formats spécifiques comme ONNX ou TensorRT.

Efficacité de l'entraînement

L'entraînement de modèles de transformateur exige généralement une mémoire GPU (VRAM) nettement plus élevée. Cela peut obliger les développeurs à utiliser des tailles de lots plus petites ou à louer du matériel cloud plus coûteux. L'architecture CNN de YOLO11 est économe en mémoire, ce qui permet des tailles de lots plus importantes et une convergence plus rapide sur les GPU grand public.

Cas d'utilisation idéaux

Quand choisir YOLO11

Déploiement en temps réel à la périphérie : Lors du déploiement sur des appareils tels que NVIDIA Jetson, Raspberry Pi ou des téléphones mobiles où les ressources de calcul sont limitées.
Diverses tâches de vision : Si votre projet nécessite une segmentation ou une estimation de pose en plus de la détection.
Développement rapide : Lorsque le délai de mise sur le marché est critique, la documentation complète et le support de la communauté d'Ultralytics accélèrent le cycle de vie.
Analyse vidéo : Pour le traitement à haute fréquence d’images dans des applications telles que la surveillance du trafic ou l’analyse sportive.

Quand choisir RTDETRv2

Recherche académique : Pour étudier les propriétés des transformateurs de vision et des mécanismes d’attention.
Traitement côté serveur : Lorsque la puissance du GPU est illimitée et que la précision absolue la plus élevée sur des benchmarks spécifiques, quelle que soit la latence, est la seule mesure.
Analyse d'image statique : Scénarios où le temps de traitement n'est pas une contrainte, comme l'analyse d'imagerie médicale hors ligne.

Conclusion

Bien que RTDETRv2 présente les progrès académiques des architectures de transformateurs dans la vision, Ultralytics YOLO11 reste le choix pragmatique pour la grande majorité des applications du monde réel. Son rapport vitesse/précision supérieur, ses besoins en mémoire plus faibles et sa capacité à gérer plusieurs tâches de vision en font un outil polyvalent et puissant. Couplé à un écosystème mature et bien entretenu, YOLO11 permet aux développeurs de passer du concept à la production avec un minimum de frictions.

Explorer d'autres modèles

La comparaison des modèles aide à sélectionner l'outil adapté à vos contraintes spécifiques. Explorez d'autres comparaisons dans la documentation Ultralytics: