RTDETRv2 vs. Ultralytics YOLO11: une comparaison technique

Le choix de l'architecture optimale de détection d'objets nécessite de trouver un équilibre entre la précision, la latence d'inférence et l'efficacité de calcul. Ce guide fournit une analyse technique complète de RTDETRv2, un détecteur basé sur un transformateur, et de RTDETRv2, un détecteur basé sur un transformateur. Ultralytics YOLO11Ultralytics YOLO , la dernière évolution de la série YOLO (You Only Look Once) à la pointe de la technologie.

Bien que les deux modèles repoussent les limites de la vision par ordinateur, ils utilisent des approches fondamentalement différentes. RTDETRv2 s'appuie sur des transformateurs de vision pour capturer le contexte global, en donnant la priorité à la précision dans les scènes complexes. En revanche, YOLO11 affine les architectures basées sur le CNN pour offrir un équilibre inégalé entre vitesse, précision et facilité de déploiement, en s'appuyant sur l'écosystème robuste d'Ultralytics .

RTDETRv2 : Transformateur de détection en temps réel

RTDETRv2 représente une étape importante dans l'adaptation des architectures Transformer à la détection d'objets en temps réel. Développé par des chercheurs de Baidu, il s'appuie sur le RT-DETR original en introduisant une base de référence améliorée avec une stratégie d'entraînement "bag-of-freebies".

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 2023-04-17
Arxiv :https://arxiv.org/abs/2304.08069
GitHub :https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs :https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Architecture et capacités

RTDETRv2 utilise une architecture hybride qui combine une colonne vertébrale (typiquement un CNN comme ResNet) avec un transformateur encodeur-décodeur. Sa force principale réside dans son mécanisme d'auto-attention, qui permet au modèle de traiter simultanément des informations globales sur l'ensemble de l'image. Cette capacité est particulièrement utile pour distinguer des objets dans des environnements encombrés ou pour identifier des relations entre des caractéristiques d'image éloignées.

Points forts et faiblesses

Le principal avantage de RTDETRv2 est sa capacité à atteindre une précision moyenne élevée (mAP) sur des benchmarks tels que COCO, surpassant souvent les modèles purement basés sur CNN dans des scénarios nécessitant une compréhension du contexte global.

Toutefois, cela implique des compromis. Les architectures basées sur les transformateurs sont intrinsèquement plus gourmandes en ressources. RTDETRv2 nécessite généralement beaucoup plus de mémoireCUDA pendant l'apprentissage et l'inférence que les modèles YOLO . En outre, bien qu'il soit optimisé pour des performances "en temps réel", il est souvent à la traîne par rapport à YOLO11 en termes de vitesse d'inférence brute, en particulier sur les appareils périphériques ou les systèmes dépourvus de GPU haut de gamme. L'écosystème entourant RTDETRv2 est également plus fragmenté, servant principalement à des fins de recherche plutôt qu'à un déploiement en production.

En savoir plus sur RTDETRv2

Ultralytics YOLO11: rapidité, précision et polyvalence

Ultralytics YOLO11 est la dernière itération de la famille de détecteurs d'objets la plus largement adoptée dans le monde. Conçu par Ultralytics, YOLO11 affine le paradigme de la détection en une seule étape pour maximiser l'efficacité sans compromettre la précision.

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :https://github.com/ultralytics/ultralytics
Docs :https://docs.ultralytics.com/models/yolo11/

Architecture et principales fonctionnalités

YOLO11 utilise une architecture CNN avancée comprenant des couches d'extraction de caractéristiques améliorées et une tête optimisée pour une régression précise des boîtes englobantes. Contrairement aux modèles axés uniquement sur la détection, YOLO11 est une plateforme polyvalente qui prend en charge de multiples tâches de vision par ordinateur -segmentation des instances, classification des images, estimation de la pose et boîtes englobantes orientées (OBB)- au sein d'un cadre unifié unique.

Écosystème unifié

L'un des avantages les plus significatifs de YOLO11 est son intégration avec l'écosystème Ultralytics . Les développeurs peuvent passer de la gestion des données à la formation et au déploiement en toute transparence, en utilisant la même API pour toutes les tâches.

L'avantage Ultralytics

YOLO11 a été conçu pour répondre aux besoins des développeurs. Il offre :

Efficacité de la formation : Des taux de convergence plus rapides et des besoins en mémoire nettement inférieurs à ceux des modèles à transformateur, permettant une formation sur du matériel grand public.
Flexibilité de déploiement : Exportation transparente vers des formats tels que ONNXTensorRT, CoreML et TFLite pour le déploiement en périphérie et dans le nuage.
Facilité d'utilisation : Une API Pythonique et un CLI complet le rendent accessible aux débutants tout en offrant de la profondeur aux experts.

En savoir plus sur YOLO11

Analyse des performances : Métriques et efficacité

Lorsque l'on compare RTDETRv2 et YOLO11, les mesures mettent en évidence des philosophies de conception distinctes. Le tableau ci-dessous montre que Ultralytics YOLO11 fournit systématiquement un rapport vitesse/précision supérieur.

Par exemple, YOLO11x atteint un mAP plus élevé (54,7) que le plus grand modèle RTDETRv2-x (54,3) tout en maintenant une latence d'inférence significativement plus faible (11,3 ms contre 15,03 ms sur le GPU T4). En outre, des variantes plus petites comme YOLO11m offrent une précision compétitive avec un surcoût de calcul considérablement réduit, ce qui les rend beaucoup plus viables pour les applications en temps réel.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Points clés à retenir

Vitesse d'inférence : les modèles YOLO11 sont universellement plus rapides, en particulier pour l'inférence CPU où les Transformers ont souvent des difficultés en raison de calculs d'attention complexes.
Efficacité des paramètres : YOLO11 permet d'obtenir une précision similaire ou supérieure avec moins de paramètres et de FLOP, ce qui se traduit par une réduction des coûts de stockage et de la consommation d'énergie.
Utilisation de la mémoire : L'entraînement d'un modèle YOLO11 consomme généralement moins de VRAM GPU que RTDETRv2, ce qui permet d'augmenter la taille des lots ou d'effectuer l'entraînement sur des GPU plus accessibles.

Utilisation et expérience des développeurs

La facilité d'intégration est un facteur de différenciation essentiel. Alors que RTDETRv2 fournit une base de code orientée vers la recherche, YOLO11 offre une APIPython et une CLI prêtes pour la production.

L'exemple suivant illustre la simplicité avec laquelle il est possible de charger un modèle YOLO11 pré-entraîné et d'exécuter l'inférence sur une image. Ce niveau de simplicité accélère considérablement le cycle de développement.

from ultralytics import YOLO

# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Show results
results[0].show()

Ce flux de travail rationalisé s'étend à l'entraînement sur des ensembles de données personnalisés, où Ultralytics gère automatiquement les augmentations de données complexes et le réglage des hyperparamètres.

Cas d'utilisation idéaux

Le choix du bon modèle dépend des contraintes et des objectifs spécifiques de votre projet.

Quand choisir Ultralytics YOLO11

YOLO11 est le choix recommandé pour la grande majorité des applications commerciales et de recherche en raison de sa polyvalence et de son soutien à l'écosystème.

Informatique de périphérie : Idéal pour le déploiement sur des appareils tels que NVIDIA Jetson ou Raspberry Pi en raison de la faible latence et de l'efficacité des ressources.
Systèmes en temps réel : Parfaits pour la surveillance du trafic, la navigation autonome et le contrôle de la qualité industrielle où la vitesse à la milliseconde est cruciale.
Projets multi-tâches : Si votre projet nécessite une segmentation ou une estimation de la pose en plus de la détection, YOLO11 fournit une solution unifiée.
Prototypage rapide : La documentation complète et le soutien de la communauté permettent une itération rapide de l'idée au déploiement.

Quand choisir RTDETRv2

RTDETRv2 est mieux adapté aux scénarios de recherche spécialisés.

Recherche universitaire : Lorsque l'objectif principal est d'étudier les architectures Vision Transformer ou de battre des points de référence académiques spécifiques sans tenir compte du coût de calcul.
Occlusions complexes : Dans les scénarios avec des entrées statiques où les ressources matérielles sont illimitées, le mécanisme d'attention globale peut offrir de légers avantages dans la résolution d'occlusions denses.

Conclusion

RTDETRv2 démontre le potentiel des transformateurs dans la détection d'objets, Ultralytics YOLO11 reste le meilleur choix pour un déploiement pratique et des solutions complètes de vision par ordinateur. Son architecture offre un meilleur équilibre entre vitesse et précision, tandis que l'écosystème qui l'entoure réduit considérablement la complexité de la formation et des MLOps.

Pour les développeurs à la recherche d'un modèle fiable, rapide et bien soutenu qui passe du prototype à la production, YOLO11 offre une valeur inégalée.

Explorer d'autres modèles

Si vous êtes intéressé par d'autres comparaisons dans le domaine de la vision par ordinateur, consultez les pages suivantes :