RT-DETRv2 vs. YOLOv10: une comparaison technique pour la détection d'objets

Le choix du modèle optimal de détection d'objets nécessite de naviguer dans un paysage d'architectures en évolution, où les compromis entre la précision, la latence et la consommation de ressources dictent la meilleure adaptation à une application donnée. Cette comparaison technique analyse RT-DETRv2un modèle basé sur un transformateur conçu pour les tâches de haute précision, et YOLOv10l'évolution de la célèbre famille YOLO axée sur l'efficacité. En examinant leurs innovations architecturales, leurs mesures de performance et leurs caractéristiques de déploiement, nous visons à guider les développeurs vers la solution idéale pour leurs besoins spécifiques.

RT-DETRv2: Transformateurs de vision optimisés

RT-DETRv2 représente une itération importante dans la série Real-Time Detection Transformer, dont le but initial était de remettre en question la domination des détecteurs basés sur le CNN. Développé par des chercheurs de Baidu, ce modèle incorpore un "bag-of-freebies" pour améliorer la stabilité et la performance de l'entraînement sans encourir de coûts d'inférence supplémentaires.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 2024-07-24
Arxiv :https://arxiv.org/abs/2407.17140
GitHub :https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch

En savoir plus sur RT-DETR

Architecture et atouts

RT-DETRv2 s'appuie sur un codeur hybride et un transformateur de vision (ViT) évolutif. Contrairement aux réseaux neuronaux convolutionnels (CNN) traditionnels qui traitent les images en utilisant des champs réceptifs locaux, l'architecture du transformateur utilise des mécanismes d'auto-attention pour capturer le contexte global. Cela permet au modèle de discerner efficacement les relations entre des objets distants et de gérer des occlusions complexes. Les améliorations de la "v2" se concentrent sur l'optimisation de la sélection dynamique des requêtes et sur l'introduction de stratégies de formation flexibles qui permettent aux utilisateurs d'affiner l'équilibre entre la vitesse et la précision.

Bien qu'efficace, cette architecture nécessite des ressources informatiques considérables. Les couches d'auto-attention, bien que puissantes, contribuent à une plus grande consommation de mémoire lors de l'apprentissage et de l'inférence que les solutions purement basées sur le CNN.

YOLOv10: la norme en matière d'efficacité en temps réel

YOLOv10 repousse les limites du paradigme You Only Look Once en introduisant une stratégie d'entraînement NMS et une conception holistique axée sur l'efficacité et la précision. Créé par des chercheurs de l'université de Tsinghua, il est spécialement conçu pour minimiser la latence tout en maintenant des performances de détection compétitives.

Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation :Université de Tsinghua
Date : 2024-05-23
Arxiv :https://arxiv.org/abs/2405.14458
GitHub :https://github.com/THU-MIG/yolov10

En savoir plus sur YOLOv10

Architecture et atouts

La caractéristique déterminante de YOLOv10 est l'élimination de la suppression non maximale (NMS) grâce à une stratégie cohérente d'assignation double. Les détecteurs d'objets traditionnels prédisent souvent plusieurs boîtes englobantes pour un même objet, ce qui nécessite un post-traitement NMS pour filtrer les doublons. Cette étape crée un goulot d'étranglement dans la latence d'inférence. YOLOv10 supprime cette exigence, ce qui permet un véritable déploiement de bout en bout.

En outre, l'architecture présente un sous-échantillonnage découplé des canaux spatiaux et une conception de blocs guidée par les rangs, ce qui réduit considérablement le nombre de paramètres et les opérations en virgule flottante (Floating Point Operations, FLOP). YOLOv10 est donc exceptionnellement léger et convient aux environnements à ressources limitées tels que les dispositifs d'intelligence artificielle de pointe.

Inférence NMS

La suppression du NMS change la donne pour les applications en temps réel. Elle réduit la complexité du pipeline de déploiement et garantit que le temps d'inférence reste déterministe, quel que soit le nombre d'objets détectés dans la scène.

Analyse des performances

Si l'on compare directement les deux modèles, YOLOv10 démontre une capacité supérieure à équilibrer la vitesse et la précision, en particulier à l'extrémité supérieure du spectre des performances. Alors que RT-DETRv2 offre de bons résultats, YOLOv10 obtient systématiquement une latence plus faible et nécessite moins de paramètres pour une mAP (mean Average Precision) comparable ou meilleure.

Le tableau ci-dessous met en évidence les mesures de performance sur l'ensemble de données COCO . Notamment, YOLOv10x surpasse RT-DETRv2 en termes de précision (54,4 % contre 54,3 %) tout en étant significativement plus rapide (12,2 ms contre 15,03 ms) et en nécessitant beaucoup moins de paramètres (56,9 M contre 76 M).

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

Vitesse et efficacité

L'efficacité architecturale de YOLOv10 est évidente à toutes les échelles. Les variantes Nano (n) et Small (s) offrent des vitesses d'inférence ultra-rapides adaptées aux CPU mobiles et aux appareils IoT. Par exemple, YOLOv10n s'exécute en 1,56 ms sur un GPU T4, ce qui est nettement plus rapide que la plus petite variante RT-DETRv2 .

Précision ou calcul

RT-DETRv2 s'appuie sur son réseau de transformateurs pour atteindre une grande précision, en particulier dans les modèles de petite et moyenne taille. Cependant, cela se fait au prix d'un nombre de FLOPs et de paramètres nettement plus élevé. YOLOv10 comble efficacement cet écart ; les modèles YOLOv10 de plus grande taille atteignent ou dépassent la précision de leurs homologues à transformateur tout en conservant une empreinte de calcul plus faible, ce qui les rend plus polyvalents pour divers matériels.

Formation, convivialité et écosystème

Pour les développeurs, la facilité de formation et de déploiement est un facteur de différenciation essentiel. L'écosystème Ultralytics fournit une interface unifiée qui simplifie considérablement le travail avec des modèles tels que YOLOv10.

Facilité d'utilisation

La formation à RT-DETRv2 implique souvent des fichiers de configuration complexes et des configurations d'environnement spécifiques adaptées aux architectures de transformateurs. En revanche, YOLOv10 est intégré directement dans l'APIPython d' Ultralytics , ce qui permet aux utilisateurs de commencer l'entraînement, la validation ou l'inférence avec seulement quelques lignes de code.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Exigences en matière de mémoire

Les modèles basés sur les transformateurs comme RT-DETRv2 sont connus pour être gourmands en mémoire. Le mécanisme d'auto-attention s'étend de manière quadratique avec la longueur de la séquence, ce qui entraîne une utilisation élevée de VRAM pendant l'apprentissage. YOLOv10, avec son architecture CNN optimisée, nécessite beaucoup moins de mémoireCUDA , ce qui permet aux utilisateurs de former des lots plus importants ou d'utiliser du matériel plus modeste.

Un écosystème bien entretenu

Opter pour un modèle Ultralytics garantit l'accès à un écosystème robuste. Cela inclut des mises à jour continues, une documentation complète et une intégration transparente avec des outils MLOps comme Ultralytics HUB et divers formats d'exportationONNX, TensorRT, CoreML). Cette structure de soutien est inestimable pour faire passer efficacement les projets de la recherche à la production.

Cas d'utilisation idéaux

RT-DETRv2

Recherche universitaire : Idéal pour étudier les capacités des transformateurs dans les tâches de vision et les comparer aux méthodes les plus récentes.
Déploiement sur serveur haut de gamme : Convient aux scénarios où les ressources matérielles sont abondantes et où les caractéristiques spécifiques des cartes d'attention des transformateurs sont bénéfiques, comme dans l'analyse détaillée d'images médicales.

YOLOv10

IA de périphérie en temps réel : la faible latence et la petite taille du modèle le rendent parfait pour un déploiement sur des appareils de périphérie tels que le NVIDIA Jetson ou le Raspberry Pi pour des tâches telles que la gestion du trafic.
Robotique : La conception NMS fournit la latence déterministe requise pour les boucles de contrôle dans les robots autonomes.
Applications commerciales : De l'analyse de la vente au détail à la surveillance de la sécurité, l'équilibre entre vitesse et précision maximise le retour sur investissement en réduisant les coûts de matériel.

Conclusion

Alors que RT-DETRv2 met en évidence le potentiel des transformateurs dans la détection d'objets avec une précision impressionnante, YOLOv10 apparaît comme le choix le plus pratique et le plus polyvalent pour la majorité des applications réelles. Sa capacité à fournir des performances de pointe avec des exigences de calcul considérablement réduites, combinée à la facilité d'utilisation offerte par l'écosystème Ultralytics , en fait une solution supérieure pour les développeurs qui recherchent l'efficacité et l'évolutivité.

Pour ceux qui recherchent les dernières technologies en matière de vision par ordinateur, nous recommandons également d'explorer YOLO11qui affine encore l'architecture pour une vitesse et une précision accrues dans un plus large éventail de tâches, notamment la segmentation et l'estimation de la pose.

Explorer d'autres modèles

Élargissez votre compréhension du paysage de la détection d'objets grâce à ces comparaisons supplémentaires :

RT-DETRv2 vs. YOLOv10: une comparaison technique pour la détection d'objets

RT-DETRv2: Transformateurs de vision optimisés

Architecture et atouts

YOLOv10: la norme en matière d'efficacité en temps réel

Architecture et atouts

Analyse des performances

Vitesse et efficacité

Précision ou calcul

Formation, convivialité et écosystème

Facilité d'utilisation

Exigences en matière de mémoire

Un écosystème bien entretenu

Cas d'utilisation idéaux

RT-DETRv2

YOLOv10

Conclusion

Explorer d'autres modèles

Commentaires