YOLOv10 RTDETRv2 : architectures et performances dans la détection en temps réel
Le choix de l'architecture de détection d'objets appropriée est une décision cruciale pour les développeurs qui créent des applications de vision par ordinateur. Ce guide présente en détail deux approches distinctes de la détection en temps réel : YOLOv10, une évolution de la YOLO basée sur CNN qui introduit des capacités de bout en bout, et RTDETRv2, un modèle basé sur un transformateur conçu pour concurrencer la domination de CNN. Nous analysons leurs architectures, leurs benchmarks et leur adéquation à divers scénarios de déploiement.
Aperçu et origines des modèles
Comprendre la lignée de ces modèles permet de clarifier leurs philosophies de conception et leurs cas d'utilisation prévus.
YOLOv10: le CNN NMS
Publié en mai 2024 par des chercheurs de l'université Tsinghua, YOLOv10 un tournant important dans la YOLO . Il résout un problème de longue date dans les détecteurs en temps réel : la suppression non maximale (NMS). En utilisant des attributions doubles cohérentes pour un entraînement NMS, YOLOv10 la latence et simplifie les pipelines de déploiement par rapport aux générations précédentes telles que YOLOv9 YOLOv8.
- Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation :Tsinghua University
- Date : 2024-05-23
- Liens :Article Arxiv | Dépôt GitHub
RTDETRv2 : Le Challenger Transformer
RT-DETR Real-Time Detection Transformer) a été le premier modèle basé sur un transformateur à rivaliser véritablement avec YOLO . Développé par Baidu, RTDETRv2 affine cette architecture grâce à une approche « Bag of Freebies », optimisant la stratégie d'entraînement et l'architecture pour une meilleure convergence et flexibilité. Il exploite la puissance des transformateurs de vision (ViT) pour capturer le contexte global, surpassant souvent les CNN dans les scènes complexes avec occlusion, mais à un coût de calcul plus élevé.
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organisation :Baidu
- Date : 17 avril 2023 ( RT-DETR original), mises à jour en 2024
- Liens :Article Arxiv | Dépôt GitHub
Comparaison des architectures techniques
La différence fondamentale réside dans la manière dont ces modèles traitent les caractéristiques et génèrent des prédictions.
Architecture YOLOv10
YOLOv10 une structure de réseau neuronal convolutif (CNN), mais révolutionne la tête et le processus d'apprentissage.
- Attributions doubles cohérentes : il utilise une attribution un-à-plusieurs pour une supervision riche pendant l'entraînement et une attribution un-à-un pour l'inférence. Cela permet au modèle de prédire une seule meilleure boîte par objet, éliminant ainsi le besoin de NMS.
- Conception holistique efficace : l'architecture comprend des têtes de classification légères et un sous-échantillonnage découplé spatialement et par canal afin de réduire la redondance informatique.
- Convolutions à grand noyau : à l'instar des avancées récentes, cette technique utilise de grands champs réceptifs pour améliorer la précision sans le coût élevé des mécanismes d'auto-attention.
Architecture RTDETRv2
RTDETRv2 s'appuie sur la structure transducteur-décodeur du transformateur.
- Encodeur hybride : il utilise une structure CNN (généralement ResNet ou HGNetv2) pour extraire des caractéristiques, qui sont ensuite traitées par un encodeur transformateur. Cela lui permet de modéliser les dépendances à longue portée dans l'image.
- Sélection de requêtes à incertitude minimale : ce mécanisme sélectionne des requêtes initiales de haute qualité pour le décodeur, améliorant ainsi l'initialisation et la vitesse de convergence.
- Détachage flexible : RTDETRv2 prend en charge l'échantillonnage discret, permettant aux utilisateurs de trouver un compromis entre vitesse et précision de manière plus dynamique que les structures CNN rigides.
Pourquoi l'écosystème est important
Si les modèles académiques tels que RTDETRv2 offrent des architectures novatrices, ils manquent souvent des outils robustes nécessaires à la production. Ultralytics tels que YOLO26 et YOLO11 sont intégrés dans un écosystème complet. Celui-ci comprend la Ultralytics pour une gestion facile des ensembles de données, une formation en un clic et un déploiement transparent sur les appareils périphériques.
Mesures de performance
Le tableau suivant compare les performances des deux modèles sur l'ensemble COCO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analyse des indices de référence
- Dominance en matière de latence : YOLOv10 une latence nettement inférieure pour toutes les tailles de modèles. Par exemple, YOLOv10s est environ deux fois plus rapide que RTDETRv2-s sur les GPU T4, tout en conservant une précision compétitive (46,7 % contre 48,1 % mAP).
- Efficacité des paramètres : YOLOv10 très efficace en termes de paramètres et de FLOP. Le YOLOv10m atteint une précision similaire à celle du RTDETRv2-m, mais nécessite moins de la moitié des paramètres (15,4 millions contre 36 millions), ce qui le rend bien supérieur pour les applications mobiles et d'IA en périphérie.
- Précision maximale : RTDETRv2 excelle dans les catégories « Petite » et « Moyenne » en termes de précision brute (mAP), tirant parti de la capacité du transformateur à appréhender le contexte global. Cependant, à très grande échelle (X-large), YOLOv10 et dépasse même RTDETRv2 tout en restant plus rapide.
Considérations relatives à la formation et au déploiement
Lors du passage de la recherche à la production, des facteurs tels que l'efficacité de la formation et l'utilisation de la mémoire deviennent primordiaux.
Besoins en mémoire
Les modèles basés sur des transformateurs, tels que RTDETRv2, consomment généralement beaucoup plus CUDA pendant l'entraînement en raison de la complexité quadratique des mécanismes d'auto-attention. Cela nécessite des GPU haut de gamme coûteux pour l'entraînement. En revanche, YOLO Ultralytics sont réputés pour leur efficacité en matière de mémoire. Les modèles tels que YOLOv10 le plus récent YOLO26 peuvent souvent être affinés sur du matériel grand public ou des instances cloud standard, ce qui réduit les barrières à l'entrée.
Facilité d'utilisation et écosystème
L'un des principaux avantages de l'utilisation YOLOv10 la Ultralytics réside dans la simplification de l'expérience utilisateur.
- Ultralytics : vous pouvez charger, entraîner et déployer YOLOv10 quelques lignes de Python , de manière identique au flux de travail pour YOLOv8 ou YOLO11.
- Options d'exportation : Ultralytics l'exportation instantanée vers des formats tels que ONNX, TensorRT, CoreML et OpenVINO. Bien que RTDETRv2 ait amélioré sa prise en charge du déploiement, il nécessite souvent une configuration plus complexe pour gérer les formes dynamiques associées aux transformateurs.
- Documentation : une documentation complète garantit aux développeurs l'accès à des tutoriels, des guides sur les hyperparamètres et des ressources de dépannage.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for deployment
model.export(format="onnx")
Cas d'utilisation idéaux
Quand choisir YOLOv10
YOLOv10 le choix privilégié pour les scénarios où la vitesse et les contraintes en matière de ressources sont essentielles.
- Applications mobiles :iOS nécessitant une inférence en temps réel sans épuiser la batterie.
- Systèmes embarqués : fonctionnant sur des appareils tels que Raspberry Pi ou NVIDIA où la mémoire (RAM) est limitée.
- Traitement vidéo à haute fréquence d'images par seconde : applications telles que la surveillance du trafic ou l'analyse sportive, où le maintien d'une fréquence d'images élevée est essentiel pour éviter le flou de mouvement ou les événements manqués.
Quand choisir RTDETRv2
RTDETRv2 convient lorsque la précision est la priorité et que les ressources matérielles sont abondantes.
- Scènes complexes : environnements présentant une forte occlusion ou encombrés, dans lesquels le mécanisme d'attention globale aide à distinguer les objets qui se chevauchent.
- Inférence côté serveur : scénarios dans lesquels les modèles s'exécutent sur de puissants GPU cloud, rendant la latence et le coût mémoire plus élevés acceptables pour une légère augmentation du mAP.
L'avenir : Ultralytics
Alors que YOLOv10 le concept NMS, le domaine évolue rapidement. Sorti en janvier 2026, Ultralytics représente le summum de cette évolution.
YOLO26 adopte la conception NMS de bout en bout lancée par YOLOv10 l'améliore grâce à l'optimiseur MuSGD (inspiré de la formation LLM) et à des fonctions de perte améliorées telles que ProgLoss. Il en résulte des modèles non seulement plus faciles à former, mais aussi jusqu'à 43 % plus rapides sur CPU par rapport aux générations précédentes. De plus, YOLO26 prend en charge de manière native une gamme complète de tâches, notamment la segmentation, l'estimation de la pose et l'OBB, offrant une polyvalence que les modèles axés sur la détection tels que RTDETRv2 ne peuvent égaler.
Pour les développeurs qui recherchent le meilleur équilibre entre vitesse, précision et facilité de déploiement, la transition vers YOLO26 est fortement recommandée.
Résumé
YOLOv10 RTDETRv2 repoussent tous deux les limites de la détection d'objets en temps réel. YOLOv10 élimine YOLOv10 le NMS , offrant une architecture CNN pure incroyablement rapide et efficace. RTDETRv2 prouve que les transformateurs peuvent être des concurrents en temps réel, excellant dans l'extraction de caractéristiques complexes. Cependant, pour la grande majorité des applications du monde réel qui nécessitent à la fois vitesse, efficacité et outils conviviaux pour les développeurs, Ultralytics , qui prend en charge YOLOv10, YOLO11 et le très avancé YOLO26, reste la norme dans le secteur.
Pour plus de comparaisons, consultez notre analyse comparative entre YOLOv8 YOLOv10 ou découvrez comment optimiser vos modèles grâce à notre guide d'exportation.