RTDETRv2 contreYOLO: la bataille pour la précision en temps réel
La recherche de l'architecture optimale pour la détection d'objets implique souvent un compromis entre la modélisation du contexte global des transformateurs et la vitesse des réseaux neuronaux convolutifs (CNN). Les deux principaux concurrents dans ce domaine sont RTDETRv2 et YOLO. RTDETRv2, la deuxième itération du transformateur de détection en temps réel de Baidu, exploite des mécanismes d'attention pour éliminer le besoin de suppression non maximale (NMS). En revanche,YOLO groupe Alibaba se concentre sur la recherche d'architecture neuronale (NAS) et la reparamétrisation efficace afin de tirer le maximum de performances des structures CNN traditionnelles.
Ce guide fournit une analyse approfondie de leurs architectures, de leurs benchmarks et des scénarios de déploiement idéaux, offrant aux développeurs les informations nécessaires pour choisir l'outil adapté à leurs projets de vision par ordinateur.
Résumé
RTDETRv2 est un excellent choix pour les applications nécessitant une grande précision dans des environnements complexes où les objets peuvent se chevaucher de manière significative. Sa conception basée sur un transformateur gère naturellement le contexte global, ce qui le rend robuste face aux occlusions. Cependant, cela se fait au prix d'exigences informatiques plus élevées, en particulier sur les appareils périphériques.
YOLO excelle dans les scénarios industriels privilégiant une faible latence sur du matériel standard. Son utilisation du NAS et sa conception efficace de la dorsale le rendent très efficace pour les tâches de fabrication et d'inspection en temps réel. Bien que rapide, il s'appuie sur des méthodologies traditionnelles basées sur des ancres qui peuvent être sensibles au réglage des hyperparamètres par rapport à la nature de bout en bout des transformateurs.
Pour ceux qui recherchent le meilleur des deux mondes (vitesse de pointe, inférence de bout en bout NMS et facilité d'utilisation), le modèle Ultralytics offre une alternative supérieure, combinant les dernières optimisations en matière de fonctions de perte et CPU améliorées.
RTDETRv2 : Affiner le Transformeur en Temps Réel
RTDETRv2 (Real-Time Detection Transformer v2) s'appuie sur le succès de la version originale RT-DETR, en affinant davantage l'encodeur hybride et la sélection de requêtes tenant compte de l'incertitude. Il vise à résoudre le problème de latence caractéristique des modèles de transformateurs tout en conservant leur précision supérieure.
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 17 avril 2023
Arxiv :RTDETRv2 Article
GitHub :RT-DETR
Principales innovations architecturales
- Encodeur hybride : traite efficacement les caractéristiques multi-échelles en découplant l'interaction intra-échelle et la fusion inter-échelle, réduisant ainsi considérablement le coût de calcul par rapport aux encodeurs DETR déformables standard.
- Sélection de requêtes à incertitude minimale : améliore l'initialisation des requêtes d'objets en sélectionnant les caractéristiques ayant les scores de classification les plus élevés, ce qui accélère la convergence et améliore les détections initiales.
- InférenceNMS: en tant que modèle basé sur un transformateur, RTDETRv2 prédit directement un ensemble fixe d'objets, éliminant ainsi le besoin de suppression non maximale (NMS). Cela simplifie les pipelines de déploiement et élimine la variabilité de latence associée au post-traitement des prédictions denses.
- Prise en charge flexible des architectures de base : l'architecture prend en charge diverses architectures de base, notamment ResNet et HGNetv2, ce qui permet aux utilisateurs d'adapter le modèle en fonction des ressources informatiques disponibles.
Avantage des Transformers
Contrairement aux CNN qui traitent des voisinages locaux de pixels, le mécanisme d'auto-attention dans RTDETRv2 permet à chaque partie de l'image de prêter attention à toutes les autres parties. Ce « champ réceptif global » est particulièrement utile pour détecter des objets de grande taille ou comprendre les relations entre des parties éloignées d'une scène.
YOLO: efficacité de niveau industriel
YOLO à optimiser l'efficacité du paradigme « You Only Look Once » (vous ne regardez qu'une seule fois) grâce à une recherche rigoureuse d'architecture neuronale (NAS) et à des techniques novatrices de fusion de caractéristiques. Il est conçu pour être un détecteur robuste et polyvalent qui offre un équilibre entre vitesse et précision pour les applications industrielles.
Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 23 novembre 2022
Arxiv :YOLO
GitHub :YOLO
Principales caractéristiques architecturales
- MAE-NAS Backbone : utilise la méthode des valeurs propres auxiliaires pour la recherche d'architecture neuronale afin de découvrir des structures spécifiquement optimisées pour les tâches de détection, plutôt que des proxys de classification.
- RepGFPN efficace : un réseau pyramidal généralisé (GFPN) optimisé à l'aide de techniques de reparamétrisation (Rep). Cela permet une fusion complexe des caractéristiques pendant l'entraînement, qui se réduit à une structure simple et rapide pendant l'inférence.
- ZeroHead : une tête de détection légère qui réduit considérablement le nombre de paramètres et les FLOP sans sacrifier la précision moyenne (mAP).
- AlignedOTA : une stratégie améliorée d'attribution d'étiquettes qui résout le problème de désalignement entre les tâches de classification et de régression, garantissant ainsi la sélection d'ancres de haute qualité pendant l'entraînement.
Comparaison technique des performances
Lorsque l'on compare ces architectures, il est essentiel d'examiner les compromis entre la vitesse d'inférence pure et la précision de détection (mAP). Le tableau ci-dessous montre que, si RTDETRv2 atteint généralement une précision supérieure, en particulier sur le COCO difficile,YOLO des performances compétitives avec une latence potentiellement plus faible sur certaines configurations matérielles spécifiques.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Déploiement et cas d'utilisation
Scénarios idéaux pour RTDETRv2
- Scènes urbaines complexes : le mécanisme d'attention global excelle dans la gestion de l'occlusion dans les rues encombrées, ce qui le rend idéal pour la conduite autonome ou la surveillance du trafic.
- Imagerie médicale : lorsque la précision est primordiale et que les faux négatifs sont coûteux, comme dans le cas de la détection des tumeurs, la grande précision du RTDETRv2 est un atout.
- Comptage de foule : la capacité à distinguer les individus qui se chevauchent sans NMS le rend supérieur pour les applications de gestion de foule.
Scénarios idéaux pour DAMO-YOLO
- Fabrication à grande vitesse : dans les chaînes de montage nécessitant une latence de l'ordre de la milliseconde pour la détection des défauts, la faible latenceYOLO garantit que le débit n'est pas ralenti.
- IoT intégré : pour les appareils dont la puissance de calcul est limitée et pour lesquels les opérations de transformation sont trop lourdes, l'efficacité basée sur le CNN deYOLO avantageuse.
- Analyse commerciale : pour le suivi des articles en rayon ou la gestion des stocks, où une précision modérée est acceptable pour un traitement nettement plus rapide.
Ultralytics : YOLO26
Si RTDETRv2 etYOLO tous deux des fonctionnalités puissantes, le modèle Ultralytics représente le summum en matière d'efficacité et de convivialité. Lancé en janvier 2026, YOLO26 comble le fossé entre ces deux philosophies en intégrant la conception NMS des transformateurs dans une architecture hautement optimisée et adaptée à la périphérie.
Pourquoi les développeurs choisissent Ultralytics
- Plateforme unifiée : contrairement aux référentiels de recherche qui manquent souvent de maintenance, Ultralytics une plateforme complète pour la formation, le déploiement et la gestion des modèles. Que vous ayez besoin d'une estimation de pose, d'une segmentation ou d'un OBB, tout est disponible dans une seule bibliothèque.
Facilité d'utilisation : l'entraînement d'un modèle de pointe nécessite un minimum de code. Cette accessibilité permet aux chercheurs de se concentrer sur les données plutôt que sur le débogage de boucles d'entraînement complexes.
from ultralytics import YOLO # Load the latest YOLO26 model (NMS-free by design) model = YOLO("yolo26n.pt") # Train on a custom dataset with MuSGD optimizer results = model.train(data="coco8.yaml", epochs=100, imgsz=640)Efficacité de bout en bout : YOLO26 introduit une conception de bout en bout NMS, lancée dans YOLOv10 perfectionnée pour la production. Cela supprime la surcharge de post-traitement présente dansYOLO évitant le coût de calcul élevé des couches d'attention complète de RTDETRv2.
- Optimisation en périphérie : grâce à la suppression de la perte focale de distribution (DFL) et à des optimisations spécifiques pour CPU , YOLO26 est jusqu'à 43 % plus rapide sur les appareils périphériques que les générations précédentes, ce qui en fait un choix idéal pour les déploiements mobiles.
- Formation avancée : des fonctionnalités telles que MuSGD Optimizer (inspiré de la formation LLM) et ProgLoss garantissent une formation stable et une convergence plus rapide, réduisant ainsi le temps et les coûts associés au développement de modèles.
Conclusion
Pour la recherche pure ou les scénarios exigeant une précision théorique maximale sur des GPU haut de gamme, RTDETRv2 est un concurrent sérieux. Pour les systèmes hérités strictement contraints nécessitant l'empreinte CNN la plus petite possible, YOLO reste pertinent. Cependant, pour la grande majorité des applications du monde réel nécessitant un équilibre entre vitesse, précision, polyvalence et facilité de déploiement, Ultralytics est la solution recommandée.
Découvrez d'autres comparaisons pour voir comment Ultralytics se positionnent par rapport à YOLOv8 et EfficientDet.