Link to this sectionYOLOv10 vs. RTDETRv2 : Évaluation des détecteurs d'objets temps réel de bout en bout#
Le paysage de la vision par ordinateur évolue à une vitesse fulgurante, avec de nouvelles architectures redéfinissant constamment l'état de l'art en matière de détection d'objets en temps réel. Deux étapes importantes de cette évolution sont YOLOv10 et RTDETRv2. Les deux modèles visent à résoudre un goulot d'étranglement fondamental dans les pipelines de détection traditionnels en éliminant le besoin de post-traitement par NMS (Non-Maximum Suppression), mais ils abordent ce défi selon des paradigmes architecturaux totalement différents.
Cette comparaison technique fournit une analyse approfondie de leurs architectures, méthodologies d'entraînement et scénarios de déploiement idéaux pour aider les développeurs et les chercheurs à choisir le bon outil pour leur prochain projet de vision par IA.
Link to this sectionYOLOv10 : Le pionnier sans NMS#
Développé par des chercheurs de l'Université Tsinghua, YOLOv10 se concentre fortement sur l'efficacité architecturale et la suppression des goulots d'étranglement liés au post-traitement. En introduisant des assignations doubles cohérentes pour un entraînement sans NMS, il atteint des performances compétitives tout en réduisant considérablement la latence d'inférence.
Link to this sectionSpécifications techniques#
- Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation : Université Tsinghua
- Date : 23/05/2024
- ArXiv : Article YOLOv10
- GitHub : THU-MIG/yolov10
- Docs : Documentation YOLOv10
Link to this sectionArchitecture et méthodologies#
La principale avancée de YOLOv10 réside dans la conception de son modèle, axée sur une efficacité et une précision holistiques. Il optimise divers composants sous ces deux angles, réduisant considérablement la surcharge de calcul. La stratégie d'assignations doubles cohérentes permet au modèle de s'entraîner sans dépendre du NMS, ce qui se traduit par un pipeline de déploiement simplifié, de bout en bout. C'est particulièrement avantageux lors de l'exportation de modèles vers des formats edge comme ONNX ou TensorRT, où les opérations de post-traitement peuvent introduire une latence inattendue.
Link to this sectionPoints forts et faiblesses#
Le modèle offre des compromis vitesse-précision exceptionnels, surtout dans les variantes plus petites (N et S). Sa latence minimale le rend idéal pour les environnements edge à haute vitesse. Cependant, bien que YOLOv10 excelle en vitesse de détection brute, il reste un modèle spécialisé uniquement pour la détection. Les équipes ayant besoin de segmentation d'instance ou d'estimation de pose devront se tourner vers des frameworks plus polyvalents.
Link to this sectionRTDETRv2 : Affiner le Detection Transformer#
S'appuyant sur le Real-Time Detection Transformer original, RTDETRv2 intègre un "bag of freebies" pour améliorer sa base de référence, démontrant que les transformers peuvent rivaliser avec les CNN en temps réel.
Link to this sectionSpécifications techniques#
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation : Baidu
- Date : 24/07/2024
- ArXiv : Article RTDETRv2
- GitHub : lyuwenyu/RT-DETR
- Docs : Documentation RTDETRv2
Link to this sectionArchitecture et méthodologies#
RTDETRv2 utilise une architecture hybride, combinant un backbone de réseau de neurones convolutifs (CNN) pour l'extraction de caractéristiques visuelles avec un encodeur-décodeur Transformer pour une compréhension complète de la scène. Le mécanisme d'auto-attention du transformer permet au modèle de visualiser l'image globalement, ce qui le rend très efficace pour gérer des scènes complexes, des objets qui se chevauchent et des foules denses.
Link to this sectionPoints forts et faiblesses#
L'architecture transformer offre une excellente précision, en particulier sur les échelles de paramètres plus larges, et produit nativement des détections finales sans NMS. Cependant, cela a un coût. Les modèles de type transformer nécessitent traditionnellement beaucoup plus de mémoire CUDA pendant l'entraînement et peuvent converger plus lentement que les architectures CNN pures. Bien que RTDETRv2 ait amélioré les vitesses d'inférence, il consomme généralement plus de mémoire que les variantes légères de YOLO.
Link to this sectionComparaison des performances#
L'évaluation des mesures de performance permet de mieux comprendre où chaque modèle excelle. Le tableau suivant met en évidence leurs capacités sur le jeu de données COCO :
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56,9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
En analysant les données, YOLOv10 conserve un avantage strict en termes d'efficacité des paramètres et de vitesse d'inférence TensorRT pour des tailles comparables. RTDETRv2-x égale le massif YOLOv10x en précision mais nécessite près de 20 millions de paramètres de plus et des FLOPs nettement plus élevés.
Link to this sectionCas d'utilisation et recommandations#
Le choix entre YOLOv10 et RT-DETR dépend des exigences spécifiques de ton projet, des contraintes de déploiement et de tes préférences en matière d'écosystème.
Link to this sectionQuand choisir YOLOv10#
YOLOv10 est un choix solide pour :
- Détection temps réel sans NMS : Applications bénéficiant d'une détection de bout en bout sans NMS (Non-Maximum Suppression), ce qui réduit la complexité du déploiement.
- Compromis vitesse-précision équilibré : Projets nécessitant un bon équilibre entre la vitesse d'inférence et la précision de détection pour différentes tailles de modèles.
- Applications à latence constante : Scénarios de déploiement où des temps d'inférence prévisibles sont essentiels, comme dans la robotique ou les systèmes autonomes.
Link to this sectionQuand choisir RT-DETR#
RT-DETR est recommandé pour :
- Recherche sur la détection basée sur les Transformers : Projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
- Scénarios de haute précision avec latence flexible : Applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
- Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformateurs offre un avantage naturel.
Link to this sectionQuand choisir Ultralytics (YOLO26)#
Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :
- Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
- Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Link to this sectionL'avantage Ultralytics : Écosystème et innovation#
Bien que YOLOv10 et RTDETRv2 offrent des capacités de détection robustes, le choix d'un modèle dépend souvent de l'écosystème logiciel qui l'entoure. La Plateforme Ultralytics fournit une interface fluide et unifiée qui abstrait les complexités de l'apprentissage profond.
Link to this sectionLe nouveau standard : Ultralytics YOLO26#
Pour les développeurs recherchant les meilleures performances absolues, Ultralytics YOLO26 représente l'aboutissement des récentes avancées architecturales. Sorti début 2026, YOLO26 hérite de la conception end-to-end sans NMS initiée par YOLOv10, éliminant complètement le post-traitement NMS pour un déploiement plus rapide et plus simple.
YOLO26 apporte les innovations d'entraînement des LLM à la vision par ordinateur via l'optimiseur MuSGD (un hybride de SGD et Muon), ce qui permet un entraînement plus stable et une convergence plus rapide. Il bénéficie également d'une inférence CPU jusqu'à 43 % plus rapide, ce qui en fait le choix privilégié pour l'informatique edge.
De plus, YOLO26 introduit ProgLoss + STAL pour des améliorations notables dans la reconnaissance des petits objets, et contrairement au modèle spécialisé YOLOv10, il offre une polyvalence extrême. Il prend nativement en charge la détection d'objets, la segmentation, la pose et les boîtes englobantes orientées (OBB) avec des améliorations spécifiques à chaque tâche, comme la perte de segmentation sémantique et l'estimation du log-vraisemblance résiduel (RLE) pour la pose. En outre, la suppression de la Distribution Focal Loss (DFL) garantit une exportation simplifiée et une meilleure compatibilité avec les appareils à faible puissance.
Link to this sectionFacilité d'utilisation et efficacité de l'entraînement#
Que tu expérimentes avec des modèles de génération plus ancienne comme Ultralytics YOLO11 ou le très avancé YOLO26, l'API Python rationalisée garantit une utilisation moindre de la mémoire pendant l'entraînement et des workflows extrêmement rapides.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")L'écosystème bien entretenu fournit des outils pour un réglage facile des hyperparamètres et s'intègre parfaitement avec des solutions de suivi étendues et des options de déploiement de modèles.
Link to this sectionConclusion#
YOLOv10 et RTDETRv2 représentent tous deux des étapes marquantes dans la quête d'une détection d'objets sans NMS. RTDETRv2 prouve que les transformers peuvent atteindre une latence en temps réel avec une excellente compréhension du contexte global, bien qu'avec des besoins en mémoire plus élevés. YOLOv10 fournit une alternative CNN très efficace et rapide, adaptée aux tâches de détection limitées en ressources.
Cependant, pour une performance équilibrée, une polyvalence multi-tâches et l'écosystème le plus mature, les développeurs sont vivement encouragés à tirer parti d'Ultralytics YOLO26. Il marie magnifiquement les innovations architecturales de ses prédécesseurs avec l'outillage robuste et convivial qui fait du déploiement de la vision par IA une réalité fluide.