YOLOv10 vs. RTDETRv2 : Évaluation des détecteurs d'objets temps réel de bout en bout
Le paysage de la computer vision évolue à une vitesse fulgurante, avec de nouvelles architectures redéfinissant constamment l'état de l'art dans la détection d'objets en temps réel. Deux jalons significatifs dans cette évolution sont YOLOv10 et RTDETRv2. Les deux modèles visent à résoudre un goulot d'étranglement fondamental dans les pipelines de détection traditionnels en éliminant le besoin de post-traitement par NMS (Non-Maximum Suppression), mais ils abordent ce défi à partir de paradigmes architecturaux totalement différents.
Cette comparaison technique fournit une analyse approfondie de leurs architectures, méthodologies d'entraînement et scénarios de déploiement idéaux pour t'aider, en tant que développeur ou chercheur, à choisir le bon outil pour ton prochain projet de vision AI.
YOLOv10 : Le pionnier sans NMS
Développé par des chercheurs de l'Université Tsinghua, YOLOv10 se concentre fortement sur l'efficacité architecturale et la suppression des goulots d'étranglement liés au post-traitement. En introduisant des assignations doubles cohérentes pour un entraînement sans NMS, il atteint des performances compétitives tout en réduisant considérablement la latence d'inférence.
Spécifications techniques
- Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation : Université Tsinghua
- Date : 23/05/2024
- ArXiv : Article YOLOv10
- GitHub : THU-MIG/yolov10
- Docs : Documentation YOLOv10
Architecture et méthodologies
La percée principale de YOLOv10 réside dans sa conception de modèle holistique axée sur l'équilibre entre efficacité et précision. Il optimise divers composants sous ces deux angles, réduisant considérablement la charge computationnelle. La stratégie d'assignations doubles cohérentes permet au modèle de s'entraîner sans dépendre du NMS, ce qui se traduit par un pipeline de déploiement rationalisé et de bout en bout. C'est particulièrement avantageux lors de l'exportation de modèles vers des formats pour périphériques de bord (edge) comme ONNX ou TensorRT, où les opérations de post-traitement peuvent introduire une latence imprévue.
Forces et faiblesses
Le modèle affiche des compromis vitesse-précision exceptionnels, surtout dans ses variantes plus petites (N et S). Sa latence minimale le rend idéal pour les environnements périphériques à haute vitesse. Cependant, bien que YOLOv10 excelle dans la vitesse brute de détection, il reste un modèle spécialisé uniquement dans la détection. Les équipes ayant besoin de instance segmentation ou de pose estimation devront se tourner vers des frameworks plus polyvalents.
RTDETRv2 : Raffinement du Transformer de détection
S'appuyant sur le Real-Time Detection Transformer original, RTDETRv2 intègre un "sac d'astuces" (bag of freebies) pour améliorer sa base, démontrant que les Transformers peuvent concurrencer les CNN dans des scénarios en temps réel.
Spécifications techniques
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation : Baidu
- Date : 24-07-2024
- ArXiv : Article RTDETRv2
- GitHub : lyuwenyu/RT-DETR
- Docs : Documentation RTDETRv2
Architecture et méthodologies
RTDETRv2 utilise une architecture hybride, combinant un backbone de réseau neuronal convolutif (CNN) pour l'extraction de caractéristiques visuelles avec un encodeur-décodeur Transformer pour une compréhension globale de la scène. Le mécanisme d'auto-attention du Transformer permet au modèle de visualiser l'image globalement, ce qui le rend très efficace pour gérer des scènes complexes, des objets qui se chevauchent et des foules denses.
Forces et faiblesses
L'architecture Transformer offre une excellente précision, en particulier sur des échelles de paramètres plus grandes, et produit nativement des détections finales sans NMS. Cependant, cela a un coût. Les modèles de type Transformer nécessitent traditionnellement beaucoup plus de mémoire CUDA lors de l'entraînement et peuvent être plus lents à converger par rapport aux architectures CNN pures. Bien que RTDETRv2 ait amélioré les vitesses d'inférence, il consomme généralement plus de mémoire que les variantes légères de YOLO.
Comparaison des performances
L'évaluation des métriques de performance permet de mieux comprendre où chaque modèle excelle. Le tableau suivant met en évidence leurs capacités sur le jeu de données COCO :
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2,3 | 6,7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21,6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59,1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92,0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120,3 |
| YOLOv10x | 640 | 54,4 | - | 12.2 | 56.9 | 160,4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
En analysant les données, YOLOv10 maintient un avantage strict en termes d'efficacité des paramètres et de vitesse d'inférence TensorRT sur des tailles comparables. RTDETRv2-x égale le massif YOLOv10x en précision mais nécessite près de 20 millions de paramètres supplémentaires et des FLOPs nettement plus élevés.
Cas d'utilisation et recommandations
Choisir entre YOLOv10 et RT-DETR dépend de tes exigences de projet spécifiques, de tes contraintes de déploiement et de tes préférences en matière d'écosystème.
Quand choisir YOLOv10
YOLOv10 est un choix solide pour :
- Détection en temps réel sans NMS : Applications bénéficiant d'une détection de bout en bout sans suppression des non-maximums, réduisant la complexité de déploiement.
- Compromis vitesse-précision équilibrés : Projets nécessitant un bon équilibre entre la vitesse d'inférence et la précision de détection sur différentes échelles de modèles.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
Quand choisir RT-DETR
RT-DETR est recommandé pour :
- Recherche sur la détection basée sur les Transformer : Projets explorant les mécanismes d'attention et les architectures Transformer pour la détection d'objets de bout en bout sans NMS.
- Scénarios de haute précision avec latence flexible : Applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
- Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des Transformer offre un avantage naturel.
Quand choisir Ultralytics (YOLO26)
Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :
- Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression des non-maximums.
- Environnements 100 % CPU : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
L'avantage Ultralytics : Écosystème et innovation
Alors que YOLOv10 et RTDETRv2 offrent des capacités de détection robustes, le choix d'un modèle dépend souvent de l'écosystème logiciel environnant. La plateforme Ultralytics fournit une interface unifiée et transparente qui élimine la complexité du deep learning.
Le nouveau standard : Ultralytics YOLO26
Pour les développeurs recherchant la performance absolue, Ultralytics YOLO26 représente l'aboutissement des récentes avancées architecturales. Sorti début 2026, YOLO26 hérite de la conception NMS-Free de bout en bout lancée par YOLOv10, éliminant complètement le post-traitement NMS pour un déploiement plus rapide et plus simple.
YOLO26 apporte des innovations d'entraînement LLM à la vision par ordinateur via l'optimiseur MuSGD (un hybride de SGD et Muon), ce qui permet un entraînement plus stable et une convergence plus rapide. Il bénéficie également d'une inférence CPU jusqu'à 43 % plus rapide, ce qui en fait le choix privilégié pour l'edge computing.
De plus, YOLO26 introduit ProgLoss + STAL pour des améliorations notables dans la reconnaissance de petits objets et, contrairement au YOLOv10 spécialisé, il offre une polyvalence extrême. Il prend nativement en charge l'object detection, la segmentation, la pose et les oriented bounding boxes (OBB) avec des améliorations spécifiques à la tâche comme la perte de segmentation sémantique et l'estimation de log-vraisemblance résiduelle (RLE) pour la pose. Par ailleurs, la suppression de la perte focale de distribution (DFL) assure une exportation simplifiée et une meilleure compatibilité avec les appareils à faible consommation.
Facilité d'utilisation et efficacité de l'entraînement
Que tu expérimentes avec des modèles de génération plus ancienne comme Ultralytics YOLO11 ou avec le tout dernier YOLO26, l'API Python rationalisée garantit une utilisation moindre de la mémoire pendant l'entraînement et des flux de travail extrêmement rapides.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")L'écosystème bien entretenu fournit des outils pour un hyperparameter tuning facile et s'intègre parfaitement avec des solutions de suivi étendues et des options de déploiement de modèles.
Conclusion
YOLOv10 et RTDETRv2 représentent tous deux des jalons formidables dans la quête d'une détection d'objets sans NMS. RTDETRv2 prouve que les Transformers peuvent atteindre une latence en temps réel avec une excellente compréhension contextuelle globale, bien qu'avec des besoins en mémoire plus élevés. YOLOv10 fournit une alternative CNN très efficace et rapide, adaptée aux tâches de détection limitées par les ressources.
Cependant, pour une performance équilibrée, une polyvalence multi-tâches et l'écosystème le plus mature, nous encourageons vivement les développeurs à tirer parti de Ultralytics YOLO26. Il marie magnifiquement les innovations architecturales de ses prédécesseurs avec les outils robustes et conviviaux qui font du déploiement de la vision par IA une réalité fluide.