RTDETRv2 vs YOLOv10: avancées dans la détection d'objets en temps réel NMS

L'évolution de la vision par ordinateur a été largement motivée par la recherche incessante d'un équilibre entre vitesse et précision. Traditionnellement, les pipelines de détection d'objets en temps réel s'appuient sur la suppression non maximale (NMS) comme étape de post-traitement pour filtrer les boîtes englobantes qui se chevauchent. Cependant, NMS des goulots d'étranglement en termes de latence et nécessite un réglage complexe des hyperparamètres. Récemment, deux approches architecturales distinctes ont vu le jour pour résoudre ce problème de manière native : les modèles basés sur des transformateurs comme RTDETRv2 et les modèles basés sur des CNN comme YOLOv10.

Ce guide fournit une comparaison technique complète de ces deux modèles, en analysant leurs architectures, leurs indicateurs de performance et leurs cas d'utilisation idéaux, tout en soulignant comment les dernières innovations de Ultralytics offrent la solution ultime pour un déploiement moderne.

RTDETRv2 : Transformateurs de détection en temps réel

RTDETRv2 s'appuie sur le modèle original RT-DETR , dans le but de combiner la compréhension du contexte global des transformateurs de vision avec les exigences de vitesse en temps réel traditionnellement dominées par YOLO .

Caractéristiques clés :

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 2024-07-24
Arxiv : https://arxiv.org/abs/2407.17140
GitHub : RT-DETR

Architecture et méthodologies de formation

RTDETRv2 utilise une architecture de transformateur de bout en bout qui évite intrinsèquement NMS. Il améliore son prédécesseur en introduisant une approche « Bag-of-Freebies », en optimisant la stratégie d'entraînement et en intégrant des capacités de détection multi-échelle. Le modèle utilise une structure CNN pour extraire des cartes de caractéristiques (détails visuels tels que les contours et les textures), qui sont ensuite traitées par une structure transducteur-décodeur. Cela permet au modèle d'analyser simultanément l'ensemble du contexte de l'image, ce qui le rend très efficace pour comprendre des scènes complexes où les objets sont densément regroupés ou se chevauchent.

Points forts et faiblesses

Points forts :

Contexte global : le mécanisme d'attention permet au modèle d'exceller dans des environnements complexes et encombrés.
Sans NMS : Prédit directement les coordonnées des objets, simplifiant ainsi le pipeline de déploiement.
Haute précision : atteint une excellente précision moyenne (mAP) sur l'ensemble COCO .

Faiblesses :

Gourmand en ressources : Les architectures Transformer nécessitent généralement beaucoup plus de mémoire CUDA pendant l'entraînement par rapport aux CNN, ce qui les rend coûteuses à affiner sur du matériel standard.
Variabilité de la Vitesse d'Inférence : Bien que rapides, les calculs d'attention lourds peuvent entraîner un FPS plus faible en vision par ordinateur sur les appareils périphériques dépourvus d'accélérateurs d'IA dédiés.

En savoir plus sur RTDETRv2

YOLOv10 : Détection d'objets de bout en bout en temps réel

YOLOv10 un changement majeur dans la lignée de la détectionYOLO en s'attaquant directement au NMS de longue date dans un cadre CNN.

Caractéristiques clés :

Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation : Université Tsinghua
Date : 2024-05-23
Arxiv : https://arxiv.org/abs/2405.14458
GitHub : https://github.com/THU-MIG/yolov10

Architecture et méthodologies de formation

La principale innovation de YOLOv10 ses doubles attributions cohérentes pour un entraînement NMS. Il utilise deux têtes de détection pendant l'entraînement : l'une avec une attribution un-à-plusieurs (comme les YOLO traditionnels) pour fournir des signaux de supervision riches, et l'autre avec une attribution un-à-un pour éliminer le besoin de NMS. Pendant l'inférence, seule la tête un-à-un est utilisée, ce qui permet d'obtenir un processus de bout en bout. De plus, les auteurs ont appliqué une stratégie de conception de modèle holistique axée sur l'efficacité et la précision, optimisant de manière exhaustive divers composants afin de réduire la redondance computationnelle.

Points forts et faiblesses

Points forts :

Vitesse extrême : En supprimant la NMS et en optimisant l'architecture, YOLOv10 atteint une latence d'inférence incroyablement faible.
Efficacité : Nécessite moins de paramètres et de FLOPs pour atteindre une précision comparable à celle d'autres modèles, ce qui le rend particulièrement adapté aux environnements contraints.
Déploiements sans NMS : Simplifie l'intégration dans les applications embarquées comme la surveillance intelligente.

Faiblesses :

Concept de première génération : en tant que premier YOLO mettre en œuvre cette architecture spécifique NMS, il a jeté les bases tout en laissant la place à la polyvalence multitâche et à l'optimisation observées dans les modèles suivants, tels que YOLO11 et YOLO26.

En savoir plus sur YOLOv10

Comparaison des performances

Lors de l'évaluation des modèles pour la production, il est essentiel de trouver le juste équilibre entre précision et coût de calcul. Le tableau ci-dessous met en évidence les compromis en termes de performances entre différentes tailles de RTDETRv2 et YOLOv10.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

Alors que RTDETRv2 offre une précision robuste, YOLOv10 un avantage remarquable en termes de latence et d'efficacité des paramètres, en particulier dans ses variantes plus petites (Nano et Small), ce qui le rend très attractif pour les applications d'edge computing et d'AIoT.

Choisir la bonne échelle

Si vous déployez sur des GPU de niveau serveur où taille de lot et que la VRAM est moins contrainte, les modèles plus grands (comme -x ou -l) maximisent la précision. Pour les appareils périphériques comme le Raspberry Pi ou les téléphones mobiles, privilégiez les modèles nano (-n) ou petits (-s) variantes pour maintenir des fréquences d'images en temps réel.

Cas d'utilisation et recommandations

Le choix entre RT-DETR et YOLOv10 dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir RT-DETR

RT-DETR un choix judicieux pour :

Recherche sur la détection basée sur les transformeurs : Projets explorant les mécanismes d'attention et les architectures de transformeurs pour la détection d'objets de bout en bout sans NMS.
Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformeurs offre un avantage naturel.

Quand choisir YOLOv10

YOLOv10 recommandé pour :

Détection en temps réel sans NMS : Applications qui bénéficient d'une détection de bout en bout sans Non-Maximum Suppression, réduisant ainsi la complexité du déploiement.
Compromis équilibrés vitesse-précision: Projets nécessitant un équilibre solide entre la vitesse d'inférence et la précision de détection sur diverses échelles de modèles.
Applications à latence constante : Scénarios de déploiement où des temps d'inférence prévisibles sont critiques, tels que la robotique ou les systèmes autonomes.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Ultralytics : présentation de YOLO26

Si RTDETRv2 et YOLOv10 tous deux des avancées académiques convaincantes, leur déploiement dans des scénarios réels nécessite un écosystème logiciel robuste et bien entretenu. La Ultralytics offre une expérience de développement inégalée, alliant facilité d'utilisation, documentation complète et outils puissants pour l'annotation et le déploiement des données.

Pour les développeurs à la recherche de la technologie de pointe absolue en 2026, Ultralytics est la recommandation ultime. Il synthétise les meilleures idées des deux architectures tout en introduisant des améliorations révolutionnaires :

Conception de bout en bout sans NMS : S'appuyant sur le concept initié par YOLOv10, YOLO26 élimine nativement le post-traitement NMS, ce qui se traduit par une logique de déploiement plus rapide et plus simple, et une variance de latence nulle.
Suppression de la DFL : En supprimant la Distribution Focal Loss, YOLO26 simplifie l'exportation du modèle et améliore drastiquement la compatibilité avec les appareils périphériques et à faible consommation.
Optimiseur MuSGD : Un hybride de SGD et Muon (inspiré par les innovations en matière d'entraînement des LLM), cet optimiseur novateur offre un entraînement plus stable et une convergence significativement plus rapide par rapport aux méthodes traditionnelles.
Inférence CPU jusqu'à 43 % plus rapide : Soigneusement optimisé pour les environnements sans GPU dédiés, démocratisant l'IA de vision haute performance.
ProgLoss + STAL: Ces fonctions de perte avancées apportent des améliorations notables à la reconnaissance des petits objets, ce qui est essentiel pour les applications utilisant des drones et les capteurs IoT.
Polyvalence inégalée : Contrairement aux modèles limités aux boîtes englobantes, YOLO26 prend en charge une suite complète de tâches, y compris la segmentation d'instances, l'estimation de pose, la classification d'images et la détection d'OBB, avec des améliorations spécifiques à chaque tâche comme l'estimation du log-vraisemblance résiduel (RLE) pour la pose.

En savoir plus sur YOLO26

Implémentation transparente avec Python

La formation et le déploiement de ces modèles à l'aide de Python Ultralytics sont conçus pour être fluides. Les besoins en mémoire sont nettement inférieurs pendant la formation par rapport aux architectures à forte intensité de transformateurs, ce qui vous permet de former des modèles puissants sur du matériel standard.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

Que vous mettiez en œuvre des systèmes d'alarme de sécurité ou que vous effectuiez des analyses d'images médicales, choisir un modèle soutenu par la Ultralytics active Ultralytics vous garantit de disposer des outils, des guides de réglage des hyperparamètres et des mises à jour continues nécessaires pour réussir. Alors que YOLOv10 RTDETRv2 ont ouvert la voie aux architectures NMS, YOLO26 perfectionne la formule en offrant le meilleur équilibre entre performances, polyvalence et aptitude à la production.

RTDETRv2 vs YOLOv10: avancées dans la détection d'objets en temps réel NMS

RTDETRv2 : Transformateurs de détection en temps réel

Architecture et méthodologies de formation

Points forts et faiblesses

YOLOv10 : Détection d'objets de bout en bout en temps réel

Architecture et méthodologies de formation

Points forts et faiblesses

Comparaison des performances

Cas d'utilisation et recommandations

Quand choisir RT-DETR

Quand choisir YOLOv10

Quand choisir Ultralytics YOLO26)

Ultralytics : présentation de YOLO26

Implémentation transparente avec Python

Commentaires