Passer au contenu

RTDETRv2 vs YOLOv10: avancées dans la détection d'objets en temps réel NMS

L'évolution de la vision par ordinateur a été largement motivée par la recherche incessante d'un équilibre entre vitesse et précision. Traditionnellement, les pipelines de détection d'objets en temps réel s'appuient sur la suppression non maximale (NMS) comme étape de post-traitement pour filtrer les boîtes englobantes qui se chevauchent. Cependant, NMS des goulots d'étranglement en termes de latence et nécessite un réglage complexe des hyperparamètres. Récemment, deux approches architecturales distinctes ont vu le jour pour résoudre ce problème de manière native : les modèles basés sur des transformateurs comme RTDETRv2 et les modèles basés sur des CNN comme YOLOv10.

Ce guide fournit une comparaison technique complète de ces deux modèles, en analysant leurs architectures, leurs indicateurs de performance et leurs cas d'utilisation idéaux, tout en soulignant comment les dernières innovations de Ultralytics offrent la solution ultime pour un déploiement moderne.

RTDETRv2 : Transformateurs de détection en temps réel

RTDETRv2 s'appuie sur le modèle original RT-DETR , dans le but de combiner la compréhension du contexte global des transformateurs de vision avec les exigences de vitesse en temps réel traditionnellement dominées par YOLO .

Caractéristiques clés :

Architecture et méthodologies de formation

RTDETRv2 utilise une architecture de transformateur de bout en bout qui évite intrinsèquement NMS. Il améliore son prédécesseur en introduisant une approche « Bag-of-Freebies », en optimisant la stratégie d'entraînement et en intégrant des capacités de détection multi-échelle. Le modèle utilise une structure CNN pour extraire des cartes de caractéristiques (détails visuels tels que les contours et les textures), qui sont ensuite traitées par une structure transducteur-décodeur. Cela permet au modèle d'analyser simultanément l'ensemble du contexte de l'image, ce qui le rend très efficace pour comprendre des scènes complexes où les objets sont densément regroupés ou se chevauchent.

Points forts et faiblesses

Points forts :

  • Contexte global : le mécanisme d'attention permet au modèle d'exceller dans des environnements complexes et encombrés.
  • NMS: prédit directement les coordonnées des objets, simplifiant ainsi le pipeline de déploiement.
  • Haute précision : atteint une excellente précision moyenne (mAP) sur l'ensemble COCO .

Faiblesses :

  • Gourmand en ressources : les architecturesde transformateurs nécessitent généralement beaucoup plus CUDA pendant l'entraînement que les CNN, ce qui rend leur réglage fin coûteux sur du matériel standard.
  • Variabilité de la vitesse d'inférence : bien que rapides, les calculs exigeants en termes d'attention peuvent entraîner une baisse du nombre d'images par seconde dans la vision par ordinateur sur les appareils périphériques dépourvus d'accélérateurs IA dédiés.

En savoir plus sur RTDETRv2

YOLOv10 : Détection d'objets de bout en bout en temps réel

YOLOv10 un changement majeur dans la lignée de la détectionYOLO en s'attaquant directement au NMS de longue date dans un cadre CNN.

Caractéristiques clés :

Architecture et méthodologies de formation

La principale innovation de YOLOv10 ses doubles attributions cohérentes pour un entraînement NMS. Il utilise deux têtes de détection pendant l'entraînement : l'une avec une attribution un-à-plusieurs (comme les YOLO traditionnels) pour fournir des signaux de supervision riches, et l'autre avec une attribution un-à-un pour éliminer le besoin de NMS. Pendant l'inférence, seule la tête un-à-un est utilisée, ce qui permet d'obtenir un processus de bout en bout. De plus, les auteurs ont appliqué une stratégie de conception de modèle holistique axée sur l'efficacité et la précision, optimisant de manière exhaustive divers composants afin de réduire la redondance computationnelle.

Points forts et faiblesses

Points forts :

  • Vitesse extrême : en supprimant NMS en optimisant l'architecture, YOLOv10 une latence d'inférence incroyablement faible.
  • Efficacité : nécessite moins de paramètres et de FLOP pour atteindre une précision comparable à celle d'autres modèles, ce qui le rend particulièrement adapté aux environnements contraints.
  • DéploiementsNMS: simplifie l'intégration dans les applications périphériques telles que la surveillance intelligente.

Faiblesses :

  • Concept de première génération : en tant que premier YOLO mettre en œuvre cette architecture spécifique NMS, il a jeté les bases tout en laissant la place à la polyvalence multitâche et à l'optimisation observées dans les modèles suivants, tels que YOLO11 et YOLO26.

En savoir plus sur YOLOv10

Comparaison des performances

Lors de l'évaluation des modèles pour la production, il est essentiel de trouver le juste équilibre entre précision et coût de calcul. Le tableau ci-dessous met en évidence les compromis en termes de performances entre différentes tailles de RTDETRv2 et YOLOv10.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Alors que RTDETRv2 offre une précision robuste, YOLOv10 un avantage remarquable en termes de latence et d'efficacité des paramètres, en particulier dans ses variantes plus petites (Nano et Small), ce qui le rend très attractif pour les applications d'edge computing et d'AIoT.

Choisir la bonne échelle

Si vous déployez sur des GPU de niveau serveur où taille de lot et la VRAM sont moins limitées, les modèles plus grands (comme -x ou -l) pour optimiser la précision. Pour les appareils périphériques tels que Raspberry Pi ou les téléphones mobiles, privilégiez nano (-n) ou petit (-s) afin de maintenir les fréquences d'images en temps réel.

Cas d'utilisation et recommandations

Le choix entre RT-DETR YOLOv10 des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.

Quand choisir RT-DETR

RT-DETR un choix judicieux pour :

  • Recherche sur la détection basée sur les transformateurs : projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
  • Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection d'objets volumineux : scènes comportant principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des transformateurs offre un avantage naturel.

Quand choisir YOLOv10

YOLOv10 recommandé pour :

  • Détection en temps réelNMS: applications bénéficiant d'une détection de bout en bout sans suppression non maximale, réduisant ainsi la complexité du déploiement.
  • Compromis équilibré entre vitesse et précision : projets nécessitant un équilibre solide entre la vitesse d'inférence et la précision de détection à différentes échelles de modèle.
  • Applications à latence constante : scénarios de déploiement où des temps d'inférence prévisibles sont essentiels, tels que la robotique ou les systèmes autonomes.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
  • EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Ultralytics : présentation de YOLO26

Si RTDETRv2 et YOLOv10 tous deux des avancées académiques convaincantes, leur déploiement dans des scénarios réels nécessite un écosystème logiciel robuste et bien entretenu. La Ultralytics offre une expérience de développement inégalée, alliant facilité d'utilisation, documentation complète et outils puissants pour l'annotation et le déploiement des données.

Pour les développeurs à la recherche de la technologie de pointe absolue en 2026, Ultralytics est la recommandation ultime. Il synthétise les meilleures idées des deux architectures tout en introduisant des améliorations révolutionnaires :

  • Conception NMS de bout en bout : s'appuyant sur le concept lancé par YOLOv10, YOLO26 élimine nativement NMS , ce qui se traduit par une logique de déploiement plus rapide et plus simple et une variance de latence nulle.
  • Suppression du DFL : en supprimant le Distribution Focal Loss, YOLO26 simplifie l'exportation du modèle et améliore considérablement la compatibilité avec les appareils périphériques et à faible consommation d'énergie.
  • Optimiseur MuSGD : hybride entre SGD Muon (inspiré des innovations en matière de formation LLM), cet optimiseur novateur offre une formation plus stable et une convergence nettement plus rapide par rapport aux méthodes traditionnelles.
  • CPU jusqu'à 43 % plus rapide : soigneusement optimisé pour les environnements sans GPU dédiés, démocratisant l'IA visuelle haute performance.
  • ProgLoss + STAL : ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance des petits objets, ce qui est essentiel pour les applications utilisant des drones et des capteurs IoT.
  • Une polyvalence inégalée : contrairement aux modèles limités aux boîtes englobantes, YOLO26 prend en charge une gamme complète de tâches, notamment la segmentation d'instances, l'estimation de pose, la classification d'images et la détection OBB, avec des améliorations spécifiques à chaque tâche, telles que l'estimation de la vraisemblance résiduelle (RLE) pour la pose.

En savoir plus sur YOLO26

Implémentation transparente avec Python

La formation et le déploiement de ces modèles à l'aide de Python Ultralytics sont conçus pour être fluides. Les besoins en mémoire sont nettement inférieurs pendant la formation par rapport aux architectures à forte intensité de transformateurs, ce qui vous permet de former des modèles puissants sur du matériel standard.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

Que vous mettiez en œuvre des systèmes d'alarme de sécurité ou que vous effectuiez des analyses d'images médicales, choisir un modèle soutenu par la Ultralytics active Ultralytics vous garantit de disposer des outils, des guides de réglage des hyperparamètres et des mises à jour continues nécessaires pour réussir. Alors que YOLOv10 RTDETRv2 ont ouvert la voie aux architectures NMS, YOLO26 perfectionne la formule en offrant le meilleur équilibre entre performances, polyvalence et aptitude à la production.


Commentaires