Passer au contenu

YOLOv10 RTDETRv2 : évaluation des détecteurs d'objets en temps réel de bout en bout

Le domaine de la vision par ordinateur évolue à un rythme effréné, avec de nouvelles architectures qui redéfinissent constamment l'état de l'art en matière de détection d'objets en temps réel. YOLOv10 RTDETRv2 constituent deux étapes importantes dans cette évolution. Ces deux modèles visent à résoudre un problème fondamental des pipelines de détection traditionnels en éliminant le besoin d'un post-traitement par suppression non maximale (NMS), mais ils abordent ce défi à partir de paradigmes architecturaux totalement différents.

Cette comparaison technique fournit une analyse approfondie de leurs architectures, méthodologies d'entraînement et scénarios de déploiement idéaux afin d'aider les développeurs et les chercheurs à choisir l'outil adapté à leur prochain projet d'IA visuelle.

YOLOv10: le pionnier NMS

Développé par des chercheurs de l'université Tsinghua, YOLOv10 fortement YOLOv10 sur l'efficacité architecturale et la suppression des goulots d'étranglement liés au post-traitement. En introduisant des attributions doubles cohérentes pour un entraînement NMS, il atteint des performances compétitives tout en réduisant considérablement la latence d'inférence.

Spécifications techniques

Architecture et méthodologies

La principale avancée YOLOv10 réside dans la conception holistique de son modèle, axée sur l'efficacité et la précision. Il optimise divers composants sous ces deux angles, réduisant considérablement la charge de calcul. La stratégie cohérente de double affectation permet au modèle de s'entraîner sans recourir au NMS, ce qui se traduit par un pipeline de déploiement rationalisé de bout en bout. Cela s'avère particulièrement avantageux lors de l'exportation de modèles vers des formats périphériques tels que ONNX ou TensorRT, où les opérations de post-traitement peuvent introduire une latence inattendue.

Points forts et faiblesses

Ce modèle offre un compromis exceptionnel entre vitesse et précision, en particulier dans ses versions plus petites (N et S). Sa latence minimale le rend idéal pour les environnements périphériques à haute vitesse. Cependant, si YOLOv10 en termes de vitesse de détection brute, il reste un modèle spécialisé uniquement dans la détection. Les équipes qui ont besoin d'une segmentation d'instance ou d'une estimation de pose devront se tourner vers des frameworks plus polyvalents.

En savoir plus sur YOLOv10

RTDETRv2 : Améliorer le Transformer de détection

S'appuyant sur le transformateur de détection en temps réel original, RTDETRv2 intègre un « ensemble d'outils gratuits » pour améliorer sa base de référence, démontrant ainsi que les transformateurs peuvent rivaliser avec les CNN dans des scénarios en temps réel.

Spécifications techniques

Architecture et méthodologies

RTDETRv2 utilise une architecture hybride, combinant un réseau neuronal convolutif (CNN) pour l'extraction des caractéristiques visuelles et un encodeur-décodeur Transformer pour une compréhension globale de la scène. Le mécanisme d'auto-attention du Transformer permet au modèle de visualiser l'image dans son ensemble, ce qui le rend très efficace pour traiter des scènes complexes, des objets qui se chevauchent et des foules denses.

Points forts et faiblesses

L'architecture du transformateur offre une excellente précision, en particulier sur les échelles de paramètres plus importantes, et génère nativement des détections finales sans NMS. Cependant, cela a un coût. Les modèles de transformateurs nécessitent généralement beaucoup plus CUDA pendant l'entraînement et peuvent être plus lents à converger que les architectures CNN pures. Bien que RTDETRv2 ait amélioré les vitesses d'inférence, il consomme généralement plus de mémoire que YOLO légères.

En savoir plus sur RTDETRv2

Comparaison des performances

L'évaluation des indicateurs de performance permet de mieux comprendre les points forts de chaque modèle. Le tableau suivant met en évidence leurs capacités sur l'COCO :

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Lors de l'analyse des données, YOLOv10 un avantage certain en termes d'efficacité des paramètres et de vitesse TensorRT pour des tailles comparables. RTDETRv2-x égale le puissant YOLOv10x en termes de précision, mais nécessite près de 20 millions de paramètres supplémentaires et un nombre de FLOP nettement plus élevé.

Cas d'utilisation et recommandations

Le choix entre YOLOv10 RT-DETR des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.

Quand choisir YOLOv10

YOLOv10 un choix judicieux pour :

  • Détection en temps réelNMS: applications bénéficiant d'une détection de bout en bout sans suppression non maximale, réduisant ainsi la complexité du déploiement.
  • Compromis équilibré entre vitesse et précision : projets nécessitant un équilibre solide entre la vitesse d'inférence et la précision de détection à différentes échelles de modèle.
  • Applications à latence constante : scénarios de déploiement où des temps d'inférence prévisibles sont essentiels, tels que la robotique ou les systèmes autonomes.

Quand choisir RT-DETR

RT-DETR recommandé pour :

  • Recherche sur la détection basée sur les transformateurs : projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
  • Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection d'objets volumineux : scènes comportant principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des transformateurs offre un avantage naturel.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
  • EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Ultralytics : écosystème et innovation

Si YOLOv10 RTDETRv2 offrent des capacités de détection robustes, le choix d'un modèle dépend souvent de l'écosystème logiciel environnant. La Ultralytics fournit une interface unifiée et transparente qui masque les complexités du deep learning.

La nouvelle norme : Ultralytics

Pour les développeurs à la recherche des meilleures performances absolues, Ultralytics représente l'aboutissement des récentes avancées architecturales. Lancé début 2026, YOLO26 hérite de la conception NMS de bout en bout mise au point par YOLOv10, éliminant complètement NMS pour un déploiement plus rapide et plus simple.

Pourquoi choisir YOLO26 ?

YOLO26 apporte des innovations en matière de formation LLM à la vision par ordinateur grâce à l'optimiseur MuSGD (un hybride de SGD Muon), ce qui se traduit par une formation plus stable et une convergence plus rapide. Il offre également CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour l'informatique de pointe.

De plus, YOLO26 introduit ProgLoss + STAL pour des améliorations notables dans la reconnaissance des petits objets, et contrairement au YOLOv10 spécialisé, il offre une extrême polyvalence. Il prend en charge nativement la détection d'objets, la segmentation, la pose et les boîtes englobantes orientées (OBB) avec des améliorations spécifiques à certaines tâches, telles que la perte de segmentation sémantique et l'estimation de la vraisemblance résiduelle (RLE) pour la pose. De plus, la suppression de la perte focale de distribution (DFL) garantit une exportation simplifiée et une meilleure compatibilité avec les appareils à faible consommation d'énergie.

En savoir plus sur YOLO26

Facilité d'utilisation et efficacité de la formation

Que vous testiez des modèles d'ancienne génération comme Ultralytics YOLO11 ou le modèle de pointe YOLO26, Python optimisée garantit une utilisation réduite de la mémoire pendant l'entraînement et des flux de travail extrêmement rapides.

from ultralytics import RTDETR, YOLO

# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

Cet écosystème bien entretenu fournit des outils permettant de régler facilement les hyperparamètres et s'intègre parfaitement à des solutions de suivi complètes et à des options de déploiement de modèles.

Conclusion

YOLOv10 RTDETRv2 représentent tous deux des étapes importantes dans la quête d'une détection d'objets NMS. RTDETRv2 prouve que les transformateurs peuvent atteindre une latence en temps réel avec une excellente compréhension du contexte global, malgré des besoins en mémoire plus importants. YOLOv10 une alternative CNN rapide et très efficace, adaptée aux tâches de détection avec des ressources limitées.

Cependant, pour bénéficier de performances équilibrées, d'une polyvalence multitâche et de l'écosystème le plus mature, les développeurs sont vivement encouragés à tirer parti Ultralytics . Ce dernier allie à merveille les innovations architecturales de ses prédécesseurs à des outils robustes et conviviaux qui facilitent le déploiement de l'IA visuelle.


Commentaires