Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 vs YOLOv10#

L'évolution de la computer vision a été largement portée par la quête incessante d'un équilibre entre vitesse et précision. Traditionnellement, les pipelines de object detection en temps réel reposaient sur la suppression non-maximale (NMS) comme étape de post-traitement pour filtrer les boîtes englobantes qui se chevauchent. Cependant, le NMS introduit des goulots d'étranglement de latence et un réglage complexe des hyperparamètres. Récemment, deux approches architecturales distinctes ont émergé pour résoudre ce problème nativement : les modèles basés sur les Transformer comme RTDETRv2 et les modèles basés sur les CNN comme YOLOv10.

Ce guide fournit une comparaison technique complète de ces deux modèles, en analysant leurs architectures, leurs mesures de performance et leurs cas d'utilisation idéaux, tout en soulignant comment les dernières innovations de l'Ultralytics ecosystem offrent la solution ultime pour le déploiement moderne.

Link to this sectionRTDETRv2 : Transformers de détection en temps réel#

RTDETRv2 s'appuie sur l'architecture originale RT-DETR, visant à combiner la compréhension du contexte global des Vision Transformers avec les exigences de vitesse en temps réel traditionnellement dominées par les modèles YOLO.

Caractéristiques clés :

Link to this sectionArchitecture et méthodologies d'entraînement#

RTDETRv2 utilise une architecture transformer de bout en bout qui évite nativement le NMS. Il améliore son prédécesseur en introduisant une approche "Bag-of-Freebies", optimisant la stratégie d'entraînement et intégrant des capacités de détection multi-échelle. Le modèle utilise une backbone CNN pour extraire des feature maps (détails visuels comme les bords et les textures), qui sont ensuite traitées par une structure encodeur-décodeur transformer. Cela permet au modèle d'analyser tout le contexte de l'image simultanément, le rendant très efficace pour comprendre des scènes complexes où les objets sont densément regroupés ou superposés.

Link to this sectionPoints forts et faiblesses#

Points forts :

  • Contexte Global : Le attention mechanism permet au modèle d'exceller dans des environnements complexes et encombrés.
  • Sans NMS : Prédit directement les coordonnées des objets, simplifiant le pipeline de déploiement.
  • Haute Précision : Atteint un excellent mean average precision (mAP) sur le dataset COCO.

Points faibles :

  • Ressources Intensives : Les architectures Transformer nécessitent généralement beaucoup plus de mémoire CUDA lors de l'entraînement par rapport aux CNN, ce qui les rend coûteuses à affiner sur du matériel standard.
  • Variabilité de la Vitesse d'Inférence : Bien que rapide, les lourds calculs d'attention peuvent entraîner un FPS in computer vision plus faible sur les appareils Edge dépourvus d'accélérateurs IA dédiés.

En savoir plus sur RTDETRv2

Link to this sectionYOLOv10 : Détection d'objets en temps réel de bout en bout#

YOLOv10 représente un changement majeur dans la lignée YOLO object detection en abordant le goulot d'étranglement NMS de longue date directement au sein d'un framework CNN.

Caractéristiques clés :

Link to this sectionArchitecture et méthodologies d'entraînement#

L'innovation principale de YOLOv10 est ses assignations doubles cohérentes pour un entraînement sans NMS. Il utilise deux têtes de détection pendant l'entraînement : l'une avec une assignation un-à-plusieurs (comme les YOLO traditionnels) pour fournir des signaux de supervision riches, et une autre avec une assignation un-à-un pour éliminer le besoin de NMS. Lors de l'inférence, seule la tête un-à-un est utilisée, ce qui aboutit à un processus de bout en bout. De plus, les auteurs ont appliqué une stratégie de conception de modèle holistique axée sur l'efficacité et la précision, optimisant globalement divers composants pour réduire la redondance computationnelle.

Link to this sectionPoints forts et faiblesses#

Points forts :

  • Vitesse Extrême : En supprimant le NMS et en optimisant l'architecture, YOLOv10 atteint une inference latency incroyablement faible.
  • Efficacité : Nécessite moins de paramètres et de FLOPs pour atteindre une précision comparable à d'autres modèles, ce qui le rend très adapté aux environnements contraints.
  • Déploiements sans NMS : Rationalise l'intégration dans les applications Edge comme la smart surveillance.

Points faibles :

  • Concept de Première Génération : En tant que premier YOLO à mettre en œuvre cette architecture spécifique sans NMS, il a jeté les bases mais a laissé place à la polyvalence multi-tâches et à l'optimisation observées dans les modèles ultérieurs comme YOLO11 et YOLO26.

En savoir plus sur YOLOv10

Link to this sectionComparaison des performances#

Lors de l'évaluation des modèles pour la production, il est crucial d'équilibrer la précision et le coût computationnel. Le tableau ci-dessous met en évidence les compromis de performance entre différentes tailles de RTDETRv2 et YOLOv10.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256,9160.4

Alors que RTDETRv2 offre une précision robuste, YOLOv10 démontre un avantage remarquable en termes de latence et d'efficacité des paramètres, particulièrement dans ses variantes plus petites (Nano et Small), ce qui le rend très attractif pour les applications d'edge computing and AIoT.

Choisir la Bonne Échelle

Si tu déploies sur des GPU de classe serveur où la batch size et la VRAM sont moins contraintes, les modèles plus grands (comme -x ou -l) maximisent la précision. Pour les appareils Edge comme Raspberry Pi ou les téléphones mobiles, privilégie les variantes nano (-n) ou small (-s) pour maintenir des fréquences d'images en temps réel.

Link to this sectionCas d'utilisation et recommandations#

Choisir entre RT-DETR et YOLOv10 dépend de tes besoins spécifiques en matière de projet, des contraintes de déploiement et des préférences concernant l'écosystème.

Link to this sectionQuand choisir RT-DETR#

RT-DETR est un choix solide pour :

  • Recherche sur la détection basée sur les Transformers : Projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
  • Scénarios de haute précision avec latence flexible : Applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformateurs offre un avantage naturel.

Link to this sectionQuand choisir YOLOv10#

YOLOv10 est recommandé pour :

  • Détection temps réel sans NMS : Applications bénéficiant d'une détection de bout en bout sans NMS (Non-Maximum Suppression), ce qui réduit la complexité du déploiement.
  • Compromis vitesse-précision équilibré : Projets nécessitant un bon équilibre entre la vitesse d'inférence et la précision de détection pour différentes tailles de modèles.
  • Applications à latence constante : Scénarios de déploiement où des temps d'inférence prévisibles sont essentiels, comme dans la robotique ou les systèmes autonomes.

Link to this sectionQuand choisir Ultralytics (YOLO26)#

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
  • Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Link to this sectionL'avantage Ultralytics : Présentation de YOLO26#

Bien que RTDETRv2 et YOLOv10 offrent des avancées académiques convaincantes, leur déploiement dans des scénarios réels nécessite un écosystème logiciel robuste et bien entretenu. L'Ultralytics Platform offre une expérience développeur inégalée, combinant facilité d'utilisation, documentation étendue et outils puissants pour l'data annotation et le déploiement.

Pour les développeurs recherchant l'état de l'art absolu en 2026, Ultralytics YOLO26 est la recommandation ultime. Il synthétise les meilleures idées des deux architectures tout en introduisant des améliorations révolutionnaires :

  • Conception de bout en bout sans NMS : En s'appuyant sur le concept inauguré par YOLOv10, YOLO26 élimine nativement le post-traitement NMS, ce qui conduit à une logique de déploiement plus rapide et plus simple ainsi qu'à une variance de latence nulle.
  • Suppression du DFL : En supprimant la Distribution Focal Loss, YOLO26 simplifie l'exportation du modèle et améliore considérablement la compatibilité avec les appareils Edge et basse consommation.
  • Optimiseur MuSGD : Un hybride de SGD et Muon (inspiré par les innovations en matière d'entraînement LLM), cet optimiseur innovant offre un entraînement plus stable et une convergence nettement plus rapide que les méthodes traditionnelles.
  • Inférence CPU jusqu'à 43% plus rapide : Soigneusement optimisé pour les environnements sans GPU dédiés, démocratisant l'IA visuelle haute performance.
  • ProgLoss + STAL : Ces fonctions de perte avancées permettent des améliorations notables dans la reconnaissance des petits objets, ce qui est crucial pour les applications using drones et les capteurs IoT.
  • Polyvalence inégalée : Contrairement aux modèles limités aux boîtes englobantes, YOLO26 prend en charge une gamme complète de tâches, y compris l'instance segmentation, la pose estimation, l'image classification et la OBB detection, avec des améliorations spécifiques aux tâches comme l'Estimation de Log-Vraisemblance Résiduelle (RLE) pour la Pose.

En savoir plus sur YOLO26

Link to this sectionImplémentation Transparente avec Python#

L'entraînement et le déploiement de ces modèles en utilisant l'Ultralytics Python API sont conçus pour être sans friction. Les besoins en mémoire sont nettement inférieurs lors de l'entraînement par rapport aux architectures lourdes en transformers, te permettant d'entraîner des modèles puissants sur du matériel standard.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

Whether you are implementing security alarm systems or conducting medical image analysis, choosing a model backed by the active Ultralytics community ensures you have the tools, hyperparameter tuning guides, and continuous updates needed to succeed. While YOLOv10 and RTDETRv2 paved the way for NMS-free architectures, YOLO26 perfects the formula, offering the best balance of performance, versatility, and production readiness.

Commentaires