Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 contre PP-YOLOE+#

Le domaine en évolution rapide de la vision par ordinateur a produit diverses approches architecturales pour résoudre des défis complexes de détection d'objets en temps réel. Parmi les avancées récentes les plus notables, on trouve RTDETRv2 et PP-YOLOE+, deux modèles puissants qui abordent la reconnaissance visuelle selon des philosophies de conception fondamentalement différentes. Bien que les deux modèles visent à offrir une détection de haute performance, leurs mécanismes sous-jacents, leurs paradigmes d'entraînement et leurs scénarios de déploiement idéaux varient considérablement.

Ce guide complet explore les nuances techniques des deux modèles, en comparant leurs architectures, leurs mesures de performance et leur prise en charge par l'écosystème pour aider les développeurs et les chercheurs à choisir la solution optimale pour leurs besoins de déploiement spécifiques.

Link to this sectionAperçus des modèles#

Avant d'analyser les données de performance, il est important de comprendre les origines et les objectifs architecturaux de chaque modèle. Tous deux sont issus d'équipes de recherche chez Baidu, mais ils représentent différentes branches de l'arbre généalogique de la détection d'objets.

Link to this sectionRTDETRv2#

RTDETRv2 représente un bond en avant significatif dans les architectures de vision basées sur les Transformers. En s'appuyant sur le Real-Time Detection Transformer original, il exploite une dorsale (backbone) de vision Transformer flexible associée à un encodeur hybride efficace. Sa caractéristique la plus déterminante est sa capacité de prédiction native de bout en bout, éliminant complètement le besoin de suppression des non-maximums (NMS) lors du post-traitement.

Auteur : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu Organisation : Baidu Date : 24-07-2024 Arxiv : 2407.17140 GitHub : Dépôt RT-DETR

En savoir plus sur RTDETRv2

Link to this sectionPP-YOLOE+#

PP-YOLOE+ est une itération avancée de la série YOLO, fortement optimisée pour les applications industrielles à haute performance. Il présente une architecture CNN évolutive avec une tête de détection sans ancrage (anchor-free). Conçu pour offrir des compromis vitesse/précision exceptionnels, il introduit des techniques puissantes comme l'ET-head et une fonction de perte focale généralisée pour améliorer la détection de petits objets.

Auteur : Auteurs de PaddlePaddle Organisation : Baidu Date : 02-04-2022 Arxiv : 2203.16250 GitHub : Dépôt PaddleDetection

En savoir plus sur PP-YOLOE+

Intégration dans l'écosystème

Bien que les deux modèles disposent de leurs propres dépôts de recherche, tu peux facilement expérimenter avec RTDETRv2 directement au sein du package Python Ultralytics, en bénéficiant d'une API unifiée et d'options d'exportation simplifiées.

Link to this sectionDifférences architecturales#

La différence fondamentale entre ces deux modèles réside dans leur façon de traiter le contexte visuel et de générer des prédictions.

PP-YOLOE+ utilise une dorsale CNN (Convolutional Neural Network) traditionnelle mais hautement optimisée. Il repose sur des champs récepteurs locaux pour extraire des caractéristiques, ce qui le rend incroyablement rapide et efficace pour un déploiement standard. Cependant, il nécessite toujours un post-traitement NMS standard pour filtrer les boîtes englobantes qui se chevauchent, ce qui peut introduire des goulots d'étranglement de latence dans les scènes denses.

À l'inverse, RTDETRv2 utilise un encodeur hybride et un décodeur Transformer. Cela permet au modèle de capturer le contexte global sur l'ensemble de l'image simultanément. Les mécanismes d'attention comprennent intrinsèquement les relations entre les objets, permettant au modèle de générer les boîtes englobantes finales directement sans NMS. Cette approche de bout en bout assure une latence d'inférence stable quel que soit le nombre d'objets détectés.

Link to this sectionMesures de performance et comparaison#

Lors de l'évaluation des mesures de performance YOLO, il est crucial d'équilibrer la précision (mAP) avec le coût computationnel (FLOPs) et la vitesse d'inférence. Le tableau ci-dessous met en évidence la performance des deux modèles selon différentes tailles.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627,9317,36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Alors que PP-YOLOE+x atteint une mAPval marginalement plus élevée de 54,7 % sur le jeu de données COCO, les modèles RTDETRv2 offrent généralement une précision compétitive avec l'avantage supplémentaire d'une latence constante grâce à leur conception sans NMS. Cependant, PP-YOLOE+ conserve un avantage strict en termes de nombre de paramètres et de FLOPs pour les modèles plus petits, ce qui le rend très efficace pour les déploiements en périphérie (edge).

Link to this sectionL'avantage Ultralytics : place à YOLO26#

Bien que RTDETRv2 et PP-YOLOE+ soient impressionnants en soi, l'état de l'art a continué d'évoluer. Pour les développeurs recherchant l'équilibre ultime entre vitesse, précision et support de l'écosystème, Ultralytics YOLO26 représente le nouveau standard industriel.

YOLO26 synthétise les meilleurs aspects des CNN et des Transformers. Il adopte la conception End-to-End NMS-Free inaugurée par les architectures modernes, éliminant efficacement les goulots d'étranglement du post-traitement. De plus, il introduit le révolutionnaire MuSGD Optimizer, une approche hybride inspirée par les innovations en matière d'entraînement LLM, qui assure un entraînement très stable et une convergence rapide.

Optimisé pour l'Edge

Contrairement aux modèles Transformer lourds qui exigent une mémoire CUDA substantielle, YOLO26 dispose de la DFL Removal (Distribution Focal Loss) et est spécifiquement optimisé pour l'informatique en périphérie (edge computing), offrant jusqu'à 43 % d'inférence CPU plus rapide par rapport aux générations précédentes.

De plus, YOLO26 ne se limite pas à la simple détection d'objets. Il est nativement polyvalent, prenant en charge la segmentation d'instance, l'estimation de pose et les boîtes englobantes orientées (OBB) dès la sortie de boîte, tandis que PP-YOLOE+ se concentre principalement sur la détection par boîtes englobantes.

En savoir plus sur YOLO26

Link to this sectionMéthodologies d'entraînement et Écosystème#

L'efficacité de l'entraînement et la facilité d'utilisation sont les points où l'écosystème Ultralytics brille vraiment par rapport aux dépôts de recherche autonomes. Alors que PP-YOLOE+ repose sur le framework PaddlePaddle et que RTDETRv2 nécessite souvent des configurations d'environnement complexes, l'intégration des modèles via Ultralytics offre une expérience fluide.

Avec l'API Ultralytics, tu bénéficies de besoins en mémoire réduits pendant l'entraînement, d'une gestion automatisée des jeux de données et d'un réglage simplifié des hyperparamètres. De plus, le déploiement de modèles vers des formats de production comme ONNX ou TensorRT peut être accompli avec une seule commande.

Link to this sectionExemple de code : Inférence simplifiée#

Voici une démonstration de la facilité avec laquelle tu peux utiliser RTDETRv2 ainsi que le modèle YOLO26 recommandé en utilisant le package Python Ultralytics :

from ultralytics import RTDETR, YOLO

# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()

# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")

# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")

Link to this sectionApplications réelles et cas d'utilisation#

Le choix entre ces architectures dépend souvent des exigences spécifiques du matériel et de l'application.

  • RTDETRv2 excelle dans les environnements côté serveur et la compréhension de scènes complexes. Son mécanisme d'attention globale le rend très efficace pour la gestion des foules et l'analyse d'images médicales denses, où les objets qui se chevauchent entraînent généralement l'échec des algorithmes NMS standard.
  • PP-YOLOE+ est très adapté à l'inspection industrielle à haute vitesse et aux environnements fortement investis dans l'écosystème PaddlePaddle. Son faible nombre de paramètres aux échelles plus petites le rend viable pour certaines applications de robotique.
  • Ultralytics YOLO26 est la solution universellement recommandée pour un déploiement commercial complet. Avec ses fonctions ProgLoss + STAL améliorées, il améliore considérablement la reconnaissance des petits objets, cruciale pour les opérations de drones aériens et la surveillance du trafic dans les villes intelligentes.

Link to this sectionCas d'utilisation et recommandations#

Le choix entre RT-DETR et PP-YOLOE+ dépend des exigences spécifiques de ton projet, des contraintes de déploiement et de tes préférences en matière d'écosystème.

Link to this sectionQuand choisir RT-DETR#

RT-DETR est un choix solide pour :

  • Recherche sur la détection basée sur les Transformers : Projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
  • Scénarios de haute précision avec latence flexible : Applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformateurs offre un avantage naturel.

Link to this sectionQuand choisir PP-YOLOE+#

PP-YOLOE+ est recommandé pour :

  • Intégration à l'écosystème PaddlePaddle : Organisations disposant d'infrastructures existantes basées sur le framework et les outils de PaddlePaddle de Baidu.
  • Déploiement Edge sur Paddle Lite : Déploiement sur du matériel doté de noyaux d'inférence hautement optimisés spécifiquement pour le moteur Paddle Lite ou le moteur d'inférence Paddle.
  • Détection côté serveur haute précision : Scénarios privilégiant une précision de détection maximale sur des serveurs GPU puissants où la dépendance au framework n'est pas un problème.

Link to this sectionQuand choisir Ultralytics (YOLO26)#

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
  • Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Link to this sectionConclusion#

RTDETRv2 et PP-YOLOE+ ont tous deux repoussé les limites de ce qui est possible en vision par ordinateur, prouvant la viabilité à la fois des architectures Transformer et des CNN hautement optimisés. Cependant, la complexité du déploiement de bases de code de recherche fragmentées peut entraver les délais de production.

Pour les ingénieurs en IA modernes, tirer parti de la plateforme Ultralytics offre un avantage inégalé. En migrant vers des modèles intégrés de manière transparente comme YOLO11 ou le très avancé YOLO26, les équipes peuvent atteindre les meilleurs ratios précision/vitesse possibles tout en réduisant considérablement les besoins en mémoire et la charge de travail de développement.

Commentaires