Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX vs RTDETRv2#

Choisir l'architecture optimale pour des applications de vision par ordinateur nécessite un équilibre minutieux entre précision, vitesse d'inférence et faisabilité du déploiement. Dans cette analyse technique complète, nous explorons les différences fondamentales entre YOLOX, une architecture CNN sans ancres très réussie, et RTDETRv2, un transformer de détection en temps réel à la pointe de la technologie.

Bien que les deux modèles aient apporté des contributions significatives au domaine de la détection d'objets, les développeurs créant des applications prêtes pour la production constatent souvent que des alternatives modernes comme Ultralytics YOLO26 offrent une meilleure efficacité d'entraînement, des exigences de mémoire plus faibles et un écosystème de déploiement plus robuste.

Link to this sectionYOLOX : Combler le fossé entre la recherche et l'industrie#

YOLOX est apparu comme une adaptation sans ancres très populaire de la série YOLO, introduisant une conception simplifiée qui a permis des améliorations de performances impressionnantes au moment de sa sortie.

  • Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
  • Organisation : Megvii
  • Date : 18 juillet 2021
  • Liens : Arxiv, GitHub, Docs

Link to this sectionInnovations architecturales#

YOLOX a fait passer la famille YOLO à un paradigme sans ancres, en intégrant une tête découplée et la stratégie avancée d'assignation de labels SimOTA. En éliminant les boîtes ancres, l'architecture a considérablement réduit le nombre de paramètres de conception et amélioré la généralisation sur divers jeux de données de référence. Ses versions légères, YOLOX-Nano et YOLOX-Tiny, sont devenues des choix populaires pour le déploiement d'applications d'IA de vision sur des appareils périphériques.

Considérations héritées

Bien que YOLOX ait apporté des avancées notables, sa dépendance à des pipelines d'augmentation lourds et à des routines de post-traitement plus anciennes (comme le NMS traditionnel) peut entraîner une latence plus élevée par rapport aux modèles nativement de bout en bout.

En savoir plus sur YOLOX

Link to this sectionRTDETRv2 : Faire progresser les transformers de vision en temps réel#

S'appuyant sur les bases de son prédécesseur, RTDETRv2 exploite la puissance des transformers de vision (ViT) pour atteindre une précision très compétitive sans sacrifier les vitesses d'inférence en temps réel.

  • Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
  • Organisation : Baidu
  • Date : 24-07-2024
  • Liens : Arxiv, GitHub

Link to this sectionInnovations architecturales#

RTDETRv2 réinvente fondamentalement le pipeline de détection en utilisant une architecture basée sur les transformers qui contourne nativement la suppression des non-maxima (NMS). Ceci est réalisé grâce à un encodeur hybride et une sélection de requêtes sensible aux IoU, ce qui améliore l'initialisation des requêtes d'objets. Le modèle gère efficacement les caractéristiques multi-échelles, lui permettant de capturer des détails complexes dans des environnements variés, comme la détection vidéo du trafic la nuit.

Cependant, les transformers sont intrinsèquement gourmands en ressources. L'entraînement de RTDETRv2 nécessite généralement beaucoup plus de mémoire GPU et de cycles de calcul que les alternatives basées sur les CNN, ce qui peut être un obstacle pour les équipes opérant avec des contraintes budgétaires strictes ou celles nécessitant un réglage de modèle fréquent.

En savoir plus sur RTDETR

Link to this sectionTableau de comparaison des performances#

Pour évaluer objectivement ces architectures, nous examinons leurs performances sur le jeu de données COCO. Le tableau ci-dessous illustre les compromis entre la précision (mAP), le nombre de paramètres et la complexité computationnelle.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Bien que RTDETRv2 atteigne une précision impressionnante, YOLOX conserve un avantage dans les profils de paramètres légers, en particulier avec ses variantes Nano et Tiny.

Link to this sectionCas d'utilisation et recommandations#

Le choix entre YOLOX et RT-DETR dépend des exigences spécifiques de ton projet, des contraintes de déploiement et de tes préférences en matière d'écosystème.

Link to this sectionQuand choisir YOLOX#

YOLOX est un choix solide pour :

  • Recherche sur la détection sans ancres : La recherche académique utilisant l'architecture propre et sans ancres de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou des fonctions de perte.
  • Appareils en périphérie ultra-légers : Le déploiement sur des microcontrôleurs ou du matériel mobile ancien où l'empreinte extrêmement réduite de la variante YOLOX-Nano (0.91 M de paramètres) est critique.
  • Études sur l'assignation de labels SimOTA : Les projets de recherche étudiant les stratégies d'assignation de labels basées sur le transport optimal et leur impact sur la convergence de l'entraînement.

Link to this sectionQuand choisir RT-DETR#

RT-DETR est recommandé pour :

  • Recherche sur la détection basée sur les Transformers : Projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
  • Scénarios de haute précision avec latence flexible : Applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformateurs offre un avantage naturel.

Link to this sectionQuand choisir Ultralytics (YOLO26)#

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
  • Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Link to this sectionL'avantage Ultralytics : YOLO26#

Bien que YOLOX et RTDETRv2 offrent des forces distinctes, le nouveau Ultralytics YOLO26 redéfinit l'état de l'art de l'IA de vision, en résolvant les compromis historiques entre vitesse, précision et facilité de déploiement.

Link to this sectionArchitecture de bout en bout sans NMS#

S'inspirant des modèles transformers tout en conservant l'efficacité des CNN, YOLO26 présente une conception nativement de bout en bout sans NMS. En éliminant la suppression des non-maxima comme étape de post-traitement, YOLO26 simplifie radicalement les pipelines de déploiement, assurant une latence d'inférence cohérente sur divers appareils périphériques sans le surcoût d'un réglage complexe des seuils.

Link to this sectionJusqu'à 43% d'inférence CPU plus rapide#

Contrairement aux architectures transformers comme RTDETRv2 qui reposent fortement sur des GPU haut de gamme, YOLO26 est spécifiquement optimisé pour les environnements d'Edge Computing. Grâce à la suppression de la perte focale de distribution (DFL), YOLO26 rationalise l'exportation du modèle et atteint jusqu'à 43% d'inférence CPU plus rapide, ce qui en fait le choix idéal pour une intégration dans du matériel comme le Raspberry Pi ou des appareils mobiles standard.

Link to this sectionEfficacité de l'entraînement avec MuSGD#

L'entraînement des modèles transformers conduit souvent à une consommation de mémoire CUDA excessive et à des temps d'entraînement prolongés. YOLO26 introduit le nouvel optimiseur MuSGD—un hybride de la descente de gradient stochastique et de l'optimiseur Muon inspiré des LLM. Cette innovation offre un entraînement exceptionnellement stable et une convergence plus rapide, réduisant considérablement les exigences matérielles par rapport à RTDETRv2.

Link to this sectionÉcosystème et polyvalence inégalés#

L'écosystème Ultralytics offre une expérience développeur intuitive et rationalisée. Avec une documentation étendue, un support communautaire actif et la plateforme Ultralytics basée sur le cloud, gérer le cycle de vie complet de l'IA n'a jamais été aussi simple. De plus, YOLO26 est très polyvalent. Alors que RTDETRv2 se concentre sur la détection d'objets, YOLO26 prend en charge de manière transparente la segmentation d'instance, l'estimation de pose, la classification d'images et les tâches Oriented Bounding Box (OBB) nativement. Amélioré par les nouvelles fonctions de perte ProgLoss + STAL, YOLO26 excelle également dans la reconnaissance de petits objets, une fonctionnalité critique pour l'imagerie aérienne et la détection de défauts industriels.

Autres modèles pris en charge

Le framework Ultralytics prend également en charge les générations précédentes YOLO11 et YOLOv8, permettant aux utilisateurs d'évaluer et de migrer facilement les pipelines hérités.

Link to this sectionIntégration transparente avec Ultralytics#

Le déploiement de modèles ne devrait pas nécessiter de lutter avec des bases de code complexes et fragmentées. L'API Python d'Ultralytics te permet de charger, d'entraîner et d'exporter des modèles de pointe en quelques lignes de code seulement.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

En tirant parti d'Ultralytics, tu évites les configurations d'environnement compliquées généralement associées aux dépôts de recherche, accélérant ainsi ta mise sur le marché.

Link to this sectionConclusion#

YOLOX et RTDETRv2 représentent des étapes importantes dans la progression de la détection d'objets en temps réel. YOLOX a prouvé la viabilité des CNN sans ancres hautement efficaces, tandis que RTDETRv2 a réussi à adapter les transformers aux contraintes de temps réel.

Cependant, pour les applications modernes allant de l'analyse intelligente de la vente au détail à la robotique embarquée, Ultralytics YOLO26 fournit la solution définitive. En fusionnant l'inférence sans NMS avec des vitesses CPU inégalées, des empreintes mémoire réduites et le support robuste de la plateforme Ultralytics, YOLO26 équipe les développeurs pour construire la prochaine génération de systèmes de vision par ordinateur fiables et performants.

Contributeurs

Commentaires