Link to this sectionRTDETRv2 vs DAMO-YOLO#
Le paysage de la vision par ordinateur évolue constamment, avec des chercheurs et des ingénieurs s'efforçant de construire des modèles qui équilibrent parfaitement vitesse, précision et efficacité. Deux architectures marquantes qui ont fait sensation dans ce domaine sont RTDETRv2, développée par Baidu, et DAMO-YOLO, conçue par Alibaba Group. Les deux modèles repoussent les limites de la détection d'objets en temps réel, mais adoptent des philosophies architecturales fondamentalement différentes pour obtenir leurs résultats impressionnants.
Dans cette comparaison technique, nous plongerons au cœur de leurs architectures, méthodologies d'entraînement et capacités de déploiement en conditions réelles. Nous explorerons également comment ces modèles se situent par rapport à l'écosystème plus large, en particulier la plateforme Ultralytics hautement optimisée et l'architecture de pointe YOLO26.
Link to this sectionInnovations architecturales#
Comprendre les mécanismes fondamentaux de ces modèles est crucial pour les ingénieurs en machine learning chargés de choisir le bon outil pour les environnements de production.
Link to this sectionRTDETRv2 : L'approche Transformer#
S'appuyant sur le succès du RT-DETR original, RTDETRv2 utilise un encodeur hybride et un décodeur transformer. Cette conception permet au modèle de traiter le contexte global très efficacement, le rendant exceptionnellement performant pour distinguer les objets qui se chevauchent dans des scènes denses. L'avantage le plus significatif de cette architecture est sa conception native sans NMS (Non-Maximum Suppression). En éliminant l'étape de post-traitement NMS, RTDETRv2 rationalise le pipeline d'inférence et assure une latence plus stable sur différentes configurations matérielles.
Link to this sectionDAMO-YOLO : Faire progresser l'efficacité des CNN#
DAMO-YOLO, quant à lui, reste ancré dans la lignée YOLO basée sur les CNN, qui a fait ses preuves, mais introduit plusieurs améliorations révolutionnaires. Il exploite la recherche d'architecture neuronale (NAS) pour optimiser son backbone, garantissant une efficacité maximale d'extraction de caractéristiques. De plus, il intègre un réseau RepGFPN (Reparameterized Generalized Feature Pyramid Network) efficace et une conception ZeroHead, aux côtés des techniques AlignedOTA et d'amélioration par distillation. Ces innovations permettent à DAMO-YOLO d'atteindre des vitesses d'inférence rapides tout en conservant un score mAPval très compétitif.
Alors que RTDETRv2 se concentre sur l'exploitation des mécanismes d'attention pour la compréhension globale des caractéristiques sans NMS, DAMO-YOLO maximise l'efficacité traditionnelle des CNN via le NAS et une distillation avancée, nécessitant un post-traitement standard mais offrant des avantages de vitesse distincts sur certains matériels.
Link to this sectionComparaison des performances et des mesures#
Lors de l'évaluation des modèles pour le déploiement, les métriques de performance telles que la précision moyenne (mAP), la vitesse d'inférence et le nombre de paramètres sont primordiales. Vous trouverez ci-dessous une comparaison détaillée des deux familles de modèles.
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97,3 |
Link to this sectionAnalyse des résultats#
Comme le montre le tableau, le RTDETRv2-x atteint la plus grande précision avec un mAPval de 54,3, démontrant la puissance de l'architecture transformer sur des validations complexes comme le dataset COCO. Cependant, cela se fait au prix d'un nombre de paramètres (76M) et de FLOPs nettement plus élevés.
À l'inverse, DAMO-YOLOt (Tiny) est exceptionnellement léger, nécessitant seulement 8,5M de paramètres, ce qui en fait une option incroyablement rapide pour les environnements où la mémoire CUDA est sévèrement limitée. DAMO-YOLO offre généralement un compromis favorable entre vitesse et précision pour les appareils edge existants.
Link to this sectionÉcosystème, utilisabilité et l'avantage Ultralytics#
Alors que des dépôts indépendants comme les GitHub officiels de RT-DETR et GitHub de DAMO-YOLO offrent le code source pour entraîner ces modèles, leur intégration dans des pipelines de production nécessite souvent beaucoup de code répétitif (boilerplate) et une optimisation manuelle.
C'est là que l'écosystème Ultralytics simplifie radicalement l'expérience développeur. Ultralytics intègre des modèles comme RTDETRv2 directement dans son API unifiée, permettant aux utilisateurs d'entraîner, de valider et d'exporter des modèles avec une seule ligne de code. De plus, les modèles Ultralytics sont connus pour leurs besoins en mémoire minimaux pendant l'entraînement par rapport aux dépôts autonomes basés sur des transformers lourds.
Link to this sectionExemple de code : Intégration transparente#
Voici à quel point il est facile d'exploiter la bibliothèque Python Ultralytics pour effectuer une inférence. L'API reste cohérente, que tu utilises un modèle transformer ou un CNN de pointe.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()En utilisant l'API Ultralytics, tu peux exporter tes modèles entraînés en toute transparence vers des formats comme TensorRT, ONNX ou CoreML avec une simple commande model.export(format="engine"), ce qui réduit considérablement les frictions de déploiement.
Link to this sectionCas d'utilisation idéaux#
Le choix entre ces architectures dépend entièrement des exigences spécifiques de ton projet :
- RTDETRv2 excelle dans le traitement côté serveur où la VRAM est abondante. Sa compréhension du contexte global est parfaite pour l'imagerie médicale et l'analyse de foules denses où les occlusions sont fréquentes.
- DAMO-YOLO est très adapté aux applications IoT embarquées et aux lignes d'inspection industrielles rapides où un faible nombre de paramètres et un FPS élevé sont des exigences strictes.
Link to this sectionL'avenir : Ultralytics YOLO26#
Bien que RTDETRv2 et DAMO-YOLO aient tous deux leurs mérites, le domaine de la vision par ordinateur avance rapidement. Pour les nouveaux projets, le tout dernier Ultralytics YOLO26 représente la synthèse ultime de la vitesse, de la précision et de l'expérience développeur.
YOLO26 adopte une conception de bout en bout sans NMS, capturant le principal avantage des transformers sans la lourde charge de calcul. Il intègre l'innovant optimiseur MuSGD—inspiré de l'entraînement des grands modèles de langage—pour une convergence stable et rapide. De plus, grâce à la suppression de DFL (Distribution Focal Loss supprimée pour une exportation simplifiée et une meilleure compatibilité avec les appareils edge/basse consommation), YOLO26 atteint une inférence CPU jusqu'à 43 % plus rapide, ce qui en fait le champion incontesté de l'edge computing. Enfin, ProgLoss + STAL fournit des fonctions de perte améliorées avec des gains notables dans la reconnaissance d'objets de petite taille, critique pour l'IoT, la robotique et l'imagerie aérienne.
Contrairement aux modèles limités strictement aux boîtes englobantes, la famille YOLO26 offre une polyvalence inégalée, prenant en charge des tâches allant de la segmentation d'instance et l'estimation de pose aux boîtes englobantes orientées (OBB), le tout géré de manière fluide via la plateforme Ultralytics intuitive.
Explorer YOLO26 sur la Plateforme
Link to this sectionDétails du modèle et références#
Link to this sectionRTDETRv2#
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation : Baidu
- Date : 24-07-2024
- Arxiv : 2407.17140
- GitHub : Dépôt RT-DETR
Link to this sectionDAMO-YOLO#
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Alibaba Group
- Date : 2022-11-23
- Arxiv : 2211.15444v2
- GitHub : Dépôt DAMO-YOLO
Pour les utilisateurs souhaitant explorer d'autres comparaisons, consulte nos guides sur RTDETRv2 vs. YOLO11 ou DAMO-YOLO vs. YOLOv8 pour voir comment ces modèles se comportent face aux générations précédentes de la famille Ultralytics.