Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs RTDETRv2#

Le paysage en évolution rapide de la vision par ordinateur a produit une gamme impressionnante d'architectures conçues pour équilibrer vitesse, précision et efficacité computationnelle. Deux modèles remarquables qui ont apporté des approches uniques pour résoudre ces défis sont DAMO-YOLO et RTDETRv2. Bien que les deux modèles visent à fournir des solutions de pointe pour l'inférence en temps réel, ils diffèrent fondamentalement dans leurs philosophies architecturales.

Ce guide complet plonge en profondeur dans les spécifications techniques, les innovations architecturales et les cas d'utilisation pratiques des deux modèles, tout en explorant comment des solutions modernes comme l'Ultralytics Platform et le YOLO26 de pointe ont redéfini les standards de l'industrie en matière de déploiement et de facilité d'utilisation.

Link to this sectionAperçus des modèles#

Link to this sectionComprendre DAMO-YOLO#

Développé par des chercheurs chez Alibaba Group, DAMO-YOLO introduit une méthode de détection d'objets rapide et précise reposant fortement sur le Neural Architecture Search (NAS). Il remplace les backbones artisanaux traditionnels par des structures générées par NAS conçues pour une faible latence. De plus, il intègre un RepGFPN (Reparameterized Generalized Feature Pyramid Network) efficace et une conception ZeroHead pour rationaliser l'agrégation des caractéristiques et les prédictions de bounding box.

Détails clés du modèle :

En savoir plus sur DAMO-YOLO

Link to this sectionComprendre RTDETRv2#

Le RTDETRv2 de Baidu représente un bond en avant significatif pour les Real-Time Detection Transformers. Contrairement aux réseaux de neurones convolutifs (CNN) traditionnels qui reposent sur des anchor boxes et la Non-Maximum Suppression (NMS), RTDETRv2 utilise des mécanismes d'auto-attention pour visualiser l'image entière de manière contextuelle. Il produit directement des bounding boxes, contournant entièrement l'étape de post-traitement NMS. Ce modèle introduit une stratégie d'entraînement « bag of freebies » pour améliorer la précision de base sans augmenter la latence d'inférence.

Détails clés du modèle :

En savoir plus sur RTDETRv2

Adopter les Transformers en Vision AI

Bien que les transformers nécessitent des ressources computationnelles plus élevées, leur capacité à traiter le contexte global les rend incroyablement efficaces pour la compréhension de scènes complexes, ce qui est une force majeure de RTDETRv2.

Link to this sectionComparaison des performances#

Lors de l'évaluation de ces modèles pour un déploiement dans le monde réel, des paramètres tels que la Mean Average Precision (mAP), la vitesse d'inférence et l'empreinte mémoire sont cruciaux. Les modèles basés sur des transformers comme RTDETRv2 exigent généralement une mémoire CUDA plus élevée pendant l'entraînement et l'inférence par rapport aux CNN légers comme DAMO-YOLO.

Voici une comparaison détaillée de leurs mesures de performance.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197,3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionCas d'utilisation idéaux#

Où DAMO-YOLO excelle : Grâce à son backbone optimisé par NAS et son nombre de paramètres exceptionnellement bas dans ses variantes plus petites (comme DAMO-YOLOt), il est très adapté au déploiement sur du matériel hautement contraint. Si tu construis des solutions pour des appareils embarqués utilisant des runtimes comme ONNX ou des moteurs TensorRT spécialisés pour l'Edge Computing, DAMO-YOLO fournit un framework très réactif.

Où RTDETRv2 excelle : RTDETRv2 brille dans les scénarios où des GPU de qualité serveur sont disponibles et où le contexte global de l'image est primordial. Son architecture transformer lui permet de résoudre naturellement les bounding boxes qui se chevauchent sans NMS, ce qui en fait un choix robuste pour le crowd management dense ou le object tracking complexe où les relations spatiales entre des objets distants sont critiques.

Link to this sectionL'avantage Ultralytics : Présentation de YOLO26#

Bien que DAMO-YOLO et RTDETRv2 représentent des accomplissements académiques significatifs, la transition de ces modèles vers des applications évolutives et prêtes pour la production peut être difficile. Les développeurs font souvent face à des bases de code fragmentées, un manque de support pour l'apprentissage multi-tâches et des pipelines de déploiement compliqués.

C'est là que l'Ultralytics ecosystem se distingue vraiment. En donnant la priorité à la facilité d'utilisation, à une API Python bien entretenue et à une polyvalence inégalée, Ultralytics s'assure que les développeurs passent moins de temps à déboguer et plus de temps à créer.

Le modèle Ultralytics YOLO26 récemment publié fait passer ces avantages au niveau supérieur, offrant des percées qui surpassent à la fois DAMO-YOLO et RTDETRv2 :

  • Conception de bout en bout sans NMS : Pionnier à l'origine dans YOLOv10, YOLO26 est nativement de bout en bout. Cela élimine complètement le post-traitement NMS, rendant le déploiement plus rapide et radicalement plus simple que les CNN traditionnels, tout en égalant les avantages de sortie directe de RTDETRv2.
  • Inférence CPU jusqu'à 43 % plus rapide : Fortement optimisé pour les edge AI devices sans GPU discrets, ce qui en fait un choix bien supérieur pour les applications IoT par rapport aux transformers gourmands en mémoire.
  • Optimiseur MuSGD : Inspiré par le Kimi K2 de Moonshot AI, cet hybride de SGD et Muon apporte les innovations d'entraînement des Large Language Model (LLM) à la vision par ordinateur, résultant en un entraînement remarquablement stable et une convergence plus rapide.
  • ProgLoss + STAL : Ces fonctions de perte avancées offrent des améliorations notables dans la reconnaissance des petits objets, un domaine où les modèles ont traditionnellement du mal. C'est crucial pour l'aerial imagery et les applications par drone.
  • Suppression de DFL : La Distribution Focal Loss a été supprimée pour assurer des formats d'exportation simplifiés et une meilleure compatibilité avec les appareils Edge basse consommation.
  • Polyvalence inégalée : Contrairement aux modèles concurrents strictement limités à la détection, YOLO26 inclut des améliorations spécifiques aux tâches sur toute la ligne, telles qu'une perte d'angle spécialisée pour les Oriented Bounding Boxes (OBB), une perte de segmentation sémantique pour une précision parfaite au pixel près, et l'estimation de la log-vraisemblance résiduelle (RLE) pour le Pose estimation.

En savoir plus sur YOLO26

L'efficacité de la mémoire compte

L'entraînement de modèles basés sur des transformers comme RTDETRv2 nécessite d'immenses allocations de mémoire CUDA, nécessitant souvent des configurations multi-GPU coûteuses. Les modèles Ultralytics YOLO maintiennent des besoins en mémoire remarquablement plus faibles lors de l'entraînement et de l'inférence, démocratisant le développement d'IA pour les chercheurs et les amateurs.

Link to this sectionExemple de code : L'API unifiée Ultralytics#

L'un des plus grands avantages de l'écosystème Ultralytics est son API unifiée. Tu peux charger, entraîner et valider de manière transparente une variété de modèles — y compris une implémentation PyTorch de RTDETR et des modèles YOLO de pointe — sans changer ton workflow.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
results_yolo[0].show()

Cette simplicité s'étend à l'custom dataset training et à l'exportation. En utilisant le Ultralytics Python package, les développeurs peuvent facilement pousser leurs poids entraînés vers des plateformes de déploiement comme CoreML ou OpenVINO avec une seule commande.

Link to this sectionConclusion et exploration ultérieure#

DAMO-YOLO et RTDETRv2 ont indéniablement repoussé les limites de ce qui est possible en détection d'objets en temps réel. DAMO-YOLO fournit des structures de réseau auto-recherchées et hautement optimisées pour une efficacité brute, tandis que RTDETRv2 prouve que les transformers peuvent rivaliser dans l'espace temps réel en éliminant les goulots d'étranglement traditionnels comme NMS.

Cependant, pour les développeurs recherchant l'équilibre ultime entre performance, documentation complète et préparation à la production, les Ultralytics YOLO models restent la référence absolue. Avec l'introduction de YOLO26, les utilisateurs accèdent à une détection de bout en bout de type transformer, à une efficacité d'entraînement inspirée des LLM et à des vitesses CPU inégalées — le tout enveloppé dans un écosystème intuitif et robuste.

Si tu évalues des modèles pour ton prochain projet, tu trouveras peut-être aussi de la valeur à lire nos comparaisons de EfficientDet vs RTDETR, à explorer la génération précédente YOLO11, ou à examiner des bases de référence académiques comme YOLOX. Commence à construire dès aujourd'hui en explorant le guide de démarrage rapide Ultralytics.

Commentaires