YOLO11 RTDETRv2 : comparaison de l'évolution des CNN et des transformateurs de vision

Le domaine de la vision par ordinateur s'est rapidement développé, offrant aux développeurs une multitude de choix pour créer des applications robustes basées sur la vision. Dans le domaine de la détection d'objets en temps réel, le débat entre les réseaux neuronaux convolutifs (CNN) et les transformateurs de vision (ViT) est plus vif que jamais. Cette comparaison technique examine en détail deux architectures de pointe : YOLO11, qui représente le summum des frameworks CNN hautement optimisés, et RTDETRv2, une puissante itération de la famille des transformateurs de détection.

En analysant leurs architectures, leurs métriques de performance et leurs scénarios de déploiement idéaux, ce guide vise à aider les ingénieurs en machine learning à prendre des décisions éclairées. Bien que les deux modèles repoussent les limites de la précision, les modèles Ultralytics YOLO offrent généralement un équilibre supérieur entre vitesse, support de l'écosystème et facilité d'utilisation pour la production en conditions réelles.

YOLO11: la référence en matière de polyvalence dans le monde réel

Présenté par Ultralytics, YOLO11 sur des années de recherche fondamentale pour offrir un modèle rapide, précis et incroyablement polyvalent. Il est conçu pour gérer de manière transparente la détection d'objets, la segmentation d'instances, la classification d'images, l'estimation de poses et l'extraction de cadres de sélection orientés (OBB) de manière native.

Auteurs : Glenn Jocher et Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :Dépôt Ultralytics
Docs :Documentation YOLO11

En savoir plus sur YOLO11

Architecture et points forts

YOLO11 une structure CNN raffinée et YOLO11 pyramides de caractéristiques spatiales avancées, ce qui le rend exceptionnellement économe en ressources. Il est particulièrement performant dans les environnements soumis à des contraintes matérielles strictes, offrant une empreinte mémoire minimale pendant l'entraînement et l'inférence. La Ultralytics fournit une prise en charge native de YOLO11, permettant une surveillance rationalisée des modèles, l'annotation des données et l'entraînement dans le cloud sans avoir à assembler des outils MLops disparates.

Pour les développeurs qui ciblent l'informatique de pointe, YOLO11 une latence ultra-faible. Sa légèreté lui permet de fonctionner efficacement sur des appareils allant des Raspberry Pi aux téléphones mobiles grand public, ce qui en fait une référence pour le commerce de détail intelligent, le contrôle qualité dans le secteur manufacturier et la gestion automatisée du trafic.

RTDETRv2 : Transformateurs en temps réel par Baidu

RTDETRv2 (Real-Time Detection Transformer version 2) représente les efforts déployés par Baidu pour rendre les architectures basées sur les transformateurs viables pour les tâches en temps réel. Il s'appuie sur le RT-DETR original RT-DETR intégrant une approche « bag-of-freebies » afin d'améliorer la précision de base sans augmenter la latence d'inférence.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 2024-07-24
Arxiv :2407.17140
GitHub :Dépôt RT-DETRv2
Documentation :README de RTDETRv2

En savoir plus sur RTDETR

Architecture et points forts

Contrairement aux CNN traditionnels, RTDETRv2 utilise une architecture encodeur-décodeur avec des mécanismes d'auto-attention, ce qui lui permet de capturer le contexte global d'une image. Cela est particulièrement avantageux dans les scènes encombrées où les occlusions sont fréquentes. RTDETRv2 élimine le besoin de suppression non maximale (NMS) dans le post-traitement, en s'appuyant plutôt sur l'appariement hongrois pendant l'entraînement pour un appariement bipartite un-à-un.

Cependant, les modèles de transformateurs sont connus pour être très gourmands en CUDA VRAM et CUDA . L'entraînement de RTDETRv2 à partir de zéro ou le réglage fin sur des ensembles de données personnalisés nécessite souvent GPU haut de gamme importants, ce qui peut constituer un obstacle pour les petites équipes agiles par rapport à l'empreinte d'entraînement légère Ultralytics .

Analyse des performances et des indicateurs

Lorsque nous évaluons ces modèles sur COCO standard COCO , nous observons des compromis évidents entre les paramètres, les FLOP et la précision brute.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Analyse des résultats

Comme le montre le tableau, YOLO11 offre un rapport performance/taille incroyable. Le YOLO11x atteint un mAP^val plus élevé (54,7) par rapport à RTDETRv2-x (54,3), tout en utilisant significativement moins de paramètres (56,9M contre 76M) et beaucoup moins de FLOPs computationnels (194,9B contre 259B).

De plus, les vitesses d'inférence YOLO11 sur T4 TensorRT est exceptionnellement rapide. YOLO11s effectue l'inférence en seulement 2,5 ms, tandis que le plus petit RTDETRv2-s prend 5,03 ms. Cela fait de YOLO11 choix incontournable pour les flux d'analyse vidéo en temps réel à haute vitesse, où le temps de traitement des images est le principal goulot d'étranglement.

Le coût des transformateurs

Si RTDETRv2 atteint une excellente précision grâce à ses couches d'attention, ces mécanismes évoluent de manière quadratique avec la résolution de l'image, ce qui entraîne une consommation plus élevée de VRAM pendant l'entraînement et l'inférence. YOLO11 ce problème grâce à ses blocs convolutifs hyper-efficaces.

Écosystème d'entraînement et convivialité

L'avantage principal de l'adoption d'un Ultralytics réside dans l'écosystème qui l'entoure. La formation RTDETRv2 implique souvent de naviguer dans des référentiels complexes de niveau recherche, d'ajuster des poids de perte de correspondance bipartite complexes et de gérer une charge mémoire importante.

Inversement, Ultralytics se concentre fortement sur l'expérience développeur. L'API Python unifiée abstrait le code passe-partout, s'intégrant de manière transparente avec des outils comme Weights & Biases pour le suivi d'expériences, et gérant automatiquement les augmentations de données.

Voici à quel point il est simple de former et d'exporter un modèle à l'aide du ultralytics package :

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

Une fois formé, exporter un YOLO11 vers des formats tels que ONNX, OpenVINOou CoreML ne nécessite qu'une seule commande, garantissant ainsi que votre pipeline de vision peut s'adapter sans effort à divers backends matériels.

Capacités multitâches

N'oubliez pas que, tandis que RTDETRv2 se concentre exclusivement sur la détection de boîtes englobantes, YOLO11 prend en charge nativement l'estimation de pose et la segmentation d'instances, ce qui vous permet de regrouper plusieurs tâches de vision dans une seule famille de modèles.

Cas d'utilisation et recommandations

Le choix entre YOLO11 et RT-DETR dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.

Quand choisir YOLO11

YOLO11 un excellent choix pour :

Déploiement Edge en production : Applications commerciales sur des appareils comme le Raspberry Pi ou le NVIDIA Jetson, où la fiabilité et une maintenance active sont primordiales.
Applications de vision multi-tâches : Projets nécessitant la détection, la segmentation, l'estimation de pose et les OBB au sein d'un cadre unifié unique.
Prototypage et Déploiement Rapides : Les équipes qui ont besoin de passer rapidement de la collecte de données à la production en utilisant l'API Python rationalisée d'Ultralytics.

Quand choisir RT-DETR

RT-DETR recommandé pour :

Recherche sur la détection basée sur les transformeurs : Projets explorant les mécanismes d'attention et les architectures de transformeurs pour la détection d'objets de bout en bout sans NMS.
Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformeurs offre un avantage naturel.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Perspectives : La puissance de YOLO26

Si YOLO11 un excellent choix en termes de production, les équipes à la recherche d'une technologie de pointe devraient sérieusement envisager YOLO26. Lancé en janvier 2026, YOLO26 comble le fossé architectural en intégrant directement dans son cœur une conception de bout en bout NMS (introduite pour la première fois dans YOLOv10), éliminant ainsi totalement la latence post-traitement et la complexité de la logique de déploiement.

YOLO26 introduit également plusieurs fonctionnalités révolutionnaires :

Optimiseur MuSGD : Inspiré par les techniques d'entraînement des LLM de Kimi K2 de Moonshot AI, cet hybride de SGD et Muon assure un entraînement incroyablement stable et une convergence considérablement plus rapide.
Suppression du DFL : La Distribution Focal Loss a été supprimée pour un processus d'exportation plus propre et simplifié, améliorant considérablement la compatibilité avec les appareils périphériques à faible consommation.
ProgLoss + STAL: Ces fonctions de perte avancées apportent des améliorations notables à la reconnaissance des petits objets, une exigence critique pour la surveillance par drone, la surveillance agricole et les capteurs IoT de périphérie.
Jusqu'à 43 % plus rapide pour l'inférence CPU : Pour les déploiements dépourvus de GPU dédiés, YOLO26 est spécifiquement optimisé pour l'exécution sur CPU, surpassant largement les générations précédentes.

En savoir plus sur YOLO26

Pour ceux qui souhaitent explorer un éventail plus large d'architectures, la Ultralytics fournit également des informations sur YOLOv8, le très répandu YOLOv5, et des modèles spécialisés tels que YOLO pour les applications de détection à vocabulaire ouvert. En fin de compte, que vous privilégiez la stabilité éprouvée de YOLO11 les innovations révolutionnaires de YOLO26, Ultralytics offre des outils inégalés pour donner vie à vos solutions de vision par ordinateur.

YOLO11 RTDETRv2 : comparaison de l'évolution des CNN et des transformateurs de vision

YOLO11: la référence en matière de polyvalence dans le monde réel

Architecture et points forts

RTDETRv2 : Transformateurs en temps réel par Baidu

Architecture et points forts

Analyse des performances et des indicateurs

Analyse des résultats

Écosystème d'entraînement et convivialité

Cas d'utilisation et recommandations

Quand choisir YOLO11

Quand choisir RT-DETR

Quand choisir Ultralytics YOLO26)

Perspectives : La puissance de YOLO26

Commentaires