RTDETRv2 vs YOLO11: une analyse approfondie des architectures de détection d'objets en temps réel

Le paysage de la vision par ordinateur est en constante évolution, avec de nouvelles architectures repoussant les limites de ce qui est possible sur les appareils périphériques et les serveurs cloud. Deux des concurrents les plus importants dans le domaine actuel de la détection d'objets en temps réel sont RTDETRv2 et YOLO11. Si les deux modèles offrent des performances exceptionnelles, ils représentent des philosophies architecturales fondamentalement différentes : l'approche basée sur Transformer par opposition au réseau neuronal convolutif (CNN) hautement optimisé.

Dans cette comparaison technique exhaustive, nous examinerons les architectures, les indicateurs de performance, les méthodologies de formation et les cas d'utilisation idéaux pour les deux modèles, afin de vous aider à prendre une décision éclairée pour votre prochaine application d'intelligence artificielle.

RTDETRv2 : le challenger basé sur le transformateur

Présenté comme une évolution du Real-Time Detection Transformer original, RTDETRv2 exploite des mécanismes d'attention pour traiter les données visuelles. En traitant les fragments d'image comme des séquences, il parvient à une compréhension globale du contexte de l'image, ce qui est très utile pour détecter des objets fortement superposés dans des scènes complexes.

Détails du modèle :

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 2024-07-24
Arxiv :2407.17140
GitHub :Dépôt RT-DETR
Docs :Documentation RTDETRv2

Points forts et points faibles architecturaux

La principale innovation du RTDETRv2 réside dans son architecture de bout en bout NMS. En éliminant la suppression non maximale (NMS), il simplifie le pipeline de post-traitement. De plus, ses capacités d'extraction de caractéristiques multi-échelles ont été améliorées par rapport au RT-DETR original, ce qui lui permet de mieux identifier les objets de tailles variables.

Cependant, comme il s'appuie sur des transformateurs, RTDETRv2 souffre généralement d'exigences en mémoire nettement plus élevées pendant l'entraînement. Les transformateurs sont généralement plus lents à converger et nécessitent beaucoup plus CUDA que les CNN traditionnels, ce qui les rend moins accessibles aux chercheurs qui utilisent du matériel grand public ou qui déploient des environnements d'IA en périphérie limités.

En savoir plus sur RTDETR

Ultralytics YOLO11: le summum de l'efficacité CNN

S'appuyant sur des années de recherche fondamentale, Ultralytics a lancé YOLO11, marquant un bond en avant considérable dans la lignée des YOLO. Il affine l'architecture CNN pour atteindre une vitesse et une précision sans précédent, tout en conservant la flexibilité et l'écosystème convivial pour les développeurs que la communauté est en droit d'attendre.

Détails du modèle :

Auteurs : Glenn Jocher et Jing Qiu
Organisation :Ultralytics
Date : 27 septembre 2024
GitHub :Dépôt Ultralytics

L'avantage Ultralytics

YOLO11 par son équilibre en termes de performances. Il offre un compromis exceptionnel entre vitesse et précision, ce qui le rend extrêmement polyvalent pour divers scénarios de déploiement dans le monde réel, des clusters de cloud computing massifs aux appareils mobiles légers.

De plus,YOLO Ultralytics sont réputés pour leur faible consommation de mémoire pendant l'entraînement et l'inférence. Contrairement aux modèles Transformer qui peuvent facilement épuiser la mémoire VRAM, YOLO11 des tailles de lots plus importantes sur les GPU standard. En outre, YOLO11 ne YOLO11 limite pas à la simple détection d'objets ; il offre une incroyable polyvalence, avec une prise en charge native de la segmentation d'instances, de la classification d'images, de l'estimation de poses et des boîtes englobantes orientées (OBB).

En savoir plus sur YOLO11

Comparaison des performances et des indicateurs

Lorsque l'on compare les chiffres bruts, il apparaît clairement que, si RTDETRv2 atteint une précision impressionnante, YOLO11 un choix beaucoup plus granulaire de tailles de modèles avec des vitesses d'inférence supérieures, en particulier sur TensorRT.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Comme le montre le tableau, le modèle YOLO11x atteint un mAP^val supérieur de 54,7% tout en utilisant moins de FLOPs (194,9B contre 259B) et en offrant une inférence plus rapide sur TensorRT (11,3ms contre 15,03ms) par rapport à la variante RTDETRv2-x. Les variantes nano et small de YOLO11 offrent des options légères inégalées pour les appareils contraints comme le Raspberry Pi.

Écosystème, facilité d'utilisation et entraînement

La caractéristique distinctive des Ultralytics est leur expérience utilisateur simplifiée. Le ultralytics Python fournit une API unifiée et intuitive qui gère les tâches lourdes de augmentation de données, l'entraînement distribué et l'exportation de modèles. Alors que le dépôt de recherche de RTDETRv2 nécessite une quantité importante de code passe-partout et de configuration, Ultralytics propose un pipeline "zéro à héros".

Il est intéressant de noter que Ultralytics est si robuste qu'il prend en charge nativement l'exécution RT-DETR parallèlement YOLO ! Cela vous permet de tirer parti de l'écosystème bien entretenu Ultralytics, y compris les intégrations avec Weights & Biases et Comet , pour suivre vos expériences sans effort.

from ultralytics import RTDETR, YOLO

# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")

# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")

Rationalisez votre flux de travail

L'efficacité de la formation est primordiale dans l'apprentissage automatique. Ultralytics utilisent des poids pré-entraînés qui convergent rapidement. Pour gérer vos ensembles de données, vos cycles de formation et vos points de terminaison de déploiement sans écrire de code, explorez la Ultralytics pour une expérience MLOps intégrée.

Applications concrètes

Le choix entre ces architectures se résume souvent aux contraintes de déploiement spécifiques de votre projet.

Où RTDETRv2 excelle : Le backbone Transformer de RTDETRv2 est très efficace dans les scénarios avec des objets denses et fortement occlus où un contexte global est requis. Il est souvent évalué dans la recherche académique et les applications où le budget de calcul est moins une préoccupation que la cartographie des relations basée sur l'attention brute.

Où YOLO11 domine : YOLO11 est le champion incontesté du déploiement pratique et réel. Son empreinte mémoire minimale et ses vitesses d'inférence ultra-rapides le rendent idéal pour :

Fabrication intelligente: Effectue la détection de défauts en temps réel sur les lignes de production à l'aide de PC industriels.
Agriculture: Déploiement sur des drones pour la surveillance en temps réel de la santé des cultures et la robotique de récolte automatisée.
Analyse du commerce de détail: Traitement simultané de plusieurs flux de caméras pour la gestion des files d'attente et le suivi des stocks sans nécessiter de fermes de serveurs massives.

Cas d'utilisation et recommandations

Le choix entre RT-DETR et YOLO11 dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir RT-DETR

RT-DETR un choix judicieux pour :

Recherche sur la détection basée sur les transformeurs : Projets explorant les mécanismes d'attention et les architectures de transformeurs pour la détection d'objets de bout en bout sans NMS.
Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformeurs offre un avantage naturel.

Quand choisir YOLO11

YOLO11 recommandé pour :

Déploiement Edge en production : Applications commerciales sur des appareils comme le Raspberry Pi ou le NVIDIA Jetson, où la fiabilité et une maintenance active sont primordiales.
Applications de vision multi-tâches : Projets nécessitant la détection, la segmentation, l'estimation de pose et les OBB au sein d'un cadre unifié unique.
Prototypage et Déploiement Rapides : Les équipes qui ont besoin de passer rapidement de la collecte de données à la production en utilisant l'API Python rationalisée d'Ultralytics.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Perspectives d'avenir : l'arrivée de YOLO26

Si vous démarrez un nouveau projet, vous devriez également envisager la prochaine génération d'IA visuelle : Ultralytics . Lancé en janvier 2026, YOLO26 combine le meilleur des deux mondes. Il introduit une conception de bout en bout NMS (introduite pour la première fois dans YOLOv10), éliminant complètement la latence de post-traitement, tout comme RTDETRv2, mais avec la vitesse inégalée d'un CNN.

YOLO26 intègre l'optimiseur MuSGD, inspiré des innovations en matière de formation LLM, pour une convergence incroyablement stable et rapide, et offre CPU jusqu'à 43 % plus rapide en supprimant la perte focale de distribution (DFL). Grâce à ses fonctions de perte ProgLoss + STAL spécialisées qui améliorent considérablement la reconnaissance des petits objets, YOLO26 est la recommandation ultime pour tout pipeline de vision par ordinateur moderne.

Que vous choisissiez YOLO11 sa polyvalence éprouvée, RTDETRv2 pour ses mécanismes d'attention ou YOLO26, à la pointe de la technologie, pour des performances optimales, la Ultralytics vous fournit toutes les ressources nécessaires pour réussir dans votre parcours en vision par ordinateur.