Passer au contenu

RTDETRv2 vs YOLOv5: évaluation des transformateurs de détection en temps réel et des CNN

L'évolution de la vision par ordinateur a été largement définie par la recherche incessante d'un équilibre entre précision et vitesse d'inférence en temps réel. Lorsqu'ils comparent RTDETRv2 et Ultralytics YOLOv5, les développeurs évaluent essentiellement les capacités sophistiquées des architectures de transformateurs en matière de contexte global par rapport à l'efficacité hautement optimisée et éprouvée des réseaux neuronaux convolutifs (CNN).

Ce guide fournit une analyse technique approfondie de ces deux architectures de premier plan, détaillant leurs mesures de performance, leurs méthodologies d'entraînement, leurs besoins en mémoire et leurs scénarios de déploiement idéaux afin de vous aider à choisir le meilleur modèle de détection d'objets pour votre cas d'utilisation spécifique.

RTDETRv2 : l'approche Transformer pour la détection en temps réel

S'appuyant sur le Real-Time Detection Transformer (RT-DETR) original, RTDETRv2 introduit une série de « bag-of-freebies » afin d'améliorer l'architecture de base sans sacrifier sa latence d'inférence.

Architecture et capacités

RTDETRv2 exploite une architecture hybride CNN-Transformer. Le CNN sert de base pour extraire des caractéristiques visuelles fines, tandis que les couches encodeur-décodeur du transformateur traitent l'ensemble de la carte des caractéristiques afin de comprendre le contexte global. L'une des principales caractéristiques de RTDETRv2 est sa nature de bout en bout, qui élimine complètement le besoin d'un post-traitement par suppression non maximale (NMS).

Si RTDETRv2 atteint une précision impressionnante, en particulier dans les scènes complexes et denses où les objets se chevauchent, il présente toutefois des inconvénients notables. Le mécanisme d'attention inhérent aux transformateurs exige CUDA nettement plus importante pendant l'entraînement que les CNN standard. De plus, s'il fonctionne bien sur les GPU haut de gamme tels que les NVIDIA ou T4, son architecture est nettement plus lente sur les CPU standard et les appareils périphériques fortement limités.

En savoir plus sur RTDETRv2

Ultralytics YOLOv5: la norme industrielle en matière d'efficacité

Ultralytics YOLOv5 aYOLOv5 changé le paysage de l'apprentissage automatique appliqué lors de sa sortie, rendant la vision par ordinateur haute performance accessible aux développeurs du monde entier grâce à un cadre exceptionnellement intuitif.

Équilibre entre l'écosystème et la performance

YOLOv5 entièrement basé sur le PyTorch et s'appuie sur une architecture CNN extrêmement efficace. Il a été conçu dès le départ pour être facile à utiliser, avec une API simplifiée et l'une des documentations les plus complètes du secteur de l'IA.

Le plus grand avantage de YOLOv5 dans sa polyvalence inégalée et ses faibles exigences en matière de mémoire. L'entraînement d'un YOLOv5 nécessite beaucoup moins de VRAM que les modèles basés sur des transformateurs, ce qui le rend accessible aux chercheurs et aux ingénieurs disposant d'un budget matériel limité. De plus, alors que RTDETRv2 se concentre exclusivement sur la détection de cadres de sélection, YOLOv5 devenu un outil polyvalent et puissant qui prend en charge la segmentation d'instances et la classification d'images.

Gestion des modèles d'entreprise

Pour bénéficier d'un flux de travail optimisé, vous pouvez former, valider et déployer YOLOv5 à l'aide de la Ultralytics . La plateforme offre des capacités de formation dans le cloud et des pipelines de déploiement sans code.

En savoir plus sur YOLOv5

Comparaison des performances et des indicateurs

Lorsque l'on analyse les performances brutes sur l'ensemble COCO standard COCO , on constate des différences marquées dans la manière dont ces modèles hiérarchisent les ressources.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Analyse des compromis

Les données révèlent que RTDETRv2-x atteint une précision moyenne maximale (mAP) de 54,3 %, légèrement supérieure à celle de YOLOv5x (50,7 %). Cependant, ce léger gain de précision s'accompagne d'un coût de calcul considérable. YOLOv5x fonctionne avec une latence plus faible (11,89 ms contre 15,03 ms sur TensorRT) et nécessite une fraction de l'empreinte mémoire. Pour les déploiements en périphérie à très faible consommation d'énergie, YOLOv5n (Nano) reste sans égal, effectuant des inférences en seulement 1,12 ms avec une empreinte paramétrique minuscule de 2,6 millions, un niveau auquel RTDETRv2 ne tente même pas de rivaliser.

Efficacité de la formation et simplicité du code

L'une des principales forces de Ultralytics réside dans son API unifiée. Même si vous décidez d'utiliser l'architecture transformatrice de RT-DETR une tâche spécifique nécessitant une puissance de calcul importante, vous pouvez le faire entièrement dans lePython Ultralytics , en changeant de modèle de manière transparente à l'aide d'une seule ligne de code.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

En exploitant la Ultralytics , les développeurs ont automatiquement accès à un écosystème bien entretenu proposant des intégrations de suivi des expériences (comme Weights & Biases Comet ) et des exportations en un clic vers des formats de déploiement tels que ONNX et OpenVINO.

Applications concrètes et cas d'utilisation idéaux

Les points forts de RTDETRv2

RTDETRv2 est particulièrement adapté aux environnements où il n'existe aucune limitation matérielle et où l'objectif unique est d'obtenir la plus grande précision possible.

  • Imagerie médicale côté serveur : détection d'anomalies microscopiques dans les radiographies haute résolution.
  • Imagerie satellite : suivi d'objets denses et superposés dans le cadre de missions de surveillance aérienne sur de puissants clusters cloud.

Où YOLOv5

YOLOv5 le champion incontesté du déploiement pratique et concret sur divers matériels.

  • Dispositifs Edge AI : déploiement de systèmes d'alarme de sécurité sur des appareils Raspberry Pi ou NVIDIA dont la mémoire est strictement limitée.
  • Applications mobiles : exécution rapide, boîte englobante en temps réel et inférence de segmentation directement sur les smartphones via CoreML TFLite.
  • Fabrication industrielle à grande vitesse : inspection de pièces sur des lignes de production rapides où une latence de l'ordre de la milliseconde est essentielle à la réussite opérationnelle.

Explorer d'autres Ultralytics

Si YOLOv5 un modèle légendaire, Ultralytics repousse sans cesse les limites de l'IA. Si vous comparez des modèles pour un nouveau projet en 2026, vous devriez envisager d'explorer le modèle Ultralytics , à la pointe de la technologie. YOLO26 intègre une conception native de bout en bout NMS (similaire aux transformateurs mais avec la vitesse du CNN), dispose de l'optimiseur révolutionnaire MuSGD pour un entraînement incroyablement stable et offre CPU jusqu'à 43 % plus rapide. Sinon, YOLO11 reste un choix fantastique et très prisé pour les déploiements polyvalents nécessitant une estimation de la pose et une détection OBB.

En fin de compte, alors que RTDETRv2 repousse les limites de la précision grâce à des couches de transformateurs, leYOLO Ultralytics offre un équilibre inégalé entre vitesse, faible consommation de mémoire et expérience de développement brillamment conçue, qui réduit considérablement le temps nécessaire entre le prototype et la production.


Commentaires