Passer au contenu

YOLOv5 RT-DETRv2: comparaison technique des détecteurs d'objets en temps réel

L'évolution de la détection d'objets en temps réel a été définie par deux grands paradigmes architecturaux : YOLO basée sur les réseaux neuronaux convolutifs (CNN) et les modèles de détection basés sur les transformateurs. Cette comparaison explore les différences techniques entre Ultralytics YOLOv5, le détecteur basé sur CNN standard de l'industrie, et RT-DETRv2, une itération récente du transformateur de détection en temps réel conçu pour remettre en question la domination traditionnelle des CNN.

Les deux modèles visent à résoudre le défi crucial qui consiste à trouver un équilibre entre la vitesse d'inférence et une grande précision, mais ils abordent cet objectif en utilisant des méthodologies fondamentalement différentes.

Ultralytics YOLOv5 : La norme de l’industrie

YOLOv5 l'un des modèles de vision par ordinateur les plus largement déployés à l'échelle mondiale en raison de son équilibre exceptionnel entre vitesse, précision et praticité technique. Lancé mi-2020 par Ultralytics, il a redéfini la facilité d'utilisation dans le domaine de l'IA, rendant la détection de pointe accessible aux ingénieurs et aux chercheurs grâce à une Python transparente.

En savoir plus sur YOLOv5

Architecture et conception

YOLOv5 une structure CSPDarknet, qui intègre des réseaux Cross Stage Partial afin d'améliorer le flux de gradient et de réduire le coût de calcul. Son cou utilise un PANet (Path Aggregation Network) pour une agrégation efficace de la pyramide de caractéristiques, garantissant ainsi une fusion efficace des caractéristiques provenant de différentes échelles.

Les principales caractéristiques architecturales sont les suivantes :

  • Détection basée sur des ancres : utilise des boîtes d'ancrage prédéfinies pour prédire l'emplacement des objets, une méthode éprouvée pour une localisation robuste.
  • Augmentation des données mosaïques : technique d'entraînement qui assemble quatre images afin d'apprendre au modèle à detect dans des contextes et à des échelles variés.
  • Activation SiLU : fonctions d'activation plus fluides qui améliorent la convergence des réseaux neuronaux profonds par rapport à la fonction ReLU traditionnelle.

Points forts dans le déploiement

YOLOv5 en matière de facilité d'utilisation. Son workflow « zero-to-hero » permet aux développeurs de passer d'un ensemble de données à un modèle déployé en quelques minutes. Ultralytics prend en charge cette fonctionnalité grâce à des outils intégrés pour l'annotation des données, la formation dans le cloud et l'exportation en un clic vers des formats tels que ONNX, TensorRTet CoreML.

Contrairement aux modèles de transformateurs, qui peuvent être gourmands en mémoire, YOLOv5 des besoins en mémoire nettement inférieurs pendant l'entraînement. Cette efficacité lui permet de fonctionner sur des GPU grand public et même sur des appareils de pointe tels que le NVIDIA , ce qui le rend très polyvalent pour des applications concrètes allant de la conservation de la faune sauvage à l'analyse commerciale.

RT-DETRv2: le challenger des transformateurs

RT-DETRv2 Real-Time Detection Transformer version 2) s'appuie sur le succès du RT-DETR original et vise à apporter la précision des transformateurs à des vitesses en temps réel. Il résout le problème du coût de calcul élevé généralement associé aux transformateurs de vision (ViT) en optimisant la structure encodeur-décodeur.

En savoir plus sur RT-DETR

Architecture et conception

RT-DETRv2 une architecture hybride combinant une structure CNN (généralement ResNet ou HGNet) avec un encodeur-décodeur transformateur efficace.

  • Encodeur hybride : découple l'interaction intra-échelle et la fusion inter-échelle afin de réduire la charge de calcul.
  • Sélection de requêtesIoU: améliore l'initialisation des requêtes d'objets en donnant la priorité aux caractéristiques hautement fiables.
  • Sans ancrage : prédit directement les cadres de sélection sans ancrages prédéfinis, ce qui simplifie théoriquement la tête de sortie.
  • NMS: l'un des principaux arguments de vente est la suppression de la suppression non maximale (NMS), qui permet de réduire la variance de latence dans le post-traitement.

Considérations relatives au déploiement

Bien que RT-DETRv2 une précision compétitive, il nécessite davantage de ressources. L'entraînement des modèles basés sur des transformateurs nécessite généralement plus GPU et des temps d'entraînement plus longs que les CNN tels que YOLOv5. De plus, si la suppression du NMS avantageuse pour la stabilité de la latence, les multiplications matricielles lourdes dans les couches d'attention peuvent être plus lentes sur les anciens matériels ou les appareils périphériques qui ne disposent pas de tensor dédiés.

Comparaison des métriques de performance

Le tableau suivant compare les performances de YOLOv5 RT-DETRv2 l'ensemble de données COCO . Alors que RT-DETRv2 une grande précision (mAP), YOLOv5 offre YOLOv5 un meilleur rapport vitesse/paramètre, en particulier sur du matériel standard.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Équilibre des performances

Bien que RT-DETRv2 mAP maximal plus élevé, il convient de noter la différence significative en termes de taille et de vitesse du modèle. YOLOv5n fonctionne près de 5 fois plus rapidement sur les GPU T4 que le plus petit RT-DETRv2 , ce qui en fait le choix idéal pour les applications périphériques extrêmement limitées en ressources.

Principales différences et cas d'utilisation

1. Efficacité de la formation et écosystème

L'un des principaux avantages d' Ultralytics YOLOv5 est son efficacité de formation. La capacité à former efficacement sur des ensembles de données plus petits avec du matériel moins puissant démocratise l'accès à l'IA. La Ultralytics intégrée permet aux utilisateurs de visualiser les métriques de formation, de gérer les ensembles de données et de déployer des modèles de manière transparente.

En revanche, l'entraînement RT-DETRv2 nécessite RT-DETRv2 plus CUDA et des époques d'entraînement prolongées pour atteindre la convergence en raison de la nature des mécanismes d'attention des transformateurs. Pour les développeurs qui itèrent rapidement, les cycles d'entraînement rapides de YOLOv5 un facteur majeur d'amélioration de la productivité.

2. Polyvalence

YOLOv5 pas seulement un détecteur d'objets. Le Ultralytics étend ses capacités à :

Cette polyvalence signifie qu'une seule bibliothèque peut alimenter toute une suite d'applications, de l'analyse sportive à l'imagerie médicale, réduisant ainsi la complexité du code et les frais de maintenance. RT-DETRv2 concentre principalement sur la détection, avec un support moins mature pour ces tâches auxiliaires dans un flux de travail unifié.

3. CPU en périphérie et CPU

Pour une utilisation sur des processeurs (courants dans les caméras IP ou les fonctions cloud) ou des appareils mobiles, l'architecture CNN YOLOv5 est hautement optimisée. Elle prend en charge l'exportation vers TFLite et CoreML avec une prise en charge étendue de la quantification. Les modèles Transformer tels que RT-DETRv2 rencontrer des difficultés avec la latence surGPU en raison d'opérations matricielles complexes qui ne sont pas facilement accélérées par CPU standard.

Recommandation : Ultralytics

Si RT-DETRv2 des résultats académiques impressionnants, YOLO Ultralytics offrent une solution plus holistique pour les systèmes de production. L'écosystème bien entretenu, qui garantit la compatibilité avec les dernières Python , les pilotes matériels et les formats d'exportation, offre une tranquillité d'esprit pour les projets à long terme.

Pour ceux qui lancent de nouveaux projets en 2026, nous recommandons vivement de se tourner vers Ultralytics .

Pourquoi choisir YOLO26 ?

YOLO26 représente le summum de l'efficacité, combinant les meilleures fonctionnalités des CNN et des Transformers.

  • De bout en bout natif : tout comme RT-DETRv2, YOLO26 NMS nécessite NMS, ce qui simplifie les pipelines de déploiement.
  • MuSGD Optimizer : un optimiseur hybride révolutionnaire pour une convergence et une stabilité accrues.
  • Optimisation des bords : spécialement conçue pour accélérer jusqu'à 43 % CPU par rapport aux générations précédentes.
  • Suppression DFL : fonctions de perte simplifiées pour une meilleure exportabilité vers les périphériques périphériques.

En savoir plus sur YOLO26

Exemple de code : Exécution de YOLOv5

La simplicité de Ultralytics est l'une des principales raisons de son adoption généralisée. Voici à quel point il est facile de charger et d'exécuter une inférence.

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img)

# Print results to the console
results.print()

# Show the image with bounding boxes
results.show()

À titre de comparaison, Ultralytics prend Ultralytics en charge RT-DETR via la même interface simple :

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
for result in results:
    result.show()

Conclusion

YOLOv5 RT-DETRv2 tous deux des modèles performants. RT-DETRv2 un aperçu de l'avenir de la détection basée sur les transformateurs grâce à son architecture NMS et à sa grande précision. Cependant, YOLOv5 reste un outil puissant pour un déploiement pratique et concret, offrant une vitesse inégalée sur les appareils périphériques, des coûts de ressources réduits et un riche écosystème d'outils.

Pour les développeurs qui veulent « le meilleur des deux mondes » — la rapidité des CNN et la commodité des transformateurs NMS —Ultralytics est le choix incontournable pour 2026 et au-delà.

Ressources supplémentaires


Commentaires