Passer au contenu

RTDETRv2 vsYOLO: guide complet sur la détection d'objets en temps réel moderne

Le domaine de la vision par ordinateur est en constante évolution, les chercheurs et les ingénieurs s'efforçant de créer des modèles qui offrent un équilibre parfait entre vitesse, précision et efficacité. Deux architectures de premier plan ont fait beaucoup de bruit dans ce domaine : RTDETRv2, développée par Baidu, etYOLO, conçue par Alibaba Group. Ces deux modèles repoussent les limites de la détection d'objets en temps réel, mais ils adoptent des philosophies architecturales fondamentalement différentes pour obtenir leurs résultats impressionnants.

Dans cette comparaison technique, nous allons examiner en détail leurs architectures, leurs méthodologies d'entraînement et leurs capacités de déploiement dans le monde réel. Nous allons également comparer ces modèles à l'écosystème plus large, en particulier à la Ultralytics hautement optimisée et à l'architecture de pointe YOLO26.

Innovations architecturales

Il est essentiel que les ingénieurs en apprentissage automatique chargés de sélectionner l'outil adapté aux environnements de production comprennent les mécanismes fondamentaux de ces modèles.

RTDETRv2 : L’approche Transformer

S'appuyant sur le succès du RT-DETR original, le RTDETRv2 utilise un encodeur hybride et un décodeur transformateur. Cette conception permet au modèle de traiter le contexte global de manière très efficace, ce qui le rend exceptionnellement performant pour distinguer les objets qui se chevauchent dans des scènes denses. Le principal avantage de cette architecture réside dans sa conception native NMS(Non-Maximum Suppression). En éliminant l'étape NMS , RTDETRv2 rationalise le pipeline d'inférence et garantit une latence plus stable sur différentes configurations matérielles.

En savoir plus sur RTDETRv2

YOLO: améliorer l'efficacité des réseaux CNN

YOLO, quant à lui, reste ancré dans la YOLO très réussie YOLO basés sur les CNN, mais introduit plusieurs améliorations révolutionnaires. Il exploite la recherche d'architecture neuronale (NAS) pour optimiser son infrastructure, garantissant ainsi une efficacité maximale dans l'extraction des caractéristiques. De plus, il intègre un réseau RepGFPN (Reparameterized Generalized Feature Pyramid Network) efficace et une conception ZeroHead, ainsi que des techniques d'amélioration AlignedOTA et de distillation. Ces innovations permettentYOLO atteindre des vitesses d'inférence rapides tout en conservant un scoremAPval très compétitif.

En savoir plus sur DAMO-YOLO

Divergence architecturale

Alors que RTDETRv2 se concentre sur l'exploitation des mécanismes d'attention pour la compréhension globale des caractéristiques sans NMS,YOLO l'efficacité des CNN traditionnels grâce au NAS et à une distillation avancée, nécessitant un post-traitement standard mais offrant des avantages distincts en termes de vitesse sur certains matériels.

Comparaison des performances et des indicateurs

Lors de l'évaluation des modèles en vue de leur déploiement, les indicateurs de performance tels que la précision moyenne (mAP), la vitesse d'inférence et le nombre de paramètres sont primordiaux. Vous trouverez ci-dessous une comparaison détaillée des deux familles de modèles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Analyse des résultats

Comme le montre le tableau, le RTDETRv2-x atteint la plus grande précision avec unmAPval de 54,3, démontrant ainsi la puissance de l'architecture du transformateur sur des validations complexes telles que COCO . Cependant, cela s'accompagne d'une augmentation significative des paramètres (76 millions) et des FLOP.

À l'inverse, DAMO-YOLOt (Tiny) est exceptionnellement léger, ne nécessitant que 8,5 millions de paramètres, ce qui en fait une option incroyablement rapide pour les environnements où CUDA est fortement limitée.YOLO offreYOLO un compromis favorable entre vitesse et précision pour les appareils périphériques hérités.

Écosystème, convivialité et Ultralytics

Si des référentiels indépendants tels que RT-DETR YOLO officiels RT-DETR et YOLO fournissent le code brut permettant d'entraîner ces modèles, leur intégration dans les pipelines de production nécessite souvent un code standardisé important et une optimisation manuelle.

C'est là que Ultralytics simplifie considérablement l'expérience des développeurs. Ultralytics des modèles tels que RTDETRv2 directement dans son API unifiée, permettant aux utilisateurs de former, valider et exporter des modèles à l'aide d'une seule ligne de code. De plus, Ultralytics sont connus pour leurs besoins en mémoire minimaux pendant la formation, comparativement aux référentiels autonomes lourds basés sur des transformateurs.

Exemple de code : intégration transparente

Voici à quel point il est facile d'utiliser laPython Ultralytics pour exécuter une inférence. L'API reste cohérente, que vous utilisiez un modèle de transformateur ou un CNN de pointe.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()

Exportation de modèles pour la production

Grâce à Ultralytics , vous pouvez facilement Exportez vos modèles entraînés vers des formats tels que TensorRT, ONNX ou CoreML une simple commande. model.export(format="engine") commande, réduisant considérablement les frictions liées au déploiement.

Cas d'utilisation idéaux

Le choix entre ces architectures dépend entièrement des exigences spécifiques de votre projet :

  • RTDETRv2 excelle dans le traitement côté serveur où la mémoire VRAM est abondante. Sa prise en compte du contexte global est parfaite pour l'imagerie médicale et l'analyse de foules denses où les occlusions sont fréquentes.
  • YOLO est particulièrement adapté aux applications IoT embarquées et aux lignes d'inspection industrielle à cadence rapide où un nombre réduit de paramètres et un FPS élevé sont des exigences strictes.

L'avenir : Ultralytics

Bien que RTDETRv2 etYOLO tous deux leurs mérites, le domaine de la vision par ordinateur évolue rapidement. Pour les nouveaux projets, la dernière version d'Ultralytics YOLO26 est la solution la plus adaptée. Ultralytics représente la synthèse ultime entre vitesse, précision et expérience développeur.

YOLO26 adopte une conception NMS de bout en bout, tirant parti des principaux avantages des transformateurs sans la charge de calcul massive. Il intègre l'optimiseurinnovant MuSGD, inspiré de l'entraînement des grands modèles linguistiques, pour une convergence stable et rapide. De plus, grâce à la suppression du DFL (Distribution Focal Loss, pour une exportation simplifiée et une meilleure compatibilité avec les appareils périphériques/à faible consommation d'énergie), YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui en fait le champion incontesté de l'informatique périphérique. En outre, ProgLoss + STAL offre des fonctions de perte améliorées avec des progrès notables dans la reconnaissance des petits objets, essentielle pour l'IoT, la robotique et l'imagerie aérienne.

Contrairement aux modèles strictement limités aux boîtes englobantes, la famille YOLO26 offre une polyvalence inégalée, prenant en charge des tâches allant de la segmentation d'instances et l'estimation de poses aux boîtes englobantes orientées (OBB), le tout géré de manière transparente via la Ultralytics intuitive Ultralytics .

Découvrez YOLO26 sur la plateforme

Détails du modèle et références

RTDETRv2

  • Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
  • Organisation :Baidu
  • Date : 2024-07-24
  • Arxiv :2407.17140
  • GitHub :Dépôt RT-DETR

DAMO-YOLO

Pour les utilisateurs souhaitant explorer d'autres comparaisons, consultez nos guides sur RTDETRv2 vs YOLO11 ou YOLO YOLOv8 afin de découvrir les performances de ces modèles par rapport aux générations précédentes de la Ultralytics .


Commentaires