Passer au contenu

RTDETRv2 vs YOLOv9: comparaison entre les transformateurs de détection en temps réel et les CNN

Le domaine de la détection d'objets a connu une évolution rapide, avec l'émergence de deux architectures distinctes en tête pour les applications en temps réel : les modèles basés sur les transformateurs et les modèles basés sur les CNN. RTDETRv2 (Real-Time Detection Transformer version 2) représente la pointe de la technologie en matière de transformateurs de vision, offrant une détection de bout en bout sans post-traitement. YOLOv9, quant à lui, fait progresser l'architecture CNN traditionnelle grâce à des informations de gradient programmables (PGI) afin de réduire la perte d'informations.

Cette comparaison examine les spécifications techniques, les indicateurs de performance et les cas d'utilisation idéaux pour les deux modèles, afin d'aider les développeurs à choisir l'outil adapté à leurs besoins spécifiques en matière de vision par ordinateur.

Résumé

RTDETRv2 excelle dans les scénarios nécessitant une grande précision dans des environnements complexes, en particulier lorsque les occlusions sont fréquentes. Ses mécanismes d'attention permettent une compréhension globale du contexte, mais cela se fait au prix d'exigences informatiques plus élevées et de vitesses d'entraînement plus lentes. C'est un excellent choix pour la recherche et GPU haut de gamme.

YOLOv9 offre un excellent équilibre entre vitesse et précision, tout en conservant l'efficacité caractéristique de la YOLO . Il est très efficace pour les tâches de détection générales, mais a récemment été supplanté par Ultralytics nouveaux Ultralytics tels que YOLO26, qui intègrent le meilleur des deux mondes : une détection de bout en bout NMS avec la vitesse des CNN optimisés.

Pour la plupart des développeurs, l' Ultralytics offre la voie la plus sûre vers la production, avec une intégration transparente, une documentation complète et la prise en charge des modèles les plus récents et les plus avancés.

Comparaison détaillée des performances

Le tableau suivant présente une comparaison côte à côte des principaux indicateurs. Il convient de noter que, si RTDETRv2 offre une grande précision, les modèles basés sur CNN tels que YOLOv9 le plus récent YOLO26 offrent souvent des vitesses d'inférence plus rapides sur du matériel standard.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

RTDETRv2 : le concurrent du Vision Transformer

RTDETRv2 s'appuie sur le succès du RT-DETR original, en optimisant l'encodeur hybride et la sélection de requêtes à incertitude minimale afin d'améliorer la vitesse et la précision.

Caractéristiques clés :

  • Auteur : Wenyu Lv, Yian Zhao, et al.
  • Organisation :Baidu
  • Date : avril 2023 (original), juillet 2024 (v2)
  • Liens :Arxiv, GitHub

Architecture et points forts

RTDETRv2 exploite une architecture de transformateur qui traite les images avec une attention globale. Cela permet au modèle de « voir » les relations entre les parties éloignées d'une image, ce qui le rend particulièrement robuste face à l'occlusion et aux scènes encombrées. L'un de ses principaux avantages est sa conceptionNMS, qui simplifie le pipeline de déploiement en supprimant le besoin d'un post-traitement de suppression non maximale.

Limites

Bien que puissant, RTDETRv2 nécessite généralement beaucoup plus GPU pour l'entraînement que les CNN. La complexité quadratique des mécanismes d'attention peut constituer un goulot d'étranglement pour les entrées haute résolution. De plus, l'écosystème est principalement axé sur la recherche et ne dispose pas des outils de déploiement étendus que l'on trouve dans la Ultralytics .

En savoir plus sur RT-DETR

YOLOv9 : Informations de gradient programmables

YOLOv9 le concept d'informations de gradient programmables (PGI) et le réseau généralisé d'agrégation de couches efficaces (GELAN). Ces innovations permettent de résoudre le problème du goulot d'étranglement des informations dans les réseaux neuronaux profonds.

Caractéristiques clés :

  • Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
  • Organisation : Institute of Information Science, Academia Sinica
  • Date : 21 février 2024
  • Liens :Arxiv, GitHub

Architecture et points forts

L'architecture GELAN YOLOv9 optimise l'efficacité des paramètres, ce qui lui permet d'atteindre une grande précision avec moins de FLOP que les versions précédentes. En conservant les informations cruciales pendant le processus de feed-forward, elle garantit que les gradients utilisés pour mettre à jour les poids sont précis et fiables. Il en résulte un modèle à la fois léger et très précis.

Limites

Malgré ses avancées, YOLOv9 repose YOLOv9 sur NMS traditionnel NMS le post-traitement, ce qui peut entraîner des latences et une certaine complexité lors du déploiement. Les utilisateurs qui gèrent des déploiements à grande échelle préfèrent souvent l'expérience simplifiée des nouveaux Ultralytics qui gèrent ces complexités de manière native.

En savoir plus sur YOLOv9

Ultralytics : au-delà du modèle

Bien que le choix d'une architecture spécifique soit important, l'écosystème logiciel qui l'entoure est souvent le facteur déterminant pour la réussite des projets. Ultralytics , notamment YOLOv8, YOLO11et le très performant YOLO26, offrent des avantages distincts :

1. Facilité d'utilisation et efficacité de la formation

La formation d'un modèle ne devrait pas nécessiter un doctorat en apprentissage profond. Python Ultralytics simplifie les complexités du chargement des données, de l'augmentation et de la formation distribuée.

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your data with a single command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

2. Polyvalence entre les tâches

Contrairement à de nombreux modèles spécialisés, Ultralytics sont conçus comme des outils d'IA visuelle à usage général. Un seul cadre prend en charge :

3. Déploiement et exportation

Le passage d'un modèle entraîné à une application de production se fait en toute transparence. Ultralytics exporter en un clic vers des formats tels que ONNX, TensorRT, CoreML et TFLite, garantissant ainsi le bon fonctionnement de votre modèle sur n'importe quel matériel, des appareils périphériques aux serveurs cloud.

Perspectives : La puissance de YOLO26

Pour les développeurs à la recherche des meilleures performances possibles, YOLO26 représente une nouvelle avancée majeure. Il pallie les limites de RTDETRv2 et YOLOv9 combinant leurs points forts dans une architecture unifiée.

Pourquoi passer à YOLO26 ?

YOLO26 rend les comparaisons précédentes caduques en offrant une détection native de bout en bout NMS. Il élimine les goulots d'étranglement liés au post-traitement de YOLOv9 conservant les avantages des CNN en termes de vitesse, évitant ainsi le coût de calcul élevé des transformateurs tels que RTDETRv2.

Principales avancées de YOLO26 :

  • De bout en bout en mode natif : élimine NMS des pipelines de déploiement plus rapides et plus simples.
  • Optimiseur MuSGD : inspiré de la formation LLM (comme Kimi K2 de Moonshot AI), cet optimiseur hybride garantit une convergence stable et une formation robuste.
  • Vitesse améliorée : optimisé pour CPU , il atteint des vitesses jusqu'à 43 % plus rapides que les générations précédentes, ce qui le rend idéal pour les applications d'IA en périphérie.
  • ProgLoss + STAL : les fonctions de perte avancées améliorent la détection des petits objets, une fonctionnalité essentielle pour l'imagerie par drone et l'IoT.

En savoir plus sur YOLO26

Conclusion

RTDETRv2 et YOLOv9 tous deux des contributions impressionnantes dans le domaine de la vision par ordinateur. RTDETRv2 repousse les limites de la précision basée sur les transformateurs, tandis que YOLOv9 l'efficacité des CNN. Cependant, pour un déploiement pratique et concret, YOLO Ultralytics restent le choix le plus judicieux. Avec la sortie de YOLO26, les développeurs n'ont plus à choisir entre la simplicité de la détection de bout en bout et la vitesse des CNN : ils peuvent désormais bénéficier des deux dans un seul package bien pris en charge.

Explorez la Ultralytics pour commencer à entraîner vos modèles dès aujourd'hui, ou consultez notre documentation complète pour en savoir plus sur l'optimisation de votre pipeline d'IA visuelle.


Commentaires