YOLOv7 RTDETRv2 : comparaison technique pour la détection d'objets en temps réel
Le paysage de la vision par ordinateur continue d'évoluer rapidement, fortement influencé par la concurrence entre les réseaux neuronaux convolutifs (CNN) et les transformateurs de vision (ViT). Cette comparaison technique se penche sur deux architectures de poids : YOLOv7, un détecteur d'objets hautement optimisé basé sur les CNN, et RTDETRv2, un transformateur de détection en temps réel à la pointe de la technologie.
En analysant leurs différences architecturales, leurs métriques de performance et leurs scénarios de déploiement idéaux, les développeurs peuvent prendre des décisions éclairées lors de l'intégration de ces modèles d'IA de vision dans leurs pipelines de production.
YOLOv7: l'architecture CNN « Bag-of-Freebies »
YOLOv7 plusieurs optimisations structurelles révolutionnaires dans la YOLO traditionnelle, repoussant les limites de la détection d'objets en temps réel grâce à une série de « sacs de cadeaux entraînables ».
Caractéristiques clés :
Auteurs : Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organisation : Institute of Information Science, Academia Sinica
Date : 2022-07-06
Arxiv : https://arxiv.org/abs/2207.02696
GitHub : WongKinYiu/yolov7
Architecture et points forts
YOLOv7 de son architecture Extended Efficient Layer Aggregation Network (E-ELAN). Cette conception structurelle permet au modèle d'apprendre des caractéristiques plus diverses sans détruire le chemin de gradient d'origine. De plus, il intègre des convolutions reparamétrées planifiées, qui optimisent la vitesse d'inférence sans nuire à la précision. Sa structure de tête découplée lui permet d'atteindre un compromis impressionnant entre vitesse et précision, ce qui le rend particulièrement adapté aux tâches de détection d'objets en temps réel sur des GPU de niveau serveur.
YOLOv7 également très polyvalent. Au-delà de la détection standard des boîtes englobantes, le référentiel propose des branches pour l'estimation de la pose et la segmentation des instances, démontrant ainsi son adaptabilité.
Limites
Comme beaucoup de modèles CNN hérités, YOLOv7 sur la suppression non maximale (NMS) pour le post-traitement. NMS une latence variable, en particulier dans les scènes encombrées, ce qui peut compliquer les garanties strictes en temps réel sur les appareils périphériques.
RTDETRv2 : faire progresser les transformateurs en temps réel
RTDETRv2 s'appuie sur le RT-DETR original, confirmant que les transformateurs peuvent rivaliser avec YOLO en termes de latence en temps réel tout en conservant une grande précision spatiale.
Caractéristiques clés :
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Organisation : Baidu
Date : 2024-07-24
Arxiv : https://arxiv.org/abs/2407.17140
GitHub : lyuwenyu/RT-DETR
Architecture et points forts
RTDETRv2 représente une avancée significative pour les transformateurs de vision. Il exploite un processus de sélection de requêtes flexible et un encodeur hybride efficace pour traiter rapidement des caractéristiques multi-échelles. En introduisant un nouveau « bag-of-freebies » spécialement conçu pour les transformateurs de détection (DETR), il repousse les limites du raisonnement spatial. Comme il est nativement NMS, il offre des temps d'inférence déterministes, une caractéristique essentielle pour les applications rigoureuses de ville intelligente et la conduite autonome.
Limites
Malgré ses avancées, RTDETRv2 hérite des contraintes traditionnelles des architectures basées sur les transformeurs. Il exige une mémoire CUDA significativement plus élevée pendant l'entraînement et l'inférence par rapport aux CNN. De plus, ses temps de convergence d'entraînement sont nettement plus longs, nécessitant de grandes quantités de données annotées de haute qualité (comme le jeu de données COCO) et d'importantes ressources de calcul.
Comparaison des performances
Lorsque nous comparons ces modèles, nous devons examiner une image globale englobant la précision, la vitesse d'inférence brute et l'empreinte computationnelle. Vous trouverez ci-dessous un tableau comparatif direct.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Interprétation des bancs d'essai
Si RTDETRv2-x revendique la meilleurevaleur mAP absolue avec 54,3 %, il nécessite toutefois une puissance de calcul colossale de 259 milliards de FLOP. À l'inverse, YOLOv7 offrent une excellente base de référence, mais souffrent d NMS héritée qui n'est pas entièrement prise en compte dans les mesures de latence pure du réseau.
Ultralytics : écosystème et évolution
Si YOLOv7 RTDETRv2 offrent des capacités robustes, leur déploiement dans des environnements de production révèle souvent des frictions logistiques. C'est là que Ultralytics excelle. Conçu pour une intégration transparente de bout en bout, le Ultralytics fournit aux développeurs une API unifiée qui élimine les complexités typiques des pipelines de vision par ordinateur.
Une polyvalence et une efficacité mémoire inégalées
Contrairement aux modèles de transformateurs rigides qui consomment d'énormes quantités de VRAM,YOLO Ultralytics maintiennent une efficacité mémoire stricte. Cela permet un apprentissage rapide des modèles sur du matériel accessible. L'écosystème prend en charge de manière inhérente plusieurs tâches de vision par ordinateur à partir d'une base de code unique, notamment la classification d'images et la détection de boîtes englobantes orientées (OBB), offrant une flexibilité qui fait actuellement défaut à RTDETRv2.
Déploiement transparent
Le passage de la recherche à la production nécessite des options de déploiement robustes. Ultralytics gère nativement l'exportation de modèles en un clic vers des formats standard. Que vous cibliez ONNX pour la compatibilité multiplateforme ou TensorRT pour GPU maximale, le pipeline est entièrement automatisé et fiable.
La mise à niveau ultime : Ultralytics
Pour les développeurs qui hésitent entre YOLOv7 RTDETRv2, la solution optimale est en réalité la nouvelle norme en matière d'IA visuelle : Ultralytics . Lancé en janvier 2026, YOLO26 comble le fossé entre la vitesse des CNN et le raisonnement sophistiqué des transformateurs, tout en éliminant complètement leurs faiblesses respectives.
YOLO26 introduit des innovations révolutionnaires adaptées aux déploiements sur serveur et en périphérie :
- Conception de bout en bout sans NMS : Initié pour la première fois dans YOLOv10, YOLO26 élimine nativement le post-traitement NMS. Cela assure la latence déterministe de RTDETRv2 sans la lourde surcharge computationnelle d'un transformeur.
- Optimiseur MuSGD : Inspiré par les techniques d'entraînement des grands modèles linguistiques (telles que Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD et Muon. Cela offre une stabilité d'entraînement sans précédent et des temps de convergence significativement plus rapides par rapport aux implémentations standard d'AdamW utilisées par les ViT.
- ProgLoss + STAL: Ces fonctions de perte avancées apportent des améliorations notables à la reconnaissance des petits objets, rivalisant directement avec les avantages des caractéristiques multi-échelles de RTDETRv2, ce qui est essentiel pour l'automatisation robotique.
- Optimisation en périphérie et suppression du DFL : En supprimant la Distribution Focal Loss (DFL), YOLO26 simplifie la tête de sortie, ce qui se traduit par une inférence CPU jusqu'à 43 % plus rapide – le rendant infiniment plus déployable sur les appareils en périphérie que les modèles de transformeurs lourds.
Exemple de formation avec Ultralytics
La simplicité dePython Ultralytics vous permet d'entraîner le modèle YOLO26 de pointe avec seulement quelques lignes de code :
from ultralytics import YOLO
# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")
# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)
Cas d'utilisation idéaux
Le choix de la bonne architecture dépend fortement des contraintes de déploiement et de la disponibilité du matériel :
Quand envisager YOLOv7:
- Projets de recherche existants dans lesquels YOLOv7 une référence établie.
- Environnements où GPU brute est abondante et où la gigue NMS est acceptable.
Quand envisager RTDETRv2 :
- Déploiements de serveurs haut de gamme nécessitant mAP maximal absolu.
- Scénarios dans lesquels une latence d'inférence déterministe (NMS) est strictement requise, à condition que vous disposiez de la VRAM nécessaire pour prendre en charge son infrastructure de transformateur.
Quand choisir Ultralytics :
- Presque toujours. Il offre le déterminisme sans NMS de RTDETRv2, dépasse la vitesse et la précision de YOLOv7, utilise significativement moins de VRAM, et est entièrement intégré à la plateforme Ultralytics pour une gestion, un entraînement et un déploiement des ensembles de données sans effort.
Explorer d'autres modèles
Vous souhaitez savoir comment se comparent les autres architectures ? Découvrez nos analyses approfondies des générations précédentes, telles que YOLO11 et YOLOv8, ou découvrez comment tirer parti du réglage des hyperparamètres pour optimiser la précision de votre projet.