YOLOv7 RTDETRv2 : comparaison technique pour la détection d'objets en temps réel
Le paysage de la vision par ordinateur continue d'évoluer rapidement, fortement influencé par la concurrence entre les réseaux neuronaux convolutifs (CNN) et les transformateurs de vision (ViT). Cette comparaison technique se penche sur deux architectures de poids : YOLOv7, un détecteur d'objets hautement optimisé basé sur les CNN, et RTDETRv2, un transformateur de détection en temps réel à la pointe de la technologie.
En analysant leurs différences architecturales, leurs indicateurs de performance et leurs scénarios de déploiement idéaux, les développeurs peuvent prendre des décisions éclairées lorsqu'ils intègrent ces modèles d'IA visuelle dans leurs pipelines de production.
YOLOv7: l'architecture CNN « Bag-of-Freebies »
YOLOv7 plusieurs optimisations structurelles révolutionnaires dans la YOLO traditionnelle, repoussant les limites de la détection d'objets en temps réel grâce à une série de « sacs de cadeaux entraînables ».
Caractéristiques principales :
Auteurs : Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica
Date : 06/07/2022
Arxiv : https://arxiv.org/abs/2207.02696
GitHub : WongKinYiu/yolov7
Architecture et points forts
YOLOv7 de son architecture Extended Efficient Layer Aggregation Network (E-ELAN). Cette conception structurelle permet au modèle d'apprendre des caractéristiques plus diverses sans détruire le chemin de gradient d'origine. De plus, il intègre des convolutions reparamétrées planifiées, qui optimisent la vitesse d'inférence sans nuire à la précision. Sa structure de tête découplée lui permet d'atteindre un compromis impressionnant entre vitesse et précision, ce qui le rend particulièrement adapté aux tâches de détection d'objets en temps réel sur des GPU de niveau serveur.
YOLOv7 également très polyvalent. Au-delà de la détection standard des boîtes englobantes, le référentiel propose des branches pour l'estimation de la pose et la segmentation des instances, démontrant ainsi son adaptabilité.
Limites
Comme beaucoup de modèles CNN hérités, YOLOv7 sur la suppression non maximale (NMS) pour le post-traitement. NMS une latence variable, en particulier dans les scènes encombrées, ce qui peut compliquer les garanties strictes en temps réel sur les appareils périphériques.
RTDETRv2 : faire progresser les transformateurs en temps réel
RTDETRv2 s'appuie sur le RT-DETR original, confirmant que les transformateurs peuvent rivaliser avec YOLO en termes de latence en temps réel tout en conservant une grande précision spatiale.
Caractéristiques principales :
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Organisation : Baidu
Date : 24 juillet 2024
Arxiv : https://arxiv.org/abs/2407.17140
GitHub : RT-DETR
Architecture et points forts
RTDETRv2 représente une avancée significative pour les transformateurs de vision. Il exploite un processus de sélection de requêtes flexible et un encodeur hybride efficace pour traiter rapidement des caractéristiques multi-échelles. En introduisant un nouveau « bag-of-freebies » spécialement conçu pour les transformateurs de détection (DETR), il repousse les limites du raisonnement spatial. Comme il est nativement NMS, il offre des temps d'inférence déterministes, une caractéristique essentielle pour les applications rigoureuses de ville intelligente et la conduite autonome.
Limites
Malgré ses avancées, RTDETRv2 souffre des inconvénients traditionnels des architectures basées sur des transformateurs. Il nécessite beaucoup plus CUDA pendant l'entraînement et l'inférence que les CNN. De plus, ses temps de convergence d'entraînement sont nettement plus longs, ce qui nécessite de grandes quantités de données annotées de haute qualité (comme COCO ) et d'importantes ressources informatiques.
Comparaison des performances
Lorsque nous comparons ces modèles, nous devons examiner une image globale englobant la précision, la vitesse d'inférence brute et l'empreinte computationnelle. Vous trouverez ci-dessous un tableau comparatif direct.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Interprétation des bancs d'essai
Si RTDETRv2-x revendique la meilleurevaleur mAP absolue avec 54,3 %, il nécessite toutefois une puissance de calcul colossale de 259 milliards de FLOP. À l'inverse, YOLOv7 offrent une excellente base de référence, mais souffrent d NMS héritée qui n'est pas entièrement prise en compte dans les mesures de latence pure du réseau.
Ultralytics : écosystème et évolution
Si YOLOv7 RTDETRv2 offrent des capacités robustes, leur déploiement dans des environnements de production révèle souvent des frictions logistiques. C'est là que Ultralytics excelle. Conçu pour une intégration transparente de bout en bout, le Ultralytics fournit aux développeurs une API unifiée qui élimine les complexités typiques des pipelines de vision par ordinateur.
Une polyvalence et une efficacité mémoire inégalées
Contrairement aux modèles de transformateurs rigides qui consomment d'énormes quantités de VRAM,YOLO Ultralytics maintiennent une efficacité mémoire stricte. Cela permet un apprentissage rapide des modèles sur du matériel accessible. L'écosystème prend en charge de manière inhérente plusieurs tâches de vision par ordinateur à partir d'une base de code unique, notamment la classification d'images et la détection de boîtes englobantes orientées (OBB), offrant une flexibilité qui fait actuellement défaut à RTDETRv2.
Déploiement transparent
Le passage de la recherche à la production nécessite des options de déploiement robustes. Ultralytics gère nativement l'exportation de modèles en un clic vers des formats standard. Que vous cibliez ONNX pour la compatibilité multiplateforme ou TensorRT pour GPU maximale, le pipeline est entièrement automatisé et fiable.
La mise à niveau ultime : Ultralytics
Pour les développeurs qui hésitent entre YOLOv7 RTDETRv2, la solution optimale est en réalité la nouvelle norme en matière d'IA visuelle : Ultralytics . Lancé en janvier 2026, YOLO26 comble le fossé entre la vitesse des CNN et le raisonnement sophistiqué des transformateurs, tout en éliminant complètement leurs faiblesses respectives.
YOLO26 introduit des innovations révolutionnaires adaptées aux déploiements sur serveur et en périphérie :
- Conception NMS de bout en bout : lancée pour la première fois dans YOLOv10, YOLO26 élimine nativement NMS . Cela garantit la latence déterministe de RTDETRv2 sans la charge de calcul fastidieuse d'un transformateur.
- Optimiseur MuSGD : inspiré des techniques d'entraînement des grands modèles linguistiques (tels que Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD Muon. Cela offre une stabilité d'entraînement sans précédent et des temps de convergence nettement plus rapides par rapport AdamW standard utilisées par les ViT.
- ProgLoss + STAL : ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance des petits objets, rivalisant directement avec les avantages des caractéristiques multi-échelles de RTDETRv2, ce qui est essentiel pour l'automatisation robotique.
- Optimisation de la périphérie et suppression du DFL : en supprimant la perte focale de distribution (DFL), YOLO26 rationalise la tête de sortie, ce qui permet d'accélérerjusqu'à 43 % CPU , le rendant ainsi infiniment plus déployable sur les appareils périphériques que les modèles de transformateurs lourds.
Exemple de formation avec Ultralytics
La simplicité dePython Ultralytics vous permet d'entraîner le modèle YOLO26 de pointe avec seulement quelques lignes de code :
from ultralytics import YOLO
# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")
# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)
Cas d'utilisation idéaux
Le choix de l'architecture appropriée dépend fortement des contraintes de déploiement et de la disponibilité du matériel :
Quand envisager YOLOv7:
- Projets de recherche existants dans lesquels YOLOv7 une référence établie.
- Environnements où GPU brute est abondante et où la gigue NMS est acceptable.
Quand envisager RTDETRv2 :
- Déploiements de serveurs haut de gamme nécessitant mAP maximal absolu.
- Scénarios dans lesquels une latence d'inférence déterministe (NMS) est strictement requise, à condition que vous disposiez de la VRAM nécessaire pour prendre en charge son infrastructure de transformateur.
Quand choisir Ultralytics :
- Presque toujours. Il offre le déterminisme NMS de RTDETRv2, dépasse la vitesse et la précision de YOLOv7, utilise beaucoup moins de VRAM et est entièrement intégré à la Ultralytics pour une gestion, un entraînement et un déploiement sans effort des ensembles de données.
Explorer d'autres modèles
Vous souhaitez savoir comment se comparent les autres architectures ? Découvrez nos analyses approfondies des générations précédentes, telles que YOLO11 et YOLOv8, ou découvrez comment tirer parti du réglage des hyperparamètres pour optimiser la précision de votre projet.