YOLOv7 vs RT-DETRv2 : Une comparaison technique détaillée

Choisir le bon modèle de détection d'objets est une décision essentielle pour tout projet de vision par ordinateur, car elle permet d'équilibrer les compromis entre la précision, la vitesse et le coût de calcul. Cette page fournit une comparaison technique complète entre YOLOv7, un détecteur basé sur CNN très efficace, et RT-DETRv2, un modèle de pointe basé sur un transformateur. Nous examinerons en profondeur leurs différences architecturales, leurs bancs d'essai de performance et leurs cas d'utilisation idéaux afin de vous aider à faire un choix éclairé.

YOLOv7 : Optimisé pour la vitesse et la précision

YOLOv7 représente une étape importante dans la série YOLO, introduisant de nouvelles stratégies d'entraînement et des optimisations architecturales pour établir une nouvelle norme pour la détection d'objets en temps réel au moment de sa sortie.

Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub : https://github.com/WongKinYiu/yolov7
Docs : https://docs.ultralytics.com/models/yolov7/

Architecture et principales fonctionnalités

L'architecture de YOLOv7 repose sur une base CNN puissante, intégrant plusieurs innovations clés pour améliorer les performances sans augmenter les coûts d'inférence. Son backbone comprend un Extended Efficient Layer Aggregation Network (E-ELAN), qui améliore la capacité du réseau à apprendre diverses caractéristiques. Une contribution majeure est le concept de "trainable bag-of-freebies", qui comprend des techniques d'optimisation avancées appliquées pendant l'entraînement—telles que les têtes auxiliaires et l'attribution de labels guidée du grossier au fin—pour améliorer la précision du modèle final. Ces stratégies permettent à YOLOv7 d'atteindre un équilibre remarquable entre vitesse et précision.

Performance et cas d'utilisation

YOLOv7 est réputé pour ses performances exceptionnelles sur le matériel GPU, offrant un nombre élevé d'images par seconde (FPS) pour l'inférence en temps réel. Cela en fait un excellent choix pour les applications où une faible latence est essentielle.

Points forts :
- Excellent compromis vitesse-précision : Fournit une combinaison solide de mAP et de vitesse d’inférence, idéale pour les tâches en temps réel.
- Entraînement efficace : Tire parti du « bag-of-freebies » pour améliorer la précision sans ajouter de surcharge de calcul pendant l'inférence.
- Performance éprouvée : Établi et bien évalué sur des ensembles de données standard comme MS COCO.
Faiblesses :
- Complexité : L’architecture et les techniques d’entraînement avancées peuvent être complexes à comprendre et à personnaliser entièrement.
- Gourmand en ressources : Les modèles YOLOv7 plus grands nécessitent des ressources GPU importantes pour l'entraînement.
- Polyvalence limitée : Principalement conçu pour la détection d'objets, avec des extensions pilotées par la communauté pour d'autres tâches, contrairement aux modèles dotés d'une prise en charge multitâche intégrée.

En savoir plus sur YOLOv7

RT-DETRv2 : Real-Time Detection Transformer v2

RT-DETRv2 (Real-Time Detection Transformer v2) est un détecteur d'objets de pointe de Baidu qui exploite la puissance des transformateurs pour atteindre une haute précision tout en maintenant une performance en temps réel.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 2023-04-17
Arxiv: https://arxiv.org/abs/2304.08069
GitHub : https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch

Architecture et principales fonctionnalités

RT-DETRv2 est basé sur l'architecture Vision Transformer (ViT), ce qui lui permet de capturer le contexte global et les relations au sein d'une image plus efficacement que les CNN traditionnels. Il emploie une conception hybride, utilisant un backbone CNN pour l'extraction initiale de caractéristiques et un encodeur-décodeur basé sur un transformateur pour la détection. Ce modèle est également sans ancrage, ce qui simplifie le pipeline de détection en éliminant le besoin de boîtes d'ancrage prédéfinies, comme les modèles tels que YOLOX.

Performance et cas d'utilisation

L'avantage principal de RT-DETRv2 est sa haute précision, en particulier pour la détection d'objets dans des scènes complexes avec une occlusion ou un encombrement importants.

Points forts :
- Haute précision : L’architecture Transformer permet une précision supérieure de la détection d’objets en traitant efficacement le contexte global de l’image.
- Représentation Robuste des Caractéristiques : Excelle dans la compréhension des détails complexes et des relations entre les objets.
Faiblesses :
- Coût de calcul élevé : Les modèles basés sur des transformateurs comme RT-DETRv2 sont gourmands en calcul, en particulier pendant l'entraînement. Ils nécessitent généralement beaucoup plus de mémoire CUDA et des temps d'entraînement plus longs que les modèles basés sur CNN.
- Inférence plus lente sur certains matériels : Bien qu’optimisé pour les performances en temps réel, il peut ne pas égaler la vitesse brute des CNN hautement optimisés comme YOLOv7 sur toutes les configurations matérielles.

En savoir plus sur RT-DETR

Comparaison des performances : YOLOv7 vs RT-DETRv2

Le tableau ci-dessous fournit une comparaison quantitative de différentes variantes de modèles. RT-DETRv2-x atteint le mAP le plus élevé, mais cela se fait au prix de plus de paramètres, de FLOPs plus élevés et d'une vitesse d'inférence plus lente par rapport à YOLOv7x. YOLOv7 offre un profil plus équilibré, ce qui en fait un concurrent sérieux pour les applications qui nécessitent à la fois une vitesse élevée et une forte précision.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Pourquoi choisir les modèles Ultralytics YOLO ?

Bien que YOLOv7 et RT-DETRv2 soient des modèles puissants, les modèles Ultralytics YOLO plus récents comme YOLOv8 et le dernier Ultralytics YOLO11 offrent une solution plus moderne, polyvalente et conviviale pour les développeurs.

Facilité d'utilisation : Les modèles Ultralytics sont conçus pour offrir une expérience utilisateur simplifiée, avec une API Python simple, une documentation complète et des commandes CLI directes.
Écosystème bien maintenu : Bénéficiez d'un développement actif, d'une communauté open source robuste, de mises à jour fréquentes et d'une intégration transparente avec des outils tels que Ultralytics HUB pour un MLOps de bout en bout.
Équilibre des performances : Les modèles Ultralytics offrent un excellent compromis entre la vitesse et la précision, ce qui les rend adaptés à un large éventail de scénarios réels, des appareils d’IA en périphérie aux serveurs cloud.
Efficacité de la mémoire : Les modèles Ultralytics YOLO sont optimisés pour une utilisation efficace de la mémoire. Ils nécessitent généralement moins de mémoire CUDA pour l’entraînement et l’inférence par rapport aux modèles basés sur les transformeurs comme RT-DETR, qui sont connus pour être gourmands en mémoire et plus lents à entraîner.
Polyvalence : Les modèles tels que YOLOv8 et YOLO11 sont de véritables cadres multitâches, prenant en charge la détection d’objets, la segmentation, la classification, l’estimation de pose et la détection d’objets orientés (OBB) prêtes à l’emploi.
Efficacité de l'entraînement : Bénéficiez de processus d'entraînement efficaces avec des poids pré-entraînés facilement disponibles sur des ensembles de données tels que COCO, ce qui permet une convergence plus rapide et un temps de développement réduit.

Conclusion

YOLOv7 et RT-DETRv2 sont tous deux des modèles de détection d'objets redoutables, chacun ayant des avantages distincts. YOLOv7 excelle dans les applications exigeant une vitesse en temps réel sur les GPU, offrant un équilibre fantastique entre performance et efficacité. RT-DETRv2 repousse les limites de la précision, ce qui en fait le choix préféré pour les scénarios où la précision est primordiale et où les ressources de calcul sont moins contraignantes, comme dans l'IA dans les voitures autonomes ou l'analyse d'imagerie médicale.

Cependant, pour les développeurs et les chercheurs à la recherche d'une solution tout-en-un moderne, les modèles Ultralytics tels que YOLOv8 et YOLO11 présentent souvent l'option la plus intéressante. Ils combinent des performances de pointe avec une facilité d'utilisation exceptionnelle, des besoins en mémoire réduits, une polyvalence multitâche et un écosystème complet et bien pris en charge, ce qui en fait le choix idéal pour un large éventail de projets de vision par ordinateur.

Autres comparaisons de modèles

Pour une exploration plus approfondie, consultez ces comparaisons impliquant YOLOv7, RT-DETR et d'autres modèles de pointe :

YOLOv7 contre YOLOv8
YOLOv7 contre YOLOv5
RT-DETR vs YOLOv8
RT-DETR vs YOLOX
Explorez les derniers modèles comme YOLOv10 et YOLO11.

📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

YOLOv7 vs RT-DETRv2 : Une comparaison technique détaillée

YOLOv7 : Optimisé pour la vitesse et la précision

Architecture et principales fonctionnalités

Performance et cas d'utilisation

RT-DETRv2 : Real-Time Detection Transformer v2

Architecture et principales fonctionnalités

Performance et cas d'utilisation

Comparaison des performances : YOLOv7 vs RT-DETRv2

Pourquoi choisir les modèles Ultralytics YOLO ?

Conclusion

Autres comparaisons de modèles

Commentaires