YOLOX vs. RTDETRv2 : Une comparaison technique pour la détection d'objets

Dans le paysage en évolution rapide de la vision par ordinateur, le choix de la bonne architecture pour votre projet implique souvent un compromis complexe entre la vitesse d'inférence, la précision et l'efficacité des ressources informatiques. Cette comparaison explore deux approches distinctes de la détection d'objets: YOLOX, un CNN sans ancrage très performant, et RTDETRv2, un transformateur de détection en temps réel de pointe.

Alors que YOLOX représentait un changement significatif vers des méthodologies sans ancrage dans la famille YOLO , RTDETRv2 exploite la puissance des transformateurs de vision (ViT) pour capturer le contexte global, défiant ainsi les réseaux neuronaux convolutionnels (CNN) traditionnels. Ce guide analyse leurs architectures, leurs performances et les cas d'utilisation idéaux pour vous aider à prendre une décision éclairée.

Analyse des performances : Vitesse vs. Précision

Les mesures de performance ci-dessous illustrent les philosophies de conception fondamentales de ces deux modèles. RTDETRv2 atteint généralement une précision moyenne plus élevée (mAP) en utilisant les mécanismes d'attention pour comprendre des scènes complexes. Cependant, cette précision s'accompagne souvent d'une augmentation des coûts de calcul. YOLOX, en particulier dans ses variantes les plus petites, donne la priorité à une faible latence d'inférence et à une exécution efficace sur du matériel standard.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Comme le montre le tableau, RTDETRv2-x atteint la plus grande précision avec un mAP de 54,3, surpassant la plus grande variante de YOLOX. À l'inverse, YOLOX-s fait preuve d'une vitesse supérieure sur le matériel GPU , ce qui le rend très efficace pour les applications sensibles à la latence.

YOLOX : Efficacité sans ancrage

YOLOX affine la série YOLO en passant à un mécanisme sans ancrage et en découplant la tête de détection. En supprimant le besoin de boîtes d'ancrage prédéfinies, YOLOX simplifie le processus de formation et améliore la généralisation à différentes formes d'objets.

Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, et Jian Sun
Organisation:Megvii
Date : 2021-07-18
Arxiv:YOLOX : Dépassement de la série YOLO en 2021

Principaux points forts

Conception sans ancrage : Élimine le réglage manuel des hyperparamètres d'ancrage, ce qui réduit la complexité de la conception.
Tête découplée : sépare les tâches de classification et de régression, ce qui permet au modèle de converger plus rapidement et d'atteindre une meilleure précision.
SimOTA : une stratégie avancée d'attribution d'étiquettes qui attribue dynamiquement des échantillons positifs, améliorant ainsi la stabilité de l'apprentissage.

Faiblesses

Architecture vieillissante : Sortie en 2021, elle ne dispose pas de certaines optimisations modernes que l'on trouve dans des versions plus récentes telles que YOLO11.
Prise en charge limitée des tâches : Principalement axé sur la détection, il ne prend pas en charge la segmentation ou l'estimation de la pose dans le même cadre.

En savoir plus sur YOLOX

RTDETRv2 : La centrale de transformation

RTDETRv2 (Real-Time Detection Transformer version 2) représente une avancée dans l'application des architectures de transformateurs à la détection d'objets en temps réel. Il s'attaque au coût de calcul élevé généralement associé aux transformateurs en introduisant un codeur hybride efficace.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, et Yi Liu
Organisation:Baidu
Date : 2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2: Base améliorée avec Bag-of-Freebies

Principaux points forts

Contexte global : Le mécanisme d'auto-attention permet au modèle de comprendre les relations entre des objets éloignés dans une image, ce qui réduit les faux positifs dans les scènes complexes.
Précision élevée : Obtention systématique de scores mAP plus élevés que les modèles à base de CNN d'échelle similaire.
Aucun NMS n'est nécessaire : L'architecture du transformateur élimine naturellement les détections de doublons, ce qui rend inutile le post-traitement de suppression non maximale (NMS).

Faiblesses

Intensité de la mémoire : Nécessite beaucoup plus de VRAM GPU pendant l'entraînement que les CNN, ce qui rend l'entraînement plus difficile sur du matériel grand public.
LatenceCPU : Bien qu'optimisées pour le GPU, les opérations de Transformer peuvent être plus lentes sur les appareils périphériques équipés CPU, par rapport aux CNN légers tels que YOLOX-Nano.

En savoir plus sur RTDETRv2

Cas d'utilisation idéaux

Le choix entre ces modèles dépend souvent des contraintes spécifiques de l'environnement de déploiement.

Choisissez YOLOX si : Vous déployez des appareils périphériques aux ressources limitées, comme le Raspberry Pi ou les téléphones portables, où chaque milliseconde de latence compte. Il est également excellent pour les lignes d'inspection industrielles où les objets sont rigides et prévisibles.
Choisissez RTDETRv2 si : Vous avez accès à des GPU puissants (comme NVIDIA T4 ou A100) et la précision est primordiale. Il excelle dans les scènes encombrées, la conduite autonome ou la surveillance aérienne où le contexte et les relations entre les objets sont critiques.

Optimisation du déploiement

Quel que soit le modèle choisi, l'utilisation de cadres d'optimisation tels que TensorRT ou OpenVINO est essentielle pour atteindre des vitesses en temps réel dans les environnements de production. Les deux modèles bénéficient considérablement de la quantification en FP16 ou INT8.

Pourquoi les modèlesYOLO d'Ultralytics sont le meilleur choix

Si YOLOX et RTDETRv2 sont impressionnants, l'écosystèmeYOLO d'Ultralytics , dont le fer de lance est YOLO11offre une solution plus globale aux développeurs et aux chercheurs. Ultralytics donne la priorité à l'expérience de l'utilisateur, en veillant à ce que l'IA de pointe soit accessible, efficace et polyvalente.

1. Polyvalence et écosystème inégalés

Contrairement à YOLOX, qui est avant tout un modèle de détection, Ultralytics YOLO11 supporte nativement un large éventail de tâches de vision artificielle, y compris la segmentation d'instances, l'estimation de la pose, la classification et la détection de boîtes de délimitation orientées (OBB). Cela vous permet de résoudre plusieurs problèmes avec une API unique et unifiée.

2. Facilité d'utilisation et d'entretien

Le package Ultralytics simplifie le monde complexe des MLOps. Grâce à une base de code bien entretenue, à des mises à jour fréquentes et à une documentation complète, les utilisateurs peuvent passer de l'installation à la formation en quelques minutes.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
train_results = model.train(
    data="coco8.yaml",  # path to dataset YAML
    epochs=100,  # number of training epochs
    imgsz=640,  # training image size
    device="cpu",  # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)

# Evaluate model performance on the validation set
metrics = model.val()

3. Efficacité de la formation et empreinte mémoire

L'un des principaux avantages des modèlesYOLO d'Ultralytics est leur efficacité. Les modèles basés sur les transformateurs comme RTDETRv2 sont connus pour être gourmands en données et en mémoire, et nécessitent souvent des GPU haut de gamme avec une VRAM massive pour l'entraînement. En revanche, les modèlesYOLO d'Ultralytics sont optimisés pour s'entraîner efficacement sur une plus large gamme de matériel, y compris les GPU grand public, tout en utilisant moins de mémoire CUDA . Cette efficacité d'entraînement démocratise l'accès à l'IA haute performance.

4. Équilibre des performances

Les modèles Ultralytics sont conçus pour atteindre le "sweet spot" entre vitesse et précision. Pour la plupart des applications réelles, de l'analyse de la vente au détail à la surveillance de la sécurité, YOLO11 offre une précision comparable à celle des Transformers tout en conservant les vitesses d'inférence ultrarapides requises pour les flux vidéo en direct.

Conclusion

YOLOX et RTDETRv2 ont tous deux contribué de manière significative au domaine de la vision par ordinateur. YOLOX reste un choix solide pour les anciens systèmes embarqués soumis à des contraintes strictes, tandis que RTDETRv2 repousse les limites de la précision pour le matériel haut de gamme.

Cependant, pour la majorité des développeurs à la recherche d'une solution pérenne, polyvalente et facile à utiliser, Ultralytics YOLO11 s'impose comme le premier choix. Sa combinaison de faibles besoins en mémoire, d'un support de tâches étendu et d'une communauté florissante garantit que votre projet est construit sur une base de fiabilité et de performance.

Explorer d’autres comparaisons

Pour affiner votre choix de modèle, vous pouvez consulter les comparaisons techniques suivantes :

YOLOX vs. RTDETRv2 : Une comparaison technique pour la détection d'objets

Analyse des performances : Vitesse vs. Précision

YOLOX : Efficacité sans ancrage

Principaux points forts

Faiblesses

RTDETRv2 : La centrale de transformation

Principaux points forts

Faiblesses

Cas d'utilisation idéaux

Pourquoi les modèlesYOLO d'Ultralytics sont le meilleur choix

1. Polyvalence et écosystème inégalés

2. Facilité d'utilisation et d'entretien

3. Efficacité de la formation et empreinte mémoire

4. Équilibre des performances

Conclusion

Explorer d’autres comparaisons

Commentaires