Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 vs RTDETRv2 : Une comparaison technique pour la détection d'objets en temps réel#

Le paysage de la vision par ordinateur continue d'évoluer rapidement, fortement influencé par la concurrence entre les réseaux de neurones convolutifs (CNN) et les Vision Transformers (ViTs). Cette comparaison technique explore deux architectures poids lourds : YOLOv7, un détecteur d'objets basé sur les CNN hautement optimisé, et RTDETRv2, un Real-Time Detection Transformer de pointe.

En analysant leurs différences architecturales, leurs mesures de performance et leurs scénarios de déploiement idéaux, tu peux prendre des décisions éclairées lors de l'intégration de ces modèles d'IA visuelle dans tes pipelines de production.

Link to this sectionYOLOv7 : L'architecture CNN "Bag-of-Freebies"#

YOLOv7 a introduit plusieurs optimisations structurelles qui ont changé la donne pour la famille YOLO traditionnelle, repoussant les limites de la détection d'objets en temps réel grâce à une série de « trainable bag-of-freebies ».

Caractéristiques clés : Auteurs : Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organisation : Institute of Information Science, Academia Sinica
Date : 2022-07-06
Arxiv : https://arxiv.org/abs/2207.02696
GitHub : WongKinYiu/yolov7

Link to this sectionArchitecture et points forts#

YOLOv7 prospère grâce à son architecture E-ELAN (Extended Efficient Layer Aggregation Network). Cette conception structurelle permet au modèle d'apprendre des caractéristiques plus diversifiées sans détruire le chemin de gradient d'origine. De plus, il intègre des convolutions reparamétrées planifiées, qui optimisent la vitesse d'inférence sans dégrader la précision. Son approche « trainable bag-of-freebies » lui permet d'atteindre des compromis impressionnants entre vitesse et précision, ce qui le rend très adapté aux tâches de détection d'objets en temps réel sur des GPU de classe serveur.

YOLOv7 est également très polyvalent. Au-delà de la détection standard par boîte englobante, le dépôt propose des branches pour l'estimation de pose et la segmentation d'instance, démontrant son adaptabilité.

Link to this sectionLimites#

Comme beaucoup de modèles CNN hérités, YOLOv7 s'appuie sur le NMS (Non-Maximum Suppression) pour le post-traitement. Le NMS introduit une latence variable, surtout dans les scènes encombrées, ce qui peut compliquer les garanties strictes de temps réel sur les appareils de périphérie.

En savoir plus sur YOLOv7

Link to this sectionRTDETRv2 : Faire progresser les Transformers en temps réel#

RTDETRv2 s'appuie sur le framework RT-DETR original, confirmant davantage que les transformers peuvent rivaliser avec les architectures YOLO en termes de latence en temps réel tout en conservant une précision spatiale élevée.

Caractéristiques clés : Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Organisation : Baidu
Date : 2024-07-24
Arxiv : https://arxiv.org/abs/2407.17140
GitHub : lyuwenyu/RT-DETR

Link to this sectionArchitecture et points forts#

RTDETRv2 représente une avancée significative pour les Vision Transformers. Il tire parti d'un processus de sélection de requêtes flexible et d'un encodeur hybride efficace pour traiter rapidement des caractéristiques multi-échelles. En introduisant un nouveau « bag-of-freebies » conçu spécifiquement pour les Detection Transformers (DETRs), il repousse les limites du raisonnement spatial. Comme il est nativement sans NMS, il offre des temps d'inférence déterministes, une fonctionnalité critique pour les applications de ville intelligente rigoureuses et la conduite autonome.

Link to this sectionLimites#

Malgré ses avancées, RTDETRv2 porte les fardeaux traditionnels des architectures basées sur les transformers. Il exige une mémoire CUDA nettement plus importante pendant l'entraînement et l'inférence par rapport aux CNN. De plus, ses temps de convergence à l'entraînement sont sensiblement plus longs, nécessitant de vastes quantités de données annotées de haute qualité (comme le jeu de données COCO) et des ressources informatiques lourdes.

En savoir plus sur RTDETRv2

Link to this sectionComparaison des performances#

Lors de l'évaluation de ces modèles, nous devons adopter une vision globale englobant la précision, la vitesse d'inférence brute et l'empreinte informatique. Voici un tableau comparatif direct.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053,1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Interprétation des benchmarks

Bien que RTDETRv2-x revendique le mAPval le plus élevé à 54,3 %, il nécessite 259 milliards de FLOPs. À l'inverse, les architectures YOLOv7 fournissent une excellente base de référence mais souffrent de la surcharge du NMS hérité, qui n'est pas entièrement capturée dans les mesures de latence pure du réseau.

Link to this sectionL'avantage Ultralytics : Écosystème et évolution#

Bien que YOLOv7 et RTDETRv2 offrent des capacités robustes, leur déploiement dans des environnements de production révèle souvent des frictions logistiques. C'est là que l'écosystème Ultralytics excelle. Conçu pour une intégration transparente de bout en bout, le framework Ultralytics fournit aux développeurs une API unifiée qui abstrait les complexités typiques des pipelines de vision par ordinateur.

Link to this sectionPolyvalence et efficacité mémoire inégalées#

Contrairement aux modèles de transformer rigides qui consomment d'énormes quantités de VRAM, les modèles YOLO d'Ultralytics maintiennent une efficacité mémoire stricte. Cela permet un entraînement de modèle rapide sur du matériel accessible. L'écosystème prend nativement en charge plusieurs tâches de vision par ordinateur à partir d'une seule base de code, y compris la classification d'images et la détection par boîte englobante orientée (OBB), offrant une flexibilité qui manque actuellement à RTDETRv2.

Link to this sectionDéploiement transparent#

Passer de la recherche à la production nécessite des options de déploiement robustes. L'API Ultralytics gère nativement l'exportation de modèles en un clic vers des formats standards de l'industrie. Que tu vises ONNX pour la compatibilité multiplateforme ou TensorRT pour une accélération GPU maximale, le pipeline est entièrement automatisé et fiable.

Link to this sectionLa mise à niveau ultime : Ultralytics YOLO26#

Pour les développeurs qui hésitent entre YOLOv7 et RTDETRv2, la voie optimale à suivre est en réalité le nouveau standard de l'IA visuelle : Ultralytics YOLO26. Sorti en janvier 2026, YOLO26 comble le fossé entre la vitesse des CNN et le raisonnement sophistiqué des transformers, tout en éliminant complètement leurs faiblesses respectives.

En savoir plus sur YOLO26

YOLO26 introduit des innovations révolutionnaires conçues pour les déploiements sur serveur et en périphérie :

  • Conception de bout en bout sans NMS : Introduit pour la première fois dans YOLOv10, YOLO26 élimine nativement le post-traitement NMS. Cela garantit la latence déterministe de RTDETRv2 sans la charge de calcul lourde d'un transformer.
  • Optimiseur MuSGD : Inspiré par les techniques d'entraînement des grands modèles de langage (telles que le Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD et de Muon. Cela offre une stabilité d'entraînement sans précédent et des temps de convergence nettement plus rapides par rapport aux implémentations AdamW standard utilisées par les ViTs.
  • ProgLoss + STAL : Ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance de petits objets, rivalisant directement avec les avantages des caractéristiques multi-échelles de RTDETRv2, ce qui est essentiel pour l'automatisation robotique.
  • Optimisation en périphérie et suppression du DFL : En supprimant le Distribution Focal Loss (DFL), YOLO26 rationalise la tête de sortie, conduisant à une inférence CPU jusqu'à 43 % plus rapide, le rendant infiniment plus déployable sur des appareils de périphérie que les modèles de transformer lourds.

Link to this sectionExemple d'entraînement avec Ultralytics#

La simplicité de l'API Python d'Ultralytics te permet d'entraîner le modèle de pointe YOLO26 avec seulement quelques lignes de code :

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

Link to this sectionCas d'utilisation idéaux#

Le choix de l'architecture dépend fortement des contraintes de déploiement et de la disponibilité du matériel :

Quand considérer YOLOv7 :

  • Projets de recherche hérités où YOLOv7 est une référence établie.
  • Environnements où l'accélération GPU brute est abondante et où la gigue de latence NMS est acceptable.

Quand considérer RTDETRv2 :

  • Déploiements sur serveur haut de gamme nécessitant un mAP maximal absolu.
  • Scénarios où une latence d'inférence déterministe (sans NMS) est strictement requise, à condition d'avoir la VRAM nécessaire pour supporter son backbone de transformer.

Quand choisir Ultralytics YOLO26 :

  • Presque toujours. Il offre le déterminisme sans NMS de RTDETRv2, dépasse la vitesse et la précision de YOLOv7, utilise beaucoup moins de VRAM et est entièrement intégré à la plateforme Ultralytics pour une gestion des données, un entraînement et un déploiement sans effort.
Explorer plus de modèles

Tu souhaites savoir comment les autres architectures se comparent ? Explore nos analyses approfondies sur les générations précédentes comme YOLO11 et YOLOv8, ou apprends à tirer parti du réglage des hyperparamètres pour maximiser la précision de ton projet.

Commentaires