Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 vs YOLOv7#

Le paysage de la computer vision s'est considérablement élargi ces dernières années, porté par des innovations continues tant dans les réseaux de neurones convolutionnels (CNN) que dans les Vision Transformers (ViT). Choisir la bonne architecture pour ton déploiement nécessite de comprendre les subtils compromis entre vitesse, précision et charge computationnelle. Ce guide explore les différences techniques entre deux architectures très respectées : RTDETRv2 et YOLOv7, tout en soulignant les avancées modernes disponibles dans le nouveau YOLO26 d'Ultralytics.

Link to this sectionRTDETRv2 : L'approche Transformer pour la détection en temps réel#

RTDETRv2 (Real-Time Detection Transformer version 2) s'appuie sur les bases de son prédécesseur pour prouver que les architectures basées sur les transformers peuvent rivaliser efficacement dans des scénarios en temps réel sans dépendre des étapes traditionnelles de post-traitement.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu Date : 24-07-2024 Arxiv : https://arxiv.org/abs/2407.17140
GitHub : Dépôt RTDETRv2

Link to this sectionPoints forts architecturaux#

RTDETRv2 utilise un encodeur hybride et une architecture de transformer decoder. En tirant parti des mécanismes d'auto-attention, le modèle traite l'image entière de manière holistique, lui permettant de mieux comprendre les relations spatiales complexes que des noyaux de convolution strictement localisés. L'une de ses caractéristiques les plus marquantes est sa conception native sans NMS. En éliminant la Non-Maximum Suppression (NMS), RTDETRv2 supprime un goulot d'étranglement courant qui introduit une inference latency variable lors du déploiement.

Link to this sectionPoints forts et limites#

La force principale de RTDETRv2 réside dans sa capacité à gérer des objets denses et qui se chevauchent dans des scènes complexes. Le contexte global fourni par les couches d'attention du transformer le rend extrêmement précis, particulièrement dans les scénarios où les occlusions sont fréquentes.

Cependant, cela a un coût computationnel. Les modèles de type transformer nécessitent traditionnellement une empreinte mémoire plus importante lors de l'entraînement et de l'inférence par rapport aux CNN. De plus, RTDETRv2 nécessite généralement plus d'époques pour converger lors d'un distributed training, ce qui entraîne des cycles d'itération plus longs pour les développeurs qui ajustent des jeux de données personnalisés.

En savoir plus sur RTDETRv2

Link to this sectionYOLOv7 : Un baseline CNN pour la vitesse#

Sorti un an avant RTDETRv2, YOLOv7 a introduit plusieurs optimisations structurelles au framework YOLO classique, établissant une référence solide pour les détecteurs en temps réel basés sur CNN au moment de sa publication.

Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institute of Information Science, Academia Sinica, Taïwan
Date : 06-07-2022
Arxiv : https://arxiv.org/abs/2207.02696
GitHub : Dépôt YOLOv7

Link to this sectionPoints forts architecturaux#

L'architecture de YOLOv7 est construite autour du concept d'Extended Efficient Layer Aggregation Network (E-ELAN). Cette approche optimise le chemin du gradient, permettant au modèle d'apprendre plus efficacement sans augmenter de manière significative la complexité computationnelle. Les auteurs ont également introduit des « bag-of-freebies » entraînables, un ensemble de méthodes qui améliorent la model accuracy pendant l'entraînement sans affecter la vitesse d'inférence sur les appareils Edge.

Link to this sectionPoints forts et limites#

YOLOv7 reste un modèle très performant pour les tâches standard d'object detection, offrant d'excellentes vitesses de traitement sur les GPU grand public. Sa nature CNN signifie qu'il nécessite généralement moins de mémoire CUDA lors de l'entraînement par rapport aux modèles basés sur les transformers comme RTDETRv2.

Malgré ces avantages, YOLOv7 repose toujours sur la NMS pour le post-traitement. Dans des environnements avec une forte densité de prédictions, l'étape de NMS peut provoquer des fluctuations dans le temps de traitement, rendant les garanties strictes de temps réel difficiles. De plus, par rapport aux frameworks modernes, le processus de gestion de tâches variées comme l'instance segmentation et la pose estimation peut être fragmenté.

En savoir plus sur YOLOv7

Link to this sectionComparaison des performances#

Évaluer ces modèles nécessite d'examiner l'équilibre délicat entre la mean Average Precision (mAP), le nombre de paramètres et la vitesse d'inférence.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053,1-11.5771.3189.9
Contexte de performance

Alors que RTDETRv2-x atteint la mAP la plus élevée, il possède également le plus grand nombre de paramètres et de FLOPs. Des variantes plus petites comme RTDETRv2-s offrent une vitesse compétitive sur TensorRT, mais les utilisateurs ciblant des environnements à faible consommation sans GPU dédiés doivent évaluer soigneusement les capacités d'inférence CPU.

Link to this sectionLa solution moderne : L'arrivée de YOLO26#

Alors que RTDETRv2 et YOLOv7 ont été cruciaux pour repousser les limites des computer vision applications, le paysage de l'IA évolue rapidement. Sorti en janvier 2026, YOLO26 synthétise les meilleurs aspects de l'efficacité des CNN et des architectures sans NMS de type transformer.

Pour les développeurs et chercheurs qui construisent de nouveaux systèmes, l'Ultralytics Platform intégrée et l'écosystème Python offrent une expérience unifiée qui réduit considérablement la dette technique.

Link to this sectionInnovations clés dans YOLO26#

  • Conception end-to-end sans NMS : YOLO26 est nativement end-to-end, éliminant le post-traitement NMS pour un déploiement plus rapide et plus simple. Cette approche révolutionnaire a été introduite pour la première fois dans YOLOv10, garantissant une latence stable quelle que soit la densité des objets.
  • Jusqu'à 43 % d'inférence CPU plus rapide : Spécifiquement optimisé pour l'edge computing et les appareils sans GPU, ce qui le rend beaucoup plus polyvalent pour les déploiements sur le terrain que les modèles lourds de type transformer.
  • Optimiseur MuSGD : Un hybride de SGD et Muon (inspiré par le Kimi K2 de Moonshot AI), apportant des innovations d'entraînement LLM à la vision par ordinateur pour un entraînement plus stable et une convergence plus rapide.
  • Suppression de DFL : La Distribution Focal Loss a été supprimée, ce qui donne un graphe computationnel simplifié pour une exportation plus fluide vers les NPU embarqués et les environnements TensorRT.
  • ProgLoss + STAL : Des fonctions de perte améliorées apportent des améliorations notables dans la reconnaissance des petits objets, ce qui est critique pour la robotics, l'IoT et l'analyse d'imagerie aérienne.
  • Améliorations spécifiques aux tâches : YOLO26 n'est pas seulement destiné à la détection. Il comprend des prototypes multi-échelle pour la segmentation, une estimation de log-vraisemblance résiduelle (RLE) pour le suivi de pose, et une perte d'angle spécialisée traitant les problèmes de bordure pour les oriented bounding box (OBB).

Link to this sectionUne expérience développeur rationalisée#

Le véritable avantage de choisir un modèle Ultralytics comme YOLO26 (ou le très populaire YOLO11) est l'écosystème bien maintenu. L'entraînement d'un jeu de données personnalisé nécessite un minimum de code standard :

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

En savoir plus sur YOLO26

Link to this sectionCas d'utilisation et applications idéaux#

Le choix entre ces architectures dépend fortement du matériel cible et des exigences opérationnelles spécifiques.

Link to this sectionQuand envisager RTDETRv2#

RTDETRv2 est très efficace dans les environnements de server-side processing équipés de GPU puissants. Son mécanisme d'attention globale le rend approprié pour la compréhension de scènes complexes, comme la surveillance d'événements très fréquentés ou l'imagerie médicale spécialisée où les caractéristiques qui se chevauchent nécessitent une analyse contextuelle approfondie.

Link to this sectionQuand considérer YOLOv7#

YOLOv7 est souvent maintenu dans la recherche académique comme modèle de comparaison de base. On le trouve également dans d'anciens déploiements industriels où les pipelines existants sont codés en dur pour des versions spécifiques de PyTorch et ne nécessitent pas la flexibilité multi-tâches des frameworks plus récents.

Link to this sectionPourquoi YOLO26 est le standard recommandé#

Pour l'infrastructure moderne de smart city, la drone navigation et la fabrication à haute vitesse, YOLO26 offre un équilibre inégalé. Ses besoins en mémoire plus faibles rendent le hyperparameter tuning et l'entraînement accessibles sur du matériel grand public, tandis que son inférence sans NMS garantit une exécution rapide sur des appareils Edge contraints comme le Raspberry Pi ou NVIDIA Jetson.

Explore plus de comparaisons

Curieux de savoir comment ces modèles se comparent à d'autres architectures ? Consulte nos guides détaillés sur YOLO11 vs. RTDETR et YOLOv8 vs. YOLOv7 pour trouver l'ajustement parfait pour ton projet d'IA visuelle.

Commentaires