Meet YOLO26: next-gen vision AI.

Link to this sectionEfficientDet vs RTDETRv2 : Une comparaison approfondie des architectures de détection d'objets#

Choisir l'architecture optimale pour tes projets de computer vision nécessite de naviguer dans un paysage diversifié de réseaux neuronaux. Ce guide explore une comparaison technique détaillée entre deux approches distinctes : EfficientDet, une famille de réseaux neuronaux convolutifs (CNN) hautement évolutive, et RTDETRv2, un modèle transformer temps réel de pointe. Nous évaluons leurs différences structurelles, leurs méthodologies d'entraînement et leur adéquation au déploiement sur divers environnements matériels.

En comprenant les compromis entre l'efficacité héritée du passé et les capacités modernes des transformers, tu peux prendre des décisions éclairées. De plus, nous explorerons comment les alternatives modernes comme le nouveau Ultralytics YOLO26 comblent le fossé, en offrant une vitesse, une précision et une facilité d'utilisation inégalées.

Link to this sectionComprendre EfficientDet#

EfficientDet a révolutionné la détection d'objets en introduisant une approche rigoureuse du redimensionnement des modèles.

Link to this sectionArchitecture et concepts fondamentaux#

Dans son fonctionnement, EfficientDet utilise EfficientNet comme squelette (backbone) et introduit le réseau pyramidal de caractéristiques bidirectionnel (BiFPN). Le BiFPN permet une fusion multi-échelle des caractéristiques facile et rapide en appliquant des poids apprenables pour déterminer l'importance des différentes caractéristiques d'entrée. Ceci est combiné à une méthode de mise à l'échelle composée qui ajuste uniformément la résolution, la profondeur et la largeur pour tous les réseaux de squelette, de caractéristiques, et de prédiction de boîte/classe simultanément.

Link to this sectionPoints forts et limites#

La force principale d'EfficientDet réside dans son efficacité en termes de paramètres. Au moment de sa sortie, des modèles comme EfficientDet-D0 atteignaient une précision plus élevée avec moins de paramètres et de FLOPs par rapport aux versions précédentes de YOLO. Cela le rendait très attractif pour les environnements avec des limites de calcul strictes.

Cependant, EfficientDet s'appuie sur la suppression non-maximale (NMS) standard lors du post-traitement pour filtrer les boîtes englobantes qui se chevauchent, ce qui peut introduire des goulots d'étranglement de latence dans les pipelines temps réel. De plus, bien que le processus d'entraînement soit bien documenté, le réglage fin d'EfficientDet peut être fastidieux comparé aux expériences développeurs hautement optimisées trouvées dans les outils modernes.

En savoir plus sur EfficientDet

Prise en charge des anciens modèles

Bien qu'EfficientDet ait ouvert la voie à des réseaux évolutifs, le déploiement de ces modèles sur des NPU modernes nécessite souvent une optimisation manuelle importante. Pour des déploiements rationalisés, les nouveaux modèles Ultralytics offrent une fonctionnalité d'exportation en 1 clic.

Link to this sectionExplorer RTDETRv2#

RTDETRv2 représente l'évolution des architectures basées sur les transformers, déplaçant le paradigme loin des CNN traditionnels basés sur des ancres.

Link to this sectionAvancées dans les transformers#

RTDETRv2 s'appuie sur la base du Real-Time Detection Transformer (RT-DETR). Il exploite des mécanismes d'attention globale, permettant au modèle de comprendre des contextes de scène complexes sans les contraintes localisées des convolutions standard. L'avantage architectural le plus significatif est sa conception native sans NMS. En prédisant les objets directement à partir de l'image d'entrée, il simplifie le pipeline d'inférence, évitant le réglage heuristique requis par le post-traitement NMS.

Link to this sectionPoints forts et faiblesses#

RTDETRv2 excelle dans les environnements à haute densité où les objets qui se chevauchent perturbent les CNN traditionnels. Il est extrêmement précis sur des datasets de référence complexes comme COCO.

Malgré sa précision, les modèles de type transformer demandent naturellement une mémoire importante. L'efficacité de l'entraînement est nettement inférieure ; il nécessite beaucoup plus d'époques et des empreintes mémoire CUDA plus élevées pour converger par rapport aux CNN. Cela rend RTDETRv2 moins idéal pour les développeurs opérant avec des budgets cloud limités ou pour ceux ayant besoin d'un prototypage rapide.

En savoir plus sur RTDETRv2

Contraintes de mémoire des transformers

L'entraînement de modèles transformer comme RTDETRv2 nécessite généralement des GPU haut de gamme. Si tu rencontres des erreurs de type Out-Of-Memory (OOM), envisage d'utiliser des modèles avec des exigences mémoire plus faibles lors de l'entraînement, comme la série Ultralytics YOLO.

Link to this sectionComparaison des benchmarks de performance#

Comprendre les métriques de performance brutes est vital pour la sélection du modèle. Le tableau suivant présente la comparaison entre EfficientDet et RTDETRv2 à travers différentes tailles.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520,755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionCas d'utilisation et recommandations#

Choisir entre EfficientDet et RT-DETR dépend de tes exigences de projet spécifiques, des contraintes de déploiement et de tes préférences d'écosystème.

Link to this sectionQuand choisir EfficientDet#

EfficientDet est un choix solide pour :

  • Pipelines Google Cloud et TPU : Systèmes profondément intégrés aux API Google Cloud Vision ou à l'infrastructure TPU, où EfficientDet bénéficie d'une optimisation native.
  • Recherche sur le Compound Scaling : Analyse comparative académique axée sur l'étude des effets de l'équilibre entre la profondeur, la largeur et la résolution du réseau.
  • Déploiement mobile via TFLite : Projets nécessitant spécifiquement l'exportation vers TensorFlow Lite pour Android ou des appareils Linux embarqués.

Link to this sectionQuand choisir RT-DETR#

RT-DETR est recommandé pour :

  • Recherche sur la détection basée sur les Transformers : Projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
  • Scénarios de haute précision avec latence flexible : Applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformateurs offre un avantage naturel.

Link to this sectionQuand choisir Ultralytics (YOLO26)#

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
  • Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Link to this sectionL'avantage Ultralytics : Présentation de YOLO26#

Bien qu'EfficientDet et RTDETRv2 aient marqué l'histoire de la computer vision, les environnements de production modernes exigent un équilibre parfait entre vitesse, précision et une expérience développeur exceptionnelle. Le récemment publié Ultralytics YOLO26 synthétise les meilleurs aspects de ces architectures disparates.

YOLO26 se distingue en combinant l'écosystème rationalisé pour lequel Ultralytics est reconnu avec une mécanique interne révolutionnaire.

Link to this sectionPourquoi choisir YOLO26 plutôt que la concurrence ?#

  • Conception de bout en bout sans NMS : En s'inspirant des transformers comme RTDETRv2, YOLO26 est nativement de bout en bout. Il élimine le post-traitement NMS, garantissant des pipelines de déploiement plus rapides et plus simples sans l'encombrement massif de paramètres des transformers purs.
  • Optimiseur MuSGD : Inspiré par les innovations en matière d'entraînement de grands modèles de langage (comme Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD et de Muon. Cela apporte une stabilité d'entraînement sans précédent et des taux de convergence nettement plus rapides par rapport aux programmes prolongés requis par RTDETRv2.
  • Optimisé pour la périphérie (Edge) : Avec jusqu'à 43 % d'inférence CPU plus rapide, YOLO26 est conçu pour l'edge AI. Il surpasse facilement les modèles de transformer lourds sur du matériel contraint comme les téléphones mobiles et les caméras intelligentes.
  • Suppression de DFL : La suppression de la Distribution Focal Loss simplifie le graphe du modèle, facilitant les exportations fluides vers TensorRT et ONNX.
  • ProgLoss + STAL : Ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance des petits objets, résolvant un goulot d'étranglement courant dans l'imagerie aérienne et la robotique.
  • Polyvalence : Contrairement à RTDETRv2, qui se concentre principalement sur la détection, YOLO26 prend nativement en charge la segmentation d'instances, l' estimation de pose, la classification d'images et les boîtes englobantes orientées (OBB) avec des améliorations spécifiques à la tâche comme RLE pour la pose et une perte d'angle spécialisée pour OBB.
Écosystème intégré

En tirant parti de la plateforme Ultralytics, tu peux gérer tes datasets, entraîner des modèles comme YOLO26 ou YOLO11 dans le cloud, et les déployer de manière transparente via des API flexibles.

Link to this sectionSimplicité du code avec Ultralytics#

L'API Python d'Ultralytics, bien maintenue, rend l'entraînement et l'inférence des modèles triviaux. Les développeurs peuvent facilement évaluer des modèles ou lancer des scripts d'entraînement avec un code standard minimal.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

Pour ceux qui gèrent une infrastructure héritée, le très acclamé Ultralytics YOLOv8 reste un choix stable et puissant, démontrant la fiabilité à long terme de l'écosystème Ultralytics. Que tu exécutes des algorithmes complexes de tracking en temps réel ou une simple détection de défauts, la mise à niveau vers YOLO26 garantit que ton système est pérenne, hautement précis et efficace en termes de mémoire.

Commentaires