Passer au contenu

YOLOv10 YOLO: comparaison technique des détecteurs d'objets en temps réel

Lors de la création de pipelines de vision par ordinateur modernes, il est essentiel de choisir la bonne architecture de détection d'objets en temps réel. Dans cette analyse technique complète, nous explorons les architectures, les mesures de performance et les cas d'utilisation idéaux pour YOLOv10 et YOLO. Ces deux modèles représentent des avancées significatives en matière de capacités de détection d'objets, mais ils empruntent des voies architecturales différentes pour atteindre leurs objectifs.

Que votre projet nécessite un déploiement sur du matériel IA périphérique limité ou exige une précision maximale sur des GPU cloud, comprendre les nuances de ces architectures vous aidera à prendre une décision éclairée.

Explorer YOLOv10

Présenté par des chercheurs de l'université Tsinghua, YOLOv10 a révolutionné la YOLO en introduisant une approche native de bout en bout, éliminant ainsi efficacement le besoin de suppression non maximale (NMS) pendant le post-traitement.

YOLOv10 :

Principales caractéristiques architecturales

La principale innovation YOLOv10 réside dans sa stratégie de double affectation cohérente pour un entraînement NMS. Les détecteurs d'objets traditionnels s'appuient fortement sur NMS filtrer les cadres de sélection qui se chevauchent, ce qui introduit une latence imprévisible, un goulot d'étranglement important pour les applications en temps réel telles que les véhicules autonomes et la robotique à grande vitesse. En prédisant directement un seul cadre de sélection optimal par objet, YOLOv10 une inférence prévisible et à très faible latence.

De plus, le modèle utilise une conception holistique axée sur l'efficacité et la précision. L'architecture optimise divers composants, notamment une tête de classification légère et un sous-échantillonnage découplé spatialement et par canal, ce qui réduit considérablement la redondance computationnelle. Il en résulte une architecture qui se caractérise par un nombre de paramètres et un nombre de FLOP moins élevés, tout en conservant une précision moyenne (mAP) compétitive.

Exportation simplifiée pour la production

Puisque YOLOv10 supprime les opérations NMS du graphe d'inférence, l'exportation du modèle vers des formats tels que ONNX ou TensorRT est grandement simplifiée, ce qui le rend exceptionnellement adapté aux déploiements en périphérie.

En savoir plus sur YOLOv10

Exemple d'utilisation

YOLOv10 profondément intégré à Ultralytics , ce qui le rend incroyablement facile à utiliser via le Python Ultralytics .

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to TensorRT format
model.export(format="engine", half=True)

ExplorerYOLO

Développé par le groupe Alibaba, DAMO-YOLO se concentre sur la découverte de structures de réseau hautement efficaces grâce à la recherche automatisée d'architecture neuronale (NAS), visant à repousser la frontière de Pareto en termes de vitesse et de précision.

Détails de DAMO-YOLO :

Principales caractéristiques architecturales

DAMO-YOLO introduit plusieurs technologies novatrices adaptées aux applications industrielles. Le fondement du modèle est son MAE-NAS Backbone, généré via une recherche évolutive multi-objectif. Ce processus automatisé découvre des structures de backbone qui respectent strictement les budgets de calcul prédéfinis, établissant un équilibre subtil entre précision et latence d'inférence.

De plus, l'architecture utilise un neck Efficient RepGFPN. Ce réseau pyramidal de caractéristiques est conçu pour améliorer la fusion des caractéristiques à différentes échelles, ce qui est essentiel pour des tâches complexes comme l'analyse d'images aériennes où les objets varient considérablement en taille. Pour compléter cela, DAMO-YOLO implémente une ZeroHead, une tête de détection minimaliste qui réduit drastiquement la complexité des couches de prédiction finales, économisant un temps de calcul précieux lors de l'inférence.

En savoir plus sur DAMO-YOLO

Comparaison des performances

Lors de l'évaluation des architectures de détection d'objets, il est primordial de trouver le bon compromis entre la vitesse d'inférence, l'efficacité des paramètres et la précision de la détection. Le tableau ci-dessous compare les performances de YOLOv10 YOLO leurs tailles de modèle respectives.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Comme observé dans les benchmarks, YOLOv10 offre constamment des profils de latence exceptionnels sur TensorRT, en particulier dans sa variante nano, nécessitant significativement moins de paramètres et de FLOPs que les modèles comparables de DAMO-YOLO. Bien que DAMO-YOLO offre un mAP élevé dans sa variante tiny, l'efficacité des paramètres et la latence d'inférence de la famille YOLOv10 offrent un avantage distinct pour les environnements de déploiement contraints.

Cas d'utilisation et recommandations

Le choix entre YOLOv10 et DAMO-YOLO dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.

Quand choisir YOLOv10

YOLOv10 un choix judicieux pour :

  • Détection en temps réel sans NMS : Applications qui bénéficient d'une détection de bout en bout sans Non-Maximum Suppression, réduisant ainsi la complexité du déploiement.
  • Compromis équilibrés vitesse-précision: Projets nécessitant un équilibre solide entre la vitesse d'inférence et la précision de détection sur diverses échelles de modèles.
  • Applications à latence constante : Scénarios de déploiement où des temps d'inférence prévisibles sont critiques, tels que la robotique ou les systèmes autonomes.

Quand choisir DAMO-YOLO

DAMO-YOLO est recommandé pour :

  • Analyse vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit par lot de 1 est la métrique principale.
  • Lignes de Fabrication Industrielles : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, telles que l'inspection qualité en temps réel sur les lignes d'assemblage.
  • Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
  • Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
  • Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

L'avantage Ultralytics

Bien que les deux modèles soient impressionnants sur le plan technique, le choix d'une architecture pour la production implique de regarder au-delà des simples mesures brutes. Construire avec des modèles pris en charge nativement par Ultralytics offre des avantages inégalés aux développeurs et aux chercheurs.

Facilité d'utilisation et écosystème bien entretenu

Contrairement aux référentiels universitaires autonomes qui sont souvent abandonnés, Ultralytics un écosystème robuste et activement maintenu. La mise en place d'environnements complexes pour des modèles qui dépendent fortement des pipelines NAS peut être décourageante. En revanche, Ultralytics une Python standardisée et intuitive ainsi CLI puissante, soutenues par une documentation complète. Cela réduit considérablement le délai de mise sur le marché des solutions de vision personnalisées.

Efficacité de la formation et exigences en matière de mémoire

La formation de modèles volumineux peut rapidement devenir coûteuse en termes de calcul. LesYOLO Ultralytics YOLO sont historiquement connues pour leur faible empreinte CUDA pendant la formation et l'inférence. Cette efficacité permet aux développeurs de former des modèles sur du matériel grand public ou des instances cloud économiques sans rencontrer d'erreurs de mémoire insuffisante, courantes lors de l'utilisation de modèles basés sur des transformateurs tels que RT-DETR.

Suivi des expériences

Ultralytics s'intègre Ultralytics aux meilleurs outils MLOps. Vous pouvez facilement track la progression de l'entraînement track modèle grâce à des intégrations avec Weights & Biases, Cometou ClearML sans aucun code standard supplémentaire.

Polyvalence dans toutes les tâches

Une limitation significative de nombreux modèles de détection spécialisés est leur focalisation étroite. Au sein de l'écosystème Ultralytics, vous n'êtes pas limité à la seule détection d'objets. Les outils s'étendent de manière transparente à de multiples tâches de vision par ordinateur, notamment la segmentation d'instances, la classification d'images, l'estimation de pose et la détection de boîtes englobantes orientées (OBB).

Perspectives d'avenir : l'évolution du YOLO26

Alors que YOLOv10 l'inférence NMS et queYOLO la puissance du NAS, le domaine de la vision par ordinateur évolue rapidement. Pour les développeurs à la recherche de la solution de pointe ultime, nous recommandons de découvrir Ultralytics .

Sorti comme le successeur définitif de YOLO11, YOLO26 s'appuie sur les bases NMS établies par YOLOv10 va beaucoup plus loin.

Les principales avancées de YOLO26 comprennent :

  • Jusqu'à 43 % plus rapide pour l'inférence CPU : Spécifiquement optimisé pour l'edge computing et les appareils à faible consommation.
  • Suppression du DFL : La Distribution Focal Loss a été supprimée, garantissant des exportations plus simples et une compatibilité améliorée avec diverses cibles de déploiement.
  • Optimiseur MuSGD : Un hybride de SGD et de Muon, apportant directement à la vision par ordinateur une stabilité d'entraînement avancée des LLM et une convergence plus rapide.
  • ProgLoss + STAL : Des fonctions de perte drastiquement améliorées qui offrent des améliorations notables dans la reconnaissance de petits objets, ce qui est essentiel pour des cas d'utilisation comme l'agriculture et la télédétection.

En utilisant la Plateforme Ultralytics récemment remaniée, les développeurs peuvent annoter, entraîner et déployer en toute transparence des modèles de nouvelle génération comme YOLO26 en quelques clics seulement, garantissant que votre pipeline de vision par ordinateur est à la fois à la pointe de la technologie et pérenne.


Commentaires