Passer au contenu

YOLOv8 YOLO: comparaison technique complète des modèles de détection d'objets

Le paysage de la vision par ordinateur est en constante évolution, avec de nouvelles architectures repoussant les limites de ce qui est possible sur les appareils périphériques et les clusters cloud massifs. Dans cette analyse technique approfondie, nous comparons deux modèles de détection d'objets en temps réel de premier plan : YOLOv8 et YOLO. En examinant leurs architectures, leurs mesures de performance et leurs méthodologies de formation, les ingénieurs en apprentissage automatique peuvent prendre des décisions éclairées pour leurs pipelines de déploiement.

Contexte et origines du modèle

Les deux modèles ont été lancés à peu près à la même époque, mais ils découlent de philosophies de conception et d'objectifs de recherche différents.

Détails de YOLOv8

En savoir plus sur YOLOv8

YOLO

En savoir plus sur DAMO-YOLO

Innovations architecturales

YOLOv8: conception polyvalente sans ancrage

Ultralytics YOLOv8 a apporté des améliorations significatives par rapport à ses prédécesseurs, consolidant ainsi son statut de modèle de pointe hautement fiable. Il est doté d'une tête de détection sans ancrage, qui réduit le nombre de prédictions de boîtes et accélère l'inférence. L'architecture utilise une tête découplée, séparant les tâches d'objet, de classification et de régression, ce qui permet d'obtenir des prédictions de boîtes englobantes plus précises.

De plus, YOLOv8 la perte focale de distribution (DFL) parallèlement à CIoU , améliorant ainsi la capacité du modèle à localiser avec précision les contours des objets, en particulier pour les cibles plus petites ou occultées. Son infrastructure rationalisée est hautement optimisée pour CPU GPU CPU .

YOLO une approche différente, s'appuyant largement sur la recherche d'architecture neuronale (NAS) pour concevoir automatiquement son infrastructure. L'équipe d'Alibaba a introduit « MAE-NAS » afin de trouver des structures offrant un compromis optimal entre latence et précision, en particulier dans le cadre de TensorRT .

Le modèle intègre un RepGFPN (Reparameterized Generalized Feature Pyramid Network) pour une fusion efficace des caractéristiques et une conception « ZeroHead » afin de minimiser la charge de calcul de la tête de détection. Pendant l'entraînement, il exploite AlignedOTA pour l'attribution des étiquettes et s'appuie fortement sur un processus complexe de distillation des connaissances, nécessitant un modèle enseignant plus grand pour superviser le modèle élève cible.

Complexité de l'entraînement

SiYOLO des performances impressionnantes en matière de latence grâce au NAS et à la distillation, cela nécessite toutefois beaucoup plus CUDA et de temps de calcul pendant l'entraînement que le pipeline d'entraînement à étape unique hautement optimisé de YOLOv8.

Performance et indicateurs

Lors du déploiement de modèles de vision par ordinateur en production, il est essentiel de trouver le juste équilibre entre précision (mAP) et vitesse d'inférence. Le tableau ci-dessous illustre les performances des deux modèles pour différentes tailles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv8 un équilibre exceptionnel en termes de performances. Le YOLOv8n Le modèle (nano) ne nécessite que 3,2 millions de paramètres, contre 8,5 millions pour DAMO-YOLOt, ce qui le rend largement supérieur pour les appareils mobiles ou les environnements soumis à des contraintes de mémoire strictes. De plus, YOLOv8 une gamme de tailles plus large, pouvant atteindre une précision très élevée. YOLOv8x pour les charges de travail basées sur le cloud.

Expérience développeur et écosystème

Facilité d'utilisation et efficacité de la formation

L'un des principaux facteurs de différenciation est l'expérience utilisateur. Ultralytics est conçu pour accélérer le travail des développeurs. La formation d'un YOLOv8 personnalisé nécessite très peu de mémoire et peut être exécutée via une Python unifiée ou une interface de ligne de commande.

À l'inverse, reproduire l'entraînement amélioré par distillation deYOLO nécessiteYOLO de naviguer dans des fichiers de configuration complexes et de gérer le suivi d'expériences enseignant-élève en plusieurs étapes.

Voici un exemple illustrant la simplicité avec laquelle il est possible de former, valider et exporter YOLOv8 Python:

from ultralytics import YOLO

# Load a pre-trained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="cpu")

# Export the trained model to ONNX format
path = model.export(format="onnx")

Polyvalence dans toutes les tâches visuelles

YOLO strictement conçu pour la détection d'objets par boîte englobante. En revanche, YOLOv8 prend en charge nativement plusieurs tâches. En échangeant simplement les poids du modèle, les développeurs peuvent effectuer la segmentation d'instances, la classification d'images et l'estimation de poses sans modifier leur base de code de déploiement sous-jacente. Cette polyvalence rend Ultralytics beaucoup plus pratiques pour les applications complexes.

Cas d'utilisation concrets

Quand utiliser YOLOv8

La combinaison de vitesse, de précision et de facilité de déploiement YOLOv8 le rend idéal pour :

  • Analyse intelligente du commerce de détail : suivi des objets pour surveiller le comportement des clients ou automatiser les contrôles d'inventaire.
  • Robotique agricole : tirer parti de ses performances élevées sur divers matériels pour identifier les cultures ou les parasites en temps réel.
  • Diagnostic médical : utilisation de la segmentation d'instances pour cartographier rapidement et précisément les anomalies dans les images médicales.
  • Déploiements Edge : intégration transparente avec des formats d'exportation tels que OpenVINO et CoreML permet à YOLOv8 briller sur les appareils aux ressources limitées.

Quand utiliserYOLO

YOLO être avantageux dans certains cas particuliers, notamment :

  • Recherche universitaire NAS : pour les équipes étudiant la paramétrisation des représentations ou les méthodologies de conception d'architecture automatisée.
  • Pipelines strictement GPU: applications fonctionnant exclusivement sur NVIDIA spécifique, où les structures NAS ont été fortement optimisées pour les limites TensorRT .

Cas d'utilisation et recommandations

Le choix entre YOLOv8 YOLO des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.

Quand choisir YOLOv8

YOLOv8 un choix judicieux pour :

  • Déploiement polyvalent et multitâche : projets nécessitant un modèle éprouvé pour la détection, la segmentation, la classification et l'estimation de la pose au sein de Ultralytics .
  • Systèmes de production établis : environnements de production existants déjà basés sur YOLOv8 avec des pipelines de déploiement stables et éprouvés.
  • Large soutien de la communauté et de l'écosystème : applications bénéficiant des nombreux tutoriels, des intégrations tierces et des ressources communautaires actives YOLOv8.

Quand choisir DAMO-YOLO

YOLO recommandé pour :

  • Analyse vidéo à haut débit : traitement de flux vidéo à fréquence d'images élevée surGPU NVIDIA fixe où le débit du lot 1 est la principale métrique.
  • Lignes de fabrication industrielle : scénarios avec des contraintes strictes GPU sur du matériel dédié, tels que le contrôle qualité en temps réel sur les chaînes de montage.
  • Recherche sur la recherche d'architecture neuronale : étude des effets de la recherche automatisée d'architecture (MAE-NAS) et des structures de base reparamétrées efficaces sur les performances de détection.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
  • EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Perspectives d'avenir : nouveaux Ultralytics

Bien que YOLOv8 un outil très fiable, le domaine de la vision par ordinateur évolue rapidement. Les utilisateurs devraient également envisager d'explorer les nouvelles générations :

YOLO26 : La dernière génération, Ultralytics , représente un changement de paradigme. Elle introduit une conception native de bout en bout NMS, éliminant complètement les goulots d'étranglement liés à la latence associés au post-traitement par suppression non maximale. Grâce au nouvel optimiseur MuSGD (un hybride de SGD Muon) et aux fonctions de perte spécialisées ProgLoss + STAL, YOLO26 offre un entraînement remarquablement stable et une reconnaissance des petits objets considérablement améliorée. Grâce à la suppression du DFL (Distribution Focal Loss supprimé pour simplifier l'exportation et améliorer la compatibilité avec les appareils de pointe/à faible consommation d'énergie), les modifications architecturales permettent CPU jusqu'à 43 % plus rapide par rapport aux générations précédentes, ce qui en fait le choix incontournable pour l'informatique de pointe moderne.

YOLO11: une autre excellente alternative, Ultralytics YOLO11 offre des améliorations architecturales incrémentielles par rapport à YOLOv8 reste un modèle robuste et largement adopté par la communauté.

Rationalisez votre flux de travail

Prêt à passer du prototype à la production ? Utilisez la Ultralytics pour annoter automatiquement des ensembles de données, track et déployer des modèles de manière transparente dans le cloud ou sur des appareils périphériques.

En conclusion, siYOLO des perspectives académiques intéressantes en matière de recherche architecturale, Ultralytics fournissent un écosystème nettement plus mature, polyvalent et convivial pour les développeurs. Que vous restiez fidèle à la stabilité éprouvée de YOLOv8 que vous passiez à l'architecture ultra-rapide et NMS de YOLO26, la Ultralytics reste le choix numéro un pour l'IA visuelle en temps réel.


Commentaires