Passer au contenu

YOLO vs. YOLOv8: une plongée technique en profondeur

Le paysage de la détection d'objets est en constante évolution, les chercheurs et les ingénieurs s'efforçant d'équilibrer les exigences concurrentes de vitesse, de précision et d'efficacité de calcul. Deux architectures importantes ont fait des vagues dans la communauté de la vision par ordinateur : YOLO, développée par le groupe Alibaba, et YOLOv8créé par Ultralytics.

Cette comparaison technique explore les innovations architecturales, les mesures de performance et la facilité d'utilisation pratique des deux modèles. Alors que YOLO introduit de nouveaux concepts de recherche tels que la recherche d'architecture neuronale (NAS), Ultralytics YOLOv8 se concentre sur la fourniture d'un écosystème robuste et convivial qui rationalise le flux de travail, de la formation au déploiement.

Analyse des performances : Vitesse et précision

Pour comprendre comment ces modèles se comparent dans des scénarios réels, nous analysons leurs performances sur l'ensemble de données standard COCO . Les mesures ci-dessous mettent en évidence les compromis entre la précision moyennemAP, la vitesse d'inférence sur différents matériels et la complexité du modèle.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Points clés à retenir

Les données révèlent des avantages distincts en fonction de l'objectif de déploiement :

  • Performance des bords : Les YOLOv8n (Nano) est le leader incontesté pour les environnements à ressources limitées. Avec seulement 3,2 millions de paramètres et 8,7 milliards de FLOP, il atteint les vitesses d'inférence les plus rapides à la fois sur le CPU et le GPU. Il est donc idéal pour les applications mobiles ou les appareils IoT où la mémoire et l'énergie sont rares.
  • Précision maximale : Pour les applications où la précision est primordiale, YOLOv8x atteint la plus grande mAP de 53,9 %. Si les modèles YOLO donnent de bons résultats, la variante YOLOv8 , la plus grande, repousse encore les limites de la précision de détection.
  • Compromis de latence : YOLO démontre un débit impressionnant sur les GPU dédiés (comme le T4), grâce à son backbone optimisé pour les NAS. Cependant, Ultralytics YOLOv8 maintient un équilibre supérieur sur une plus grande variété de matériel, y compris les CPU, assurant une plus grande flexibilité de déploiement.

YOLO: L'innovation par la recherche

YOLO est un produit des initiatives de recherche du groupe Alibaba. Le nom signifie "Discovery, Adventure, Momentum, and Outlook" (découverte, aventure, élan et perspectives), reflétant l'accent mis sur l'exploration de nouvelles frontières architecturales.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation:Alibaba Group
Date : 2022-11-23
Arxiv:2211.15444v2
GitHub:YOLO

Points forts de l'architecture

YOLO intègre plusieurs technologies avancées pour optimiser le compromis entre latence et précision :

  1. L'épine dorsale MAE-NAS : Il utilise la recherche d'architecture neuronale (NAS) pour découvrir automatiquement des structures de réseau efficaces, en particulier à l'aide d'une méthode appelée MAE-NAS.
  2. RepGFPN Neck : Un réseau de pyramides de caractéristiques généralisées (GFPN) fortement paramétré est utilisé pour maximiser le flux d'informations entre les différents niveaux d'échelle, améliorant ainsi la détection d'objets à des distances variables.
  3. ZeroHead : Pour contrebalancer la lourdeur du cou, le modèle utilise une "ZeroHead" légère, qui réduit la charge de calcul à l'étape de détection finale.
  4. AlignedOTA : une stratégie dynamique d'attribution d'étiquettes qui aligne les tâches de classification et de régression pendant la formation, ce qui aide le modèle à converger plus efficacement.

En savoir plus sur DAMO-YOLO

Ultralytics YOLOv8: La norme de l'écosystème

YOLOv8 représente un raffinement de l'architecture YOLO axé sur la convivialité, la polyvalence et les performances de pointe. Contrairement aux modèles de recherche pure, YOLOv8 est conçu comme un produit pour les développeurs, mettant l'accent sur un écosystème bien entretenu et sur la facilité d'intégration.

Auteurs : Glenn Jocher, Ayush Chaurasia et Jing Qiu
Organisation :Ultralytics
Date : 2023-01-10
Docs :Ultralytics YOLOv8

Points forts de l'architecture

  • Détection sans ancrage : YOLOv8 élimine les boîtes d'ancrage, ce qui réduit le nombre d'hyperparamètres que les développeurs doivent régler et simplifie le processus d'apprentissage.
  • Module C2f : L'architecture remplace le module C3 par le module C2f, qui offre des informations plus riches sur le flux de gradient tout en conservant une empreinte légère.
  • Tête découplée : en séparant les tâches de classification et de régression dans la tête, le modèle atteint une plus grande précision de localisation.
  • Cadre unifié : Sa caractéristique architecturale la plus forte est peut-être sa prise en charge native de plusieurs tâches de vision -segmentation des instances, estimation de la pose, classification et détection d'objets orientés (OBB)- au sein d'une base de code unique.

Le saviez-vous ?

Ultralytics fournit un chemin transparent pour exporter les modèles vers des formats optimisés tels que ONNX, TensorRT, CoreMLet OpenVINO. Cette capacité d'exportation garantit que vos modèles formés peuvent fonctionner efficacement sur presque toutes les plates-formes matérielles.

En savoir plus sur YOLOv8

Convivialité et expérience des développeurs

La divergence la plus importante entre les deux modèles réside dans leur facilité d'utilisation et l'écosystème qui les entoure.

Ultralytics YOLO sont célèbres pour leur expérience "de zéro à héros". Avec une simple installation de PIP, les développeurs ont accès à un puissant CLI et à une API Python . Cela réduit considérablement la barrière à l'entrée par rapport aux référentiels de recherche qui nécessitent souvent des configurations d'environnement complexes.

Efficacité de la formation

Les modèles Ultralytics sont conçus pour une formation efficace. Ils utilisent efficacement la mémoire CUDA , ce qui permet d'augmenter la taille des lots ou d'effectuer l'entraînement sur des GPU grand public. De plus, la disponibilité de poids pré-entraînés de haute qualité accélère la convergence, ce qui permet d'économiser du temps de calcul et de l'énergie.

Voici un exemple complet et exécutable de chargement et de prédiction d'un modèle YOLOv8 en seulement trois lignes de Python:

from ultralytics import YOLO

# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")

# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
for result in results:
    result.show()

En revanche, si YOLO offre de bonnes performances, il nécessite généralement une configuration plus manuelle et une familiarisation avec les cadres orientés vers la recherche, ce qui le rend moins accessible pour le prototypage rapide ou l'intégration commerciale.

Conclusion : Choisir le bon outil

YOLO et YOLOv8 sont des réalisations exceptionnelles dans le domaine de la vision par ordinateur.

YOLO est un excellent choix pour les chercheurs qui s'intéressent à la recherche d'architecture neuronale et pour ceux qui la déploient spécifiquement sur du matériel dont l'épine dorsale personnalisée est entièrement optimisée.

Cependant, pour la plupart des développeurs, des chercheurs et des entreprises, Ultralytics YOLOv8 (et la version plus récente YOLO11) offrent une proposition de valeur supérieure :

  1. Polyvalence : Capable de gérer la détection, la segmentation, la pose et l'OBB dans un cadre unique.
  2. Facilité d'utilisation : Une documentation inégalée, une API simple et un soutien solide de la part de la communauté.
  3. Déploiement : La prise en charge étendue des modes d'exportation couvre tous les domaines, des téléphones mobiles aux serveurs en nuage.
  4. Équilibre des performances : Excellent rapport précision/vitesse, en particulier sur les appareils CPU et Edge.

Pour ceux qui souhaitent rester à la pointe de la technologie, nous recommandons également de consulter YOLO11qui s'appuie sur les points forts de YOLOv8 avec encore plus d'efficacité et de précision.

Explorer d’autres comparaisons de modèles

Pour vous aider à prendre la décision la plus éclairée pour vos projets de vision par ordinateur, explorez ces comparaisons détaillées supplémentaires :


Commentaires