YOLO YOLOv6.0 : confrontation technique pour la détection d'objets en temps réel
Le domaine de la détection d'objets en temps réel se caractérise par une innovation rapide, où l'efficacité architecturale et la vitesse d'inférence sont primordiales. Deux acteurs importants dans ce domaine sont YOLO, développé par Alibaba Group, et YOLOv6.YOLOv6, un cadre robuste de Meituan. Les deux modèles visent à atteindre l'équilibre parfait entre latence et précision, mais ils y parviennent grâce à des méthodologies distinctes.
Ce guide complet analyse en détail les nuances techniques des deux architectures, offrant aux développeurs et aux chercheurs les informations nécessaires pour choisir l'outil adapté à leurs applications de vision par ordinateur. Que vous développiez pour des appareils périphériques ou des serveurs cloud à haut débit, il est essentiel de comprendre ces différences.
Référence de performance
Le tableau suivant illustre les mesures de performance sur l'COCO . YOLOv6.YOLOv6 offre généralement un débit supérieur sur GPU grâce à sa conception TensorRT, tandis que YOLO fait preuve d'une grande efficacité en termes de paramètres.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
DAMO-YOLO : La Recherche d'Architecture Neuronale au Service de l'Efficacité
YOLO introduit une approche novatrice en intégrant directement la recherche d'architecture neuronale (NAS) dans la conception de la structure principale. Développé par le groupe Alibaba, il vise à optimiser les performances dans le cadre de contraintes de latence strictes.
Principales caractéristiques architecturales
- MAE-NAS Backbone : il utilise une architecture neuronale multi-branches à auto-encodeur (MAE-NAS) pour découvrir les structures de réseau optimales. Il en résulte une infrastructure qui extrait les caractéristiques plus efficacement que ses homologues conçues manuellement, telles que CSPDarknet.
- RepGFPN efficace : le modèle remplace le réseau pyramidal de caractéristiques (FPN) standard par un FPN généralisé reparamétré (RepGFPN). Cela améliore la fusion des caractéristiques à différentes échelles tout en conservant la vitesse d'inférence, car les branches complexes sont fusionnées en un seul chemin pendant le déploiement.
- ZeroHead : Afin de réduire davantage le coût de calcul,YOLO un « ZeroHead » léger, qui simplifie la conception de la tête de détection sans perte significative de précision.
- AlignedOTA : Le processus d'entraînement utilise l'attribution de balises Aligned One-to-Many (AlignedOTA), qui attribue dynamiquement des balises afin d'améliorer la vitesse de convergence et de gérer l'ambiguïté dans les scènes encombrées.
YOLO :
Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 23 novembre 2022
Arxiv | GitHub | Docs
YOLOv6.0 : la norme industrielle pour les GPU
YOLOv6.YOLOv6, souvent qualifié de « rechargement complet » du framework, est spécialement conçu pour les applications industrielles où GPU via TensorRT est la norme.
Principales caractéristiques architecturales
- Fusion bidirectionnelle (BiFusion) : YOLOv6.0 améliore le cou grâce à BiFusion, optimisant ainsi la circulation des informations sémantiques entre les différents niveaux de fonctionnalités.
- Formation assistée par ancrage (AAT) : contrairement aux détecteurs purement sans ancrage, YOLOv6. YOLOv6 introduit une branche auxiliaire basée sur l'ancrage pendant la formation. Cela stabilise le processus d'apprentissage et améliore le rappel, tandis que l'inférence reste sans ancrage pour plus de rapidité.
- RepOptimizer : le modèle exploite des techniques de reparamétrage non seulement dans l'architecture (blocs RepVGG), mais aussi dans le processus d'optimisation lui-même, garantissant ainsi que les étapes de descente de gradient sont plus efficaces pour les structures reparamétrées spécifiques.
- Quantization Aware Training (QAT) : l'un de ses principaux atouts est sa prise en charge native du QAT, qui permet au modèle de conserver une grande précision même lorsqu'il est compressé à la précision INT8 pour être déployé sur des GPU périphériques.
YOLOv6 Détails :
Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation : Meituan
Date : 13/01/2023
Arxiv | GitHub | Docs
Ultralytics : pourquoi choisir YOLO modernes ?
SiYOLO YOLOv6.0 offrent des atouts distincts, le Ultralytics fournit une solution unifiée qui répond aux besoins plus larges du développement moderne de l'IA. En choisissant un Ultralytics , vous êtes assuré d'obtenir non seulement une architecture, mais aussi un workflow complet et pris en charge.
1. Facilité d'utilisation inégalée
Ultralytics l'expérience développeur (« zero-to-hero »). Les processus complexes tels que l'augmentation des données, le réglage des hyperparamètres et l'exportation de modèles sont abstraits derrière une Python simple.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)
2. Polyvalence entre les tâches
Contrairement àYOLO YOLOv6, qui se concentrent principalement sur la détection de cadres de sélection, Ultralytics sont intrinsèquement multimodaux. Une seule base de code prend en charge :
- Détection d'objets: identification des objets et de leur emplacement.
- Segmentation d'instance: délimitation des contours exacts des objets en pixels.
- Estimation de la pose: détection des points clés pour le suivi des humains ou des animaux.
- Classification: attribution d'étiquettes globales aux images.
- Boîte englobante orientée (OBB): détection d'objets pivotés, essentielle pour l'imagerie aérienne et la détection de texte.
3. Efficacité de la formation et utilisation de la mémoire
Ultralytics sont optimisées pour minimiser l'utilisation de la mémoire VRAM pendant l'entraînement. Cette efficacité permet aux chercheurs et aux amateurs d'entraîner des modèles de pointe sur des GPU grand public, ce qui constitue un avantage significatif par rapport aux hybrides transformateurs gourmands en mémoire tels que RT-DETR.
4. Écosystème bien entretenu
Ultralytics est l'un des plus actifs de la communauté de la vision par ordinateur. Des mises à jour fréquentes garantissent la compatibilité avec les dernières versions de PyTorch, CUDA et Python, ce qui évite la « détérioration du code » souvent observée dans les référentiels de recherche statiques.
L'avenir de l'IA visuelle : YOLO26
Pour les développeurs à la recherche du summum en matière de performances et de facilité de déploiement, Ultralytics représente la nouvelle génération de l'IA visuelle.
Pourquoi passer à YOLO26 ?
YOLO26 intègre des fonctionnalités de pointe qui simplifient le déploiement tout en améliorant la vitesse et la précision :
- NMS de bout en bout : élimine le post-traitement NMS(Non-Maximum Suppression), rationalisant l'exportation vers CoreML et TFLite.
- CPU : CPU jusqu'à 43 % plus rapide par rapport aux générations précédentes, permettant des performances en temps réel sur les appareils périphériques dépourvus de GPU puissants.
- MuSGD Optimizer : un optimiseur hybride tirant parti des innovations issues de la formation LLM (inspiré par Kimi K2 de Moonshot AI) pour une convergence et une stabilité accrues.
- Détection améliorée des petits objets : Le nouveau
ProgLossetSTALLes fonctions de perte améliorent considérablement la détection de cibles petites et difficiles, ce qui est crucial pour applications des drones.
Recommandations de cas d'utilisation
Lorsque vous choisissez entre ces architectures, tenez compte de votre environnement de déploiement spécifique :
Idéal pourYOLO
- Recherche et développement : excellent pour étudier l'impact de la recherche d'architecture neuronale (NAS) sur les infrastructures de vision.
- Matériel personnalisé : la structure peut offrir des avantages sur certaines NPU spécifiques qui favorisent la conception RepGFPN.
- Exigences en matière de faible latence : la conception ZeroHead permet de gagner quelques millisecondes dans les environnements soumis à des contraintes de temps strictes.
Idéal pour YOLOv6.0
- GPU industriels : l'accent mis sur TensorRT en fait une véritable bête de course sur les cartes NVIDIA et A100.
- Besoins en quantification : si votre pipeline repose fortement sur la formation sensible à la quantification (QAT) pour le déploiement INT8, YOLOv6 des outils natifs.
- Analyse à haut débit : scénarios tels que le traitement simultané de plusieurs flux vidéo, où le débit par lot est essentiel.
Idéal pour Ultralytics YOLO11 YOLO26)
- Déploiement à usage général : possibilité d'exporter vers ONNX, OpenVINO, TensorRT, CoreML et TFLite une seule commande couvre tous les besoins.
- Mobile et périphérique CPU: CPU spécifiques CPU de YOLO26 et sa conception NMS en font le choix idéal pour les déploiements iOS, Android et Raspberry Pi.
- Tâches complexes : lorsque votre projet nécessite plus que de simples boîtes, comme des masques de segmentation ou des points clés de pose,Ultralytics le seul cadre unifié capable de répondre à vos besoins.
- Prototypage rapide : la Ultralytics permet une gestion, une formation et un déploiement rapides des ensembles de données sans avoir à gérer une infrastructure complexe.
Conclusion
YOLO et YOLOv6.YOLOv6 constituent tous deux des contributions impressionnantes dans le domaine de la vision par ordinateur.YOLO les limites de la recherche automatisée d'architectures, tandis que YOLOv6 l'art de l'inférence GPU.
Cependant, pour la grande majorité des applications concrètes, YOLO Ultralytics offrent une solution plus équilibrée, polyvalente et facile à maintenir. Avec la sortie de YOLO26, l'écart s'est encore creusé, offrant une efficacité de bout en bout et CPU que les modèles concurrents n'ont pas encore égalées. Que vous soyez une start-up développant votre premier produit d'IA ou une entreprise s'étendant à des millions d'utilisateurs, la stabilité et les performances de Ultralytics constituent une base solide pour réussir.
Lectures complémentaires
Découvrez d'autres modèles et outils de pointe dans la Ultralytics :
- YOLOv8 - Le modèle SOTA classique réputé pour sa stabilité.
- RT-DETR - Transformateur de détection en temps réel pour les tâches de haute précision.
- YOLOv9 - Avec informations de gradient programmables (PGI).
- YOLOv10 - Le pionnier de l'entraînement NMS.
- YOLO11 - Un puissant prédécesseur de la génération actuelle.