YOLOv6.0 contreYOLO: un duel technique
Le paysage de la détection d'objets en temps réel est caractérisé par des itérations rapides et une concurrence pour trouver l'équilibre optimal entre vitesse et précision. Deux contributions importantes dans ce domaine sont YOLOv6.YOLOv6, développé par Meituan, et YOLO, de l'Académie DAMO d'Alibaba. Cette comparaison explore les innovations architecturales, les benchmarks de performance et les scénarios de déploiement idéaux pour les deux modèles, tout en soulignant comment Ultralytics moderne Ultralytics continue de repousser les limites de la vision par ordinateur.
Référence de performance
Les deux modèles ciblent des applications industrielles en temps réel, mais ils obtiennent leurs résultats grâce à des stratégies d'optimisation différentes. Le tableau ci-dessous détaille leurs performances sur l'ensemble de données COCO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Présentation de YOLOv6-3.0
Lancé par Meituan début 2023, YOLOv6.YOLOv6 représente une « refonte complète » de leur architecture précédente. Il se concentre principalement sur des modèles d'ingénierie optimisés pour être déployés sur du matériel dédié, comme les GPU, ce qui en fait un outil de choix pour l'automatisation industrielle.
Caractéristiques principales :
- Concaténation bidirectionnelle (BiC) : une méthode améliorée de fusion des caractéristiques dans le cou qui améliore la précision de la localisation sans coût de calcul significatif.
- Formation assistée par ancrage (AAT) : stratégie de formation hybride qui combine des paradigmes basés sur l'ancrage et sans ancrage afin de stabiliser la convergence et d'améliorer la précision finale.
- Tête découplée : sépare les tâches de classification et de régression, une norme dans les détecteurs modernes, permettant des ajustements plus précis des cadres de sélection.
- Compatible avec la quantification : l'architecture est spécialement conçue pour minimiser la perte de précision lors de la quantification en INT8 à l'aide de techniques telles que RepOptimizer et la distillation par canal.
Présentation de DAMO-YOLO
Développé par le groupe Alibaba et lancé fin 2022, YOLO introduit plusieurs technologies novatrices visant à repousser les limites du compromis entre vitesse et précision, notamment grâce à la recherche d'architecture neuronale (NAS).
Caractéristiques principales :
- MAE-NAS Backbone : il utilise une dorsale découverte via Neural Architecture Search (NAS) basée sur le principe de l'entropie maximale, garantissant un flux d'informations élevé et une grande efficacité.
- RepGFPN efficace : une conception heavyneck qui remplace le PANet standard par un réseau pyramidal généralisé (GFPN), offrant une meilleure fusion des caractéristiques multi-échelles.
- ZeroHead : une tête de détection extrêmement légère conçue pour réduire la charge de calcul généralement associée aux têtes découplées « lourdes ».
- AlignedOTA : une stratégie actualisée d'attribution d'étiquettes qui aligne plus efficacement les tâches de classification et de régression pendant l'entraînement.
Analyse comparative
Architecture et philosophie de conception
La principale différence réside dans leur conception d'origine. YOLOv6 est conçu manuellement en mettant l'accent sur la « facilité de déploiement », en ciblant spécifiquement TensorRT sur NVIDIA . Son utilisation de convolutions standard et de blocs de type RepVGG le rend très prévisible dans les environnements de production.
En revanche, YOLO s'appuie fortement sur la recherche automatisée (NAS) pour trouver des structures optimales. Bien que cela se traduise par une excellente efficacité théorique (FLOP), les structures ramifiées complexes que l'on trouve dans les backbones dérivés du NAS peuvent parfois être plus difficiles à optimiser pour des compilateurs matériels spécifiques que la conception simple de YOLOv6.
Performances sur les appareils périphériques
Pour les tâches impliquant IA de pointe, les deux modèles proposent des variantes « Tiny » ou « Nano » compétitives. YOLOv6 est exceptionnellement léger (4,7 millions de paramètres), ce qui le rend adapté aux appareils soumis à de sévères contraintes.YOLO, bien que légèrement plus volumineux, offre souvent une plus grande précision (42,0 mAP) dès son installation, ce qui peut justifier le coût de calcul supplémentaire pour les applications nécessitant des détails plus fins.
Méthodologies d'entraînement
YOLOv6 largement l'auto-distillation, où un modèle enseignant plus grand guide le modèle élève pendant la formation. Cela est essentiel pour ses performances élevées, mais ajoute de la complexité au processus de formation.YOLO un module d'amélioration de la distillation, mais met l'accent sur son attribution de balises AlignedOTA afin de traiter plus efficacement les échantillons difficiles pendant le processus d'apprentissage.
Considérations relatives au déploiement
Lors du déploiement en production, tenez compte du fait que YOLOv6 offre souvent une meilleure prise en charge prête à l'emploi de la quantification INT8 via TensorRT, ce qui peut doubler les vitesses d'inférence sur du matériel compatible tel que NVIDIA Orin.
L'avantage Ultralytics
SiYOLO YOLOv6 des avancées impressionnantes en matière de recherche, Ultralytics offre un avantage distinct aux développeurs qui privilégient la facilité d'utilisation, la maintenabilité et la préparation à la production.
Expérience développeur fluide
Ultralytics , y compris YOLO11 et le très récent YOLO26, sont construits sur un cadre unifié. Cela signifie que vous pouvez former, valider et déployer des modèles à l'aide d'une API simple et cohérente.
from ultralytics import YOLO
# Load a model (switch freely between versions)
model = YOLO("yolo26n.pt")
# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100)
# Export to ONNX for deployment
model.export(format="onnx")
Polyvalence dans toutes les tâches
Contrairement à de nombreux référentiels spécialisés, le Ultralytics prend en charge un large éventail de tâches de vision par ordinateur qui vont au-delà de la simple détection. Cela inclut la segmentation d'instances, l'estimation de pose, la classification et la détection de boîtes englobantes orientées (OBB). Cette polyvalence permet aux équipes de regrouper leurs outils d'IA dans un seul workflow.
Intégration de plateformes
La Ultralytics simplifie encore davantage le cycle de vie en fournissant des outils pour la gestion des ensembles de données, l'annotation automatique et la formation en ligne en un clic. Cette approche intégrée élimine les difficultés liées à la configuration d'environnements locaux complexes et à la gestion d'ensembles de données disparates.
L'avenir : Ultralytics
Pour les développeurs à la recherche des dernières innovations en matière de performances et d'architecture, YOLO26 établit une nouvelle norme.
- NMS de bout en bout : en éliminant la suppression non maximale (NMS), YOLO26 simplifie le pipeline de déploiement et réduit la variance de latence, une caractéristique essentielle pour les systèmes de sécurité en temps réel.
- CPU : grâce à la suppression de la perte focale de distribution (DFL) et à l'optimisation des contraintes de bord, YOLO26 atteint CPU jusqu'à 43 % plus rapide que les générations précédentes, ce qui en fait un choix idéal pour les appareils sans GPU dédié.
- Stabilité de l'entraînement avancé : l'intégration du MuSGD Optimizer, inspiré des techniques d'entraînement LLM, apporte une stabilité sans précédent à l'entraînement des modèles de vision, garantissant une convergence plus rapide et une meilleure généralisation.
- Gains spécifiques à certaines tâches : qu'il s'agisse de l'estimation de la vraisemblance résiduelle (RLE) pour une estimation précise de la pose ou des pertes d'angle spécialisées pour OBB, YOLO26 offre des améliorations ciblées pour les cas d'utilisation complexes.
Résumé
- Choisissez YOLOv6. YOLOv6 si votre principale cible de déploiement est NVIDIA à haut débit (par exemple, T4, A100) et si vous avez besoin d'une prise en charge mature de la quantification pour l'inspection industrielle ou l'analyse vidéo.
- ChoisissezYOLO si vous êtes intéressé par les architectures basées sur NAS et avez besoin d'une infrastructure hautement efficace pour la recherche ou des scénarios spécifiques où RepGFPN offre une meilleure fusion des fonctionnalités.
- Choisissez Ultralytics pour bénéficier du meilleur équilibre global entre vitesse, précision et expérience développeur. Sa conceptionNMS, ses faibles besoins en mémoire pendant l'entraînement et sa prise en charge étendue de l'écosystème en font le choix idéal pour passer rapidement du prototypage à la production de solutions d'entreprise.
Lectures complémentaires
Découvrez d'autres comparaisons et modèles dans la Ultralytics :
- YOLOv8 vs YOLOv6
- RT-DETR - Transformateur de détection en temps réel.
- YOLOv10 - Détection d'objets en temps réel de bout en bout.
- COCO - La référence standard pour la détection d'objets.