Passer au contenu

YOLOv9 YOLOv6.0 : comparaison technique complète

L'évolution de la détection d'objets en temps réel a été stimulée par des innovations continues dans les architectures de réseaux neuronaux, optimisant l'équilibre délicat entre la vitesse d'inférence, la précision et l'efficacité computationnelle. Alors que les développeurs et les chercheurs naviguent dans le paysage encombré des frameworks de vision par ordinateur, il est essentiel de comparer les architectures de pointe afin de sélectionner l'outil le mieux adapté à la tâche à accomplir.

Ce guide technique fournit une comparaison approfondie entre deux modèles très performants : YOLOv9, réputé pour sa capacité de rétention d'informations grâce au deep learning, et YOLOv6.YOLOv6, un modèle spécialement conçu pour les applications industrielles.

YOLOv9 : optimisation de la conservation des caractéristiques

Lancé début 2024, YOLOv9 l'un des défis les plus persistants des réseaux neuronaux profonds : la perte d'informations lors du processus de propagation vers l'avant. En garantissant la fiabilité des gradients et la conservation des données cruciales dans les cartes de caractéristiques, il repousse les limites de la précision théorique.

  • Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
  • Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
  • Date : 21 février 2024
  • Liens :Article Arxiv, Dépôt GitHub

Architecture et méthodologies

YOLOv9 le concept d'informations de gradient programmables (PGI) parallèlement au réseau d'agrégation de couches généralisé et efficace (GELAN). Le PGI résout le problème du goulot d'étranglement de l'information en fournissant une supervision auxiliaire qui garantit que le réseau principal apprend des caractéristiques robustes et fiables sans ajouter de surcharge d'inférence. Parallèlement, le GELAN optimise l'utilisation des paramètres, permettant au modèle d'atteindre une précision moyenne (mAP) de pointe tout en maintenant un coût de calcul raisonnable. Cela en fait un choix exceptionnel pour l'analyse d'images médicales ou la détection d'objets extrêmement petits où la fidélité des caractéristiques est essentielle.

En savoir plus sur YOLOv9

Présentation de YOLOv6.YOLOv6: conçu pour une utilisation à l'échelle industrielle

Développé par Meituan, YOLOv6-3.0 (également appelé v3.0) est conçu dès le départ pour les applications industrielles lourdes. Publié début 2023, il se concentre fortement sur l'efficacité du déploiement, offrant une suite de modèles compatibles avec la quantification qui excellent sur le matériel périphérique.

  • Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
  • Organisation : Meituan
  • Date : 13 janvier 2023
  • Liens :Article Arxiv, Dépôt GitHub

Architecture et méthodologies

YOLOv6.0 se distingue par ses stratégies RepOptimizer et Anchor-Aided Training (AAT). Le modèle utilise une conception de réseau neuronal sensible au matériel inspirée de RepVGG, qui lui permet de fonctionner exceptionnellement rapidement sur les GPU pendant l'inférence en fusionnant les couches. La mise à jour 3.0 a encore affiné l'architecture en introduisant un module de concaténation bidirectionnelle (BiC) afin d'améliorer la précision de la localisation. Comme il est hautement optimisé pour les formats de déploiement tels que TensorRT et OpenVINO, YOLOv6. YOLOv6 est fréquemment adopté dans les domaines de la logistique, de l'automatisation industrielle et des environnements de serveurs à haut débit.

En savoir plus sur YOLOv6-3.0

Comparaison des performances

Lorsque nous évaluons ces modèles sur l'ensemble COCO standard COCO , nous pouvons observer des compromis distincts entre la précision et la vitesse d'inférence brute.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Analyse technique

Alors que YOLOv6 remporte la palme de la vitesse brute sur le matériel T4 (1,17 ms), YOLOv9t parvient à extraire un mAP légèrement supérieur mAP 38,3 %) tout en utilisant moins de la moitié des paramètres (2,0 millions contre 4,7 millions) et un nombre nettement inférieur de FLOP. Pour les exigences complexes et de haute précision, le puissant YOLOv9e pousse la précision à 55,6 % mAP, illustrant la puissance de l'architecture PGI dans les réseaux profonds.

Assurez la pérennité de votre projet avec YOLO26

Si vous lancez une nouvelle initiative dans le domaine de la vision par ordinateur, nous vous recommandons vivement d'utiliser YOLO26. Lancé en 2026, il est doté d'une conception native de bout en bout NMS qui élimine complètement la latence de post-traitement, permettant ainsi CPU jusqu'à 43 % plus rapide.

L'avantage de l'écosystème Ultralytics

Quelle que soit la philosophie architecturale du modèle qui vous intéresse, leur implémentation native via Python Ultralytics offre une expérience de développement supérieure.

Facilité d'utilisation et efficacité de la formation

La formation de modèles d'apprentissage profond complexes nécessite généralement un code standardisé volumineux. La Ultralytics simplifie ces complexités. Que vous optimisiez YOLOv9 la détection des défauts ou que vous exportiez YOLOv6 des applications mobiles, le flux de travail reste remarquablement cohérent.

De plus, Ultralytics nécessitent généralement moins CUDA pendant l'entraînement que les modèles volumineux basés sur des transformateurs. Cela permet aux développeurs d'utiliser des lots plus importants sur des GPU grand public, ce qui améliore considérablement l'efficacité de l'entraînement.

from ultralytics import YOLO

# Easily swap architectures by changing the weights file string
# model = YOLO("yolov6n.pt")
model = YOLO("yolov9c.pt")

# Train the model with built-in data augmentation and caching
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Export to ONNX or TensorRT seamlessly
model.export(format="engine", half=True)

Une polyvalence inégalée pour toutes les tâches visuelles

Alors que YOLOv6. YOLOv6 est fortement optimisé pour la génération rapide de cadres de sélection, les projets modernes de vision par ordinateur nécessitent souvent une approche multitâche. Ultralytics sont réputés pour leur extrême polyvalence. Avec des outils tels que Ultralytics YOLOv8 et le plus récent YOLO26, un seul cadre permet de gérer de manière transparente la détection d'objets, la segmentation d'instances, la classification d'images, l'estimation de poses et les boîtes englobantes orientées (OBB).

Présentation de YOLO26 : La nouvelle norme

Pour les organisations qui cherchent à optimiser à la fois les performances et la facilité de déploiement, YOLO26 représente la convergence ultime entre vitesse et précision.

S'appuyant sur les succès de YOLO11, YOLO26 introduit plusieurs fonctionnalités qui changent le paradigme :

  • Optimiseur MuSGD : Inspiré par les techniques d'entraînement des grands modèles linguistiques (LLM) comme Kimi K2 de Moonshot AI, cet optimiseur hybride assure un entraînement incroyablement stable et une convergence rapide.
  • Suppression de la DFL : En supprimant la Distribution Focal Loss, YOLO26 simplifie le graphe d'exportation, le rendant significativement plus compatible avec les puces d'edge computing à faible consommation.
  • ProgLoss + STAL: Ces fonctions de perte avancées offrent des améliorations notables dans la reconnaissance des petits objets, ce qui est essentiel pour les opérations de drones et les applications IoT.
  • Améliorations spécifiques aux tâches : YOLO26 intègre un prototypage multi-échelle natif pour la segmentation, l'estimation du log-vraisemblance résiduel (RLE) pour le suivi squelettique, et des algorithmes de perte angulaire spécialisés pour résoudre les cas limites dans la détection d'obb.

Scénarios de déploiement idéaux

Le choix de la bonne architecture se résume finalement à vos contraintes de production.

Choisissez YOLOv6-3.0 si vous disposez d'un pipeline établi dans la fabrication industrielle, si vous vous appuyez fortement sur la quantification et si vous utilisez des accélérateurs d'inférence spécialisés où vous avez besoin de la latence matérielle la plus faible, inférieure à la milliseconde.

Choisissez YOLOv9 si vous abordez des diagnostics médicaux complexes ou une surveillance à longue portée où l'absence de caractéristiques subtiles au niveau des pixels n'est pas une option.

Cependant, pour une approche parfaitement équilibrée qui offre une précision de pointe ainsi qu'un déploiement simplifié et NMS, Ultralytics s'impose comme la recommandation incontournable pour l'ingénierie moderne en vision par ordinateur. Son cycle de développement actif, sa documentation complète et le soutien dynamique de sa communauté en font un outil indispensable pour les chercheurs et les développeurs.


Commentaires