Passer au contenu

YOLO YOLO26 : confrontation technique pour la détection d'objets en temps réel

L'évolution de la vision par ordinateur a été motivée par la recherche constante d'efficacité, de rapidité et de précision. Deux noms importants dans ce domaine sontYOLO, développé par Alibaba Group, et le très innovant YOLO26, la dernière version Ultralytics. Alors queYOLO des innovations significatives dans la recherche d'architecture neuronale (NAS) en 2022, YOLO26 redéfinit le paysage en 2026 avec une conception de bout en bout, NMS, adaptée au déploiement en périphérie et à l'évolutivité de la production.

Ce guide fournit une analyse technique approfondie de ces deux modèles, en comparant leurs architectures, leurs mesures de performance et leur adéquation aux applications du monde réel.

YOLO: Innovation dans la recherche d'architectures neuronales

Développé par la DAMO Academy d'Alibaba, YOLO (Distillation-Enhanced Neural Architecture Search-based YOLO) se concentre sur l'automatisation de la conception de structures de détection afin d'optimiser les performances dans le cadre de contraintes de latence spécifiques.

Principales caractéristiques architecturales

YOLO seYOLO par plusieurs technologies de pointe :

  • Recherche d'architecture neuronale (NAS) : contrairement aux architectures conçues manuellement (comme CSPDarknet),YOLO MAE-NAS (méthode d'automatisation de la recherche d'architecture neuronale efficace) pour découvrir les structures optimales. Il en résulte une topologie de réseau spécialement adaptée au compromis entre les opérations en virgule flottante (FLOP) et la précision.
  • RepGFPN : une conception à cou lourd qui utilise les réseaux pyramidaux généralisés (GFPN) combinés à une reparamétrisation. Cela permet une fusion efficace des caractéristiques à différentes échelles, améliorant ainsi la détection d'objets de tailles variables.
  • ZeroHead : une tête de détection simplifiée qui réduit la charge de calcul pendant l'inférence.
  • AlignedOTA : Une stratégie d’attribution dynamique des étiquettes qui résout le problème de désalignement entre les tâches de classification et de régression pendant la formation.

Performances et limitations

YOLO un bond en avant significatif en 2022, surpassant les versions précédentes telles que YOLOv6 et YOLOv7 dans des benchmarks spécifiques. Cependant, sa dépendance à des pipelines d'entraînement complexes, en particulier la nécessité d'une phase de distillation avec un modèle enseignant de grande taille, peut le rendre fastidieux pour les développeurs qui ont besoin d'itérer rapidement sur des ensembles de données personnalisés. De plus, bien que son RepGFPN soit puissant, il peut être gourmand en mémoire par rapport aux architectures modernes rationalisées.

Détails de DAMO-YOLO :

  • Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
  • Organisation : Groupe Alibaba
  • Date : 23 novembre 2022
  • Arxiv : 2211.15444v2
  • GitHub : YOLO

Ultralytics : la révolution de bout en bout de l'Edge

Sorti en janvier 2026, Ultralytics s'appuie sur l'héritage de YOLOv8 et YOLO11, introduisant un changement fondamental dans la manière dont les détections sont traitées. Il est conçu non seulement pour obtenir des scores de référence élevés, mais aussi pour un déploiement pratique et transparent sur tous les supports, des serveurs cloud aux appareils IoT aux ressources limitées.

Une architecture révolutionnaire

YOLO26 intègre plusieurs avancées technologiques de pointe qui le distinguent des détecteurs traditionnels avec ou sans ancrage :

  • Conception NMS de bout en bout : le changement le plus significatif est peut-être la suppression de la suppression non maximale (NMS). En adoptant une stratégie d'appariement un-à-un pendant l'entraînement (lancée dans YOLOv10), le modèle produit directement des prédictions finales. Cela élimine la variance de latence causée par NMS , qui constitue souvent un goulot d'étranglement dans les scènes encombrées.
  • Optimiseur MuSGD : inspiré par les innovations dans la formation des grands modèles linguistiques (LLM) telles que Kimi K2 de Moonshot AI, YOLO26 utilise un optimiseur hybride combinant SGD Muon. Cela apporte une stabilité sans précédent à la formation en vision par ordinateur, ce qui accélère la convergence.
  • Suppression de la perte focale de distribution : la suppression de la perte focale de distribution simplifie la couche de sortie. Cela facilite l'exportation vers des formats tels que ONNX et TensorRT est beaucoup plus propre, ce qui améliore considérablement la compatibilité avec les appareils périphériques et les microcontrôleurs à faible consommation d'énergie.
  • ProgLoss + STAL : l'intégration de Progressive Loss et Soft-Target Anchor Labeling (STAL) apporte des améliorations significatives dans la détection des petits objets, une exigence cruciale pour l'imagerie aérienne et la robotique.

Supériorité opérationnelle

YOLO26 est conçu pour la vitesse. Il offre CPU jusqu'à 43 % plus rapide que les générations précédentes, ce qui en fait le choix idéal pour les applications fonctionnant sur Raspberry Pi, les CPU mobiles ou les PC Intel .

En savoir plus sur YOLO26

Détails de YOLO26 :

Analyse comparative des performances

Le tableau suivant compare les performances deYOLO YOLO26 pour différentes tailles de modèles. YOLO26 démontre une efficacité supérieure, atteignant mAP comparable ou supérieur mAP une latence nettement inférieure, en particulier sur CPU où NMS est particulièrement efficace.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Avantage en termes de latence

Le CPU ONNX pour YOLO26 mettent en évidence l'énorme avantage de la conception NMS. En supprimant l'étape de post-traitement, YOLO26 garantit un temps d'inférence déterministe et toujours faible, ce qui est crucial pour l'analyse vidéo en temps réel.

L'avantage Ultralytics

Alors queYOLO des perspectives académiques intéressantes sur la recherche architecturale, Ultralytics fournit une solution holistique conçue pour les workflows de développement modernes.

1. Facilité d'utilisation et écosystème

La complexité de la formation basée sur la distillationYOLO peut constituer un obstacle à l'entrée. En revanche, Ultralytics une expérience « zéro à héros ». Grâce à une Python unifiée, les développeurs peuvent charger, former et déployer des modèles en quelques minutes. La Ultralytics simplifie encore davantage ce processus en proposant des outils de formation dans le cloud, de gestion des ensembles de données et d'annotation automatique.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)

2. Polyvalence des tâches

YOLO avant tout une architecture de détection d'objets. Ultralytics , quant à lui, est un outil multitâche très puissant. Un seul framework prend en charge :

  • Segmentation d'instance : inclut des améliorations spécifiques à certaines tâches, telles que la perte de segmentation sémantique.
  • Estimation de la pose : utilisation de l'estimation de la log-vraisemblance résiduelle (RLE) pour des points clés de haute précision.
  • OBB : perte d'angle spécialisée pour les boîtes englobantes orientées, essentielle pour l'analyse d'images satellites.
  • Classification : Classification d'images à grande vitesse.

3. Efficacité de l'entraînement et mémoire

YOLO26 est optimisé pour le matériel grand public. Des techniques telles que l'optimiseur MuSGD permettent un entraînement stable avec des tailles de lots plus importantes par rapport aux hybrides de transformateurs gourmands en mémoire ou aux anciennes architectures NAS. Cette démocratisation de l'entraînement de l'IA signifie que vous n'avez pas besoin d'un cluster H100 d'entreprise pour affiner un modèle de pointe.

Cas d'utilisation idéaux

Le choix du modèle approprié dépend de vos contraintes spécifiques, mais pour la plupart des scénarios de production, YOLO26 offre le meilleur retour sur investissement.

  • ChoisissezYOLO : vous êtes un chercheur spécialisé dans les méthodologies de recherche d'architecture neuronale ou si vous disposez d'un pipeline existant basé sur le code source tinyvision.
  • Choisissez Ultralytics si :
    • Déploiement en périphérie : vous devez exécuter le système sur un Raspberry Pi, des appareils mobiles ou des processeurs où la conception NMS offre des gains de vitesse considérables.
    • Développement rapide : vous avez besoin d'un modèle facile à former, à valider et à exporter vers des formats tels que CoreML TFLite configuration complexe.
    • Tâches de vision complexes : votre projet nécessite plus que de simples cadres de sélection, comme la segmentation d'objets ou le suivi de la posture humaine.
    • Maintenance à long terme : vous avez besoin d'un modèle soutenu par une communauté active, des mises à jour fréquentes et une documentation complète.

Conclusion

YOLO YOLO26 représentent tous deux des étapes importantes dans le domaine de la détection d'objets.YOLO le potentiel de la recherche automatisée d'architectures, repoussant les limites de ce qui était possible en 2022. Cependant, YOLO26 s'impose comme le choix définitif pour 2026 et au-delà. En résolvant le NMS , en optimisant CPU et en intégrant des techniques d'entraînement avancées telles que MuSGD, Ultralytics créé un modèle qui est non seulement plus rapide et plus précis, mais aussi beaucoup plus facile à utiliser.

Pour les développeurs qui souhaitent créer des applications de vision par ordinateur robustes et pérennes, Ultralytics fournit les outils, les modèles et l'assistance nécessaires pour réussir.

Pour ceux qui souhaitent explorer d'autres architectures hautes performances, pensez à consulter YOLO11 pour la détection à usage général ou RT-DETR pour les applications basées sur des transformateurs.


Commentaires