YOLO YOLO26 : analyse des architectures de détection d'objets en temps réel de nouvelle génération
Le paysage de la vision par ordinateur est en constante évolution, poussé par le besoin d'architectures qui équilibrent une grande précision et une inférence à faible latence. Cette comparaison explore les subtilités techniques de YOLO et Ultralytics , en examinant leurs innovations architecturales, leurs méthodologies d'entraînement et leurs cas d'utilisation idéaux.
Que vous déployiez des modèles de vision sur des appareils périphériques ou que vous construisiez des pipelines cloud à haut débit, il est essentiel de comprendre les nuances entre ces modèles afin de prendre des décisions architecturales éclairées dans le cadre du développement moderne de l'IA.
YOLO: recherche d'architecture neuronale à grande échelle
YOLO, développé par le groupe Alibaba, a été lancé le 23 novembre 2022. Conçu par Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun, ce modèle se concentre principalement sur la découverte automatisée d'architectures efficaces à l'aide de la recherche d'architecture neuronale (NAS).
Vous pouvez consulter les recherches originales dans leur article ArXiv ou explorer le code source sur le dépôtYOLO .
Principales caractéristiques architecturales
YOLO plusieurs innovations techniques conçues pour repousser les limites de la détection d'objets en temps réel :
- MAE-NAS Backbones :YOLO une recherche évolutive multi-objectifs pour trouver les backbones optimaux. Cette approche NAS permet de découvrir des architectures qui équilibrent strictement la précision de détection et la vitesse d'inférence sur un matériel spécifique.
- RepGFPN efficace : une conception à cou épais qui améliore considérablement la fusion des caractéristiques, ce qui est très utile lors de l'analyse de scènes complexes telles que celles que l'on trouve dans l'imagerie aérienne.
- Conception ZeroHead : une tête de détection fortement simplifiée qui minimise la complexité computationnelle des couches de prédiction finales.
- AlignedOTA et distillation :YOLO l'Aligned Optimal Transport Assignment (AlignedOTA) pour résoudre les ambiguïtés d'attribution des étiquettes, associé à une stratégie robuste d'amélioration de la distillation des connaissances afin d'améliorer la précision des modèles d'apprentissage plus petits à l'aide de réseaux d'apprentissage plus grands.
Ultralytics : YOLO26
Publié le 14 janvier 2026 par Glenn Jocher et Jing Qiu chez Ultralytics, YOLO26 représente le summum de l'IA visuelle accessible et hautement performante. S'appuyant sur l'héritage de YOLO11 et YOLOv10, YOLO26 a été entièrement conçu pour un déploiement en périphérie, une polyvalence multimodale et une facilité d'utilisation inégalée.
Innovations de YOLO26
Ultralytics introduit plusieurs fonctionnalités révolutionnaires qui en font le choix incontournable pour les applications modernes de vision par ordinateur :
- Conception NMS de bout en bout : YOLO26 élimine nativement le post-traitement par suppression non maximale (NMS). Initialement mise au point dans YOLOv10, cette approche de bout en bout simplifie considérablement les pipelines de déploiement et garantit une inférence déterministe à faible latence.
- CPU jusqu'à 43 % plus rapide : optimisé sur le plan architectural pour l'edge computing, YOLO26 offre une vitesse exceptionnelle sur les appareils périphériques et les CPU standard, ce qui le rend parfait pour les appareils IoT alimentés par batterie.
- Optimiseur MuSGD : inspiré par la formation LLM (comme Kimi K2 de Moonshot AI), YOLO26 intègre un hybride de SGD Muon. Cela apporte la stabilité de la formation des grands modèles linguistiques à la vision par ordinateur, ce qui se traduit par une convergence plus rapide et plus fiable.
- Suppression DFL : en supprimant la perte focale de distribution, le graphique du modèle est simplifié, ce qui permet une exportation sans friction vers des formats tels que ONNX et TensorRT.
- ProgLoss + STAL : ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance des petits objets, une fonctionnalité essentielle pour les opérations de drones et l'agriculture.
Améliorations spécifiques à certaines tâches
YOLO26 comprend des améliorations spécialisées dans plusieurs modalités : un proto multi-échelle pour la segmentation d'instances, l'estimation de la vraisemblance résiduelle (RLE) pour l'estimation de la pose et une perte angulaire avancée pour atténuer les problèmes de limites dans la détection des boîtes englobantes orientées (OBB).
Comparaison des performances
Lors de l'évaluation de ces modèles, l'équilibre entre la précision (mAP) et l'efficacité computationnelle (vitesse/FLOP) est primordial. Le tableau ci-dessous met en évidence la comparaison de ces modèles à l'aide de COCO , norme industrielle.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Comme on peut le voir ci-dessus, YOLO26 offre systématiquement une plus grande précision avec beaucoup moins de paramètres et de FLOP, ce qui se traduit par une architecture beaucoup plus efficace tant pour l'entraînement que pour l'inférence.
Efficacité et facilité d'utilisation de la formation
Les complexités deYOLO
SiYOLO une précision compétitive, sa méthodologie d'entraînement est toutefois très complexe. Le recours à la recherche d'architecture neuronale (NAS) et à une distillation intensive des connaissances signifie que l'entraînement d'un modèle personnalisé nécessite souvent d'importantes GPU et des connaissances spécialisées. Ce processus en plusieurs étapes, qui consiste à entraîner un modèle enseignant massif pour le distiller dans un modèle élève plus petit, peut constituer un goulot d'étranglement pour les équipes d'ingénieurs agiles qui tentent d'itérer rapidement sur des ensembles de données personnalisés.
Ultralytics simplifiée
À l'inverse, Ultralytics est conçu pour une utilisation « zéro à héros ». L'ensemble du cycle de vie de la formation, de la validation et du déploiement est abstrait derrière une Python et CLI propres et unifiées. De plus, YOLO26 nécessite beaucoup moins de CUDA pendant la formation par rapport aux modèles basés sur des transformateurs tels que RT-DETR, ce qui permet aux chercheurs de former des modèles de pointe sur du matériel grand public.
Voici un exemple illustrant la simplicité avec laquelle il est possible de former, d'évaluer et d'exporter un modèle YOLO26 à l'aide du Ultralytics :
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")
Pour les équipes qui préfèrent un environnement sans code, Ultralytics offre une interface intuitive pour l'annotation des ensembles de données, la formation dans le cloud et le déploiement transparent.
Applications concrètes
Le choix de l'architecture appropriée dépend fortement de l'environnement de déploiement cible et des contraintes matérielles.
Contrôle qualité industriel
Pour l'automatisation de la fabrication à grande vitesse, YOLO peut fonctionner efficacement sur GPU dédié. Cependant, YOLO26 est le choix privilégié pour les chaînes de montage modernes. Sa conception de bout en bout NMS garantit une latence déterministe et sans gigue, ce qui est essentiel pour synchroniser les données visuelles avec les actionneurs robotiques en temps réel.
IA en périphérie et appareils mobiles
Le déploiement de la vision par ordinateur sur des appareils alimentés par batterie exige une efficacité extrême. Alors queYOLO sur des cols RepGFPN spécifiques, YOLO26n (Nano) est spécialement optimisé pour l'informatique en périphérie. Grâce à la suppression du DFL et à CPU 43 % plus rapide, il constitue la solution ultime pour les caméras intelligentes, les applications mobiles et les systèmes d'alarme de sécurité.
Exigences relatives aux projets multimodaux
Si un projet exige plus que la simple détection d'objets, comme l'analyse des mouvements des joueurs dans le sport à l'aide de l'estimation de la pose ou l'extraction des limites exactes des pixels à l'aide de la segmentation d'instance,YOLO26 offre une prise en charge native de toutes ces tâches dans une base de code unique et unifiée.YOLO strictement limité à la détection des cadres de sélection.
Cas d'utilisation et recommandations
Le choix entreYOLO YOLO26 dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.
Quand choisir DAMO-YOLO
YOLO un choix judicieux pour :
- Analyse vidéo à haut débit : traitement de flux vidéo à fréquence d'images élevée surGPU NVIDIA fixe où le débit du lot 1 est la principale métrique.
- Lignes de fabrication industrielle : scénarios avec des contraintes strictes GPU sur du matériel dédié, tels que le contrôle qualité en temps réel sur les chaînes de montage.
- Recherche sur la recherche d'architecture neuronale : étude des effets de la recherche automatisée d'architecture (MAE-NAS) et des structures de base reparamétrées efficaces sur les performances de détection.
Quand choisir YOLO26
YOLO26 est recommandé pour :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Conclusion
Ces deux architectures représentent des avancées significatives dans le domaine du deep learning. YOLO offre un aperçu fascinant de la puissance des techniques de recherche d'architecture neuronale et de distillation adaptées à des benchmarks matériels spécifiques.
Cependant, pour les développeurs, les chercheurs et les entreprises à la recherche d'une solution prête à l'emploi, Ultralytics s'impose comme le choix idéal. Sa conception de bout en bout NMS, ses gains considérables CPU , sa polyvalence multimodale et son intégration dans Ultralytics bien entretenu en font l'outil le plus robuste et le plus pratique pour résoudre les défis actuels de la vision par ordinateur dans le monde réel.
Pour les utilisateurs souhaitant découvrir d'autres modèles au sein de Ultralytics , une documentation complète est disponible pour YOLO11, YOLOv8et le modèle basé sur un transformateur RT-DETR.