Passer au contenu

YOLO11 vs. YOLO26 : Évolution de l'IA de vision en temps réel

Le domaine de la vision par ordinateur progresse rapidement, et Ultralytics continue d'être à l'avant-garde avec des modèles de détection d'objets de pointe. Cette comparaison explore l'évolution architecturale, les métriques de performance et les applications pratiques de YOLO11, lancé fin 2024, et du révolutionnaire YOLO26, lancé en janvier 2026. Bien que les deux modèles représentent l'apogée de l'IA de vision à leurs moments de lancement respectifs, YOLO26 introduit des changements architecturaux significatifs qui redéfinissent l'efficacité et la vitesse pour le déploiement en périphérie.

Aperçu du modèle

YOLO11

Auteurs : Glenn Jocher et Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :Dépôt Ultralytics
Documentation :Documentation YOLO11

YOLO11 a marqué un raffinement significatif dans la série YOLO, offrant une réduction de 22 % des paramètres par rapport à YOLOv8 tout en améliorant la précision de la détection. Il a introduit une conception architecturale améliorée qui équilibrait vitesse et précision, en faisant un choix fiable pour diverses tâches de vision par ordinateur, allant de la détection d'objets à la segmentation d'instances.

En savoir plus sur YOLO11

YOLO26

Auteurs : Glenn Jocher et Jing Qiu
Organisation :Ultralytics
Date : 2026-01-14
GitHub :Dépôt Ultralytics
Documentation :Documentation YOLO26

YOLO26 représente un changement de paradigme avec sa conception nativement de bout en bout sans NMS, éliminant le besoin de post-traitement de suppression non maximale. Cette innovation, pionnière dans YOLOv10, simplifie considérablement les pipelines de déploiement et réduit la latence. YOLO26 est spécifiquement optimisé pour l'informatique en périphérie, offrant une inférence CPU jusqu'à 43 % plus rapide et incorporant de nouvelles techniques d'entraînement comme l'optimiseur MuSGD—un hybride de SGD et Muon inspiré par les innovations d'entraînement des LLM.

En savoir plus sur YOLO26

Avantage en latence de bout en bout

En supprimant l'étape NMS, YOLO26 offre des temps d'inférence constants, quel que soit le nombre d'objets détectés dans une scène. Ceci est crucial pour les applications en temps réel comme la conduite autonome, où les pics de post-traitement peuvent provoquer des retards dangereux.

Comparaison des performances

Le tableau ci-dessous met en évidence les améliorations de performance de YOLO26 par rapport à YOLO11. Notez les gains substantiels en vitesse CPU, ce qui rend YOLO26 exceptionnellement performant pour les appareils sans GPU dédiés, tels que les Raspberry Pi ou les téléphones mobiles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Plongée architecturale en profondeur

Architecture de YOLO11

YOLO11 s'est appuyé sur le concept de backbone CSPNet, affinant les couches d'extraction de caractéristiques pour capturer des détails plus granulaires. Il utilisait une tête de détection standard sans ancres et s'appuyait sur la Distribution Focal Loss (DFL) pour affiner la régression des boîtes englobantes. Bien que très efficace, la dépendance à l'égard de NMS signifiait que la vitesse d'inférence pouvait fluctuer en fonction de la densité de la scène, un goulot d'étranglement courant dans la surveillance des villes intelligentes.

Architecture de YOLO26

YOLO26 introduit plusieurs changements radicaux conçus pour l'efficacité et la stabilité :

  1. De bout en bout sans NMS : Le modèle prédit un ensemble fixe de boîtes englobantes avec une correspondance un-à-un pendant l'entraînement, supprimant l'étape heuristique de NMS pendant l'inférence.
  2. Suppression de la DFL : La Distribution Focal Loss a été supprimée pour simplifier le processus d'exportation vers des formats comme ONNX et TensorRT, améliorant la compatibilité avec les appareils périphériques à faible consommation.
  3. Optimiseur MuSGD : Inspiré par Kimi K2 de Moonshot AI et l'entraînement des grands modèles de langage (LLM), cet optimiseur hybride combine SGD et Muon pour assurer une convergence plus rapide et des exécutions d'entraînement plus stables, réduisant les « pics de perte » souvent observés dans l'entraînement de vision à grande échelle.
  4. ProgLoss + STAL : De nouvelles fonctions de perte (Progressive Loss et Soft-Target Assignment Loss) ciblent spécifiquement la reconnaissance des petits objets, offrant un gain considérable pour l'analyse d'images aériennes et les capteurs IoT.

Polyvalence des tâches

Les deux modèles prennent en charge un large éventail de tâches au sein de l'écosystème Ultralytics, garantissant que les développeurs peuvent changer de modèle sans réécrire leurs pipelines.

  • Détection : Détection standard de boîtes englobantes.
  • Segmentation : Masques au niveau du pixel. YOLO26 ajoute une perte de segmentation sémantique spécifique et un proto multi-échelle pour une meilleure qualité de masque.
  • Classification : Catégorisation d’images entières.
  • Estimation de pose : Détection de points clés. YOLO26 utilise l'estimation de la log-vraisemblance résiduelle (RLE) pour une plus grande précision dans les poses complexes, bénéfique pour l'analyse sportive.
  • OBB (Oriented Bounding Box) : Boîtes pivotées pour les objets aériens ou inclinés. YOLO26 comporte une perte d'angle spécialisée pour résoudre les problèmes de discontinuité des limites courants dans l'imagerie satellite.

Entraînement et utilisation

L'une des caractéristiques de l'écosystème Ultralytics est son API unifiée. Que vous utilisiez YOLO11 ou que vous passiez à YOLO26, le code reste pratiquement identique, minimisant ainsi la dette technique.

Exemple Python

Voici comment vous pouvez entraîner le nouveau modèle YOLO26 en utilisant la même interface familière que pour YOLO11. Cet exemple illustre l'entraînement sur le jeu de données COCO8, un petit jeu de données de 8 images idéal pour les tests.

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model
# The MuSGD optimizer is handled automatically internally for YOLO26 models
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cpu",  # Use '0' for GPU
)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Exemple CLI

L'interface en ligne de commande est tout aussi rationalisée, permettant une expérimentation rapide et une évaluation comparative des modèles.

# Train YOLO26n on the COCO8 dataset
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640

# Export to ONNX for simplified edge deployment
yolo export model=yolo26n.pt format=onnx

Cas d'utilisation idéaux

Choisissez YOLO11 si :

  • Vous disposez d'un pipeline de production existant, hautement optimisé pour YOLO11, et ne pouvez pas vous permettre de temps de validation pour une nouvelle architecture.
  • Votre matériel de déploiement possède des optimisations spécifiques pour la structure de couche de YOLO11 qui n'ont pas encore été mises à jour pour YOLO26.

Choisissez YOLO26 si :

  • Le déploiement en périphérie est critique : La suppression de NMS et DFL fait de YOLO26 le choix supérieur pour les applications Android/iOS et les systèmes embarqués où les cycles CPU sont précieux.
  • Détection de petits objets : Les fonctions ProgLoss et STAL le rendent nettement plus performant pour identifier les parasites en agriculture ou les objets éloignés dans les séquences de drones.
  • Stabilité de l'entraînement : Si vous vous entraînez sur des jeux de données personnalisés massifs et avez rencontré des problèmes de divergence, l'optimiseur MuSGD de YOLO26 offre un chemin d'entraînement plus stable.
  • Exportation la plus simple : L'architecture de bout en bout s'exporte plus proprement vers des formats comme CoreML et TensorRT sans nécessiter de plugins NMS externes complexes.

Pour les développeurs intéressés par l'exploration d'autres options au sein de la famille Ultralytics, des modèles comme YOLOv10 (le précurseur de YOLO de bout en bout) ou YOLO-World (pour la détection à vocabulaire ouvert) sont également entièrement pris en charge.

Conclusion

Alors que YOLO11 reste un modèle robuste et très performant, YOLO26 établit une nouvelle référence pour ce qui est possible en vision par ordinateur en temps réel. En intégrant des dynamiques d'entraînement inspirées des LLM et en simplifiant le pipeline d'inférence grâce à une conception sans NMS, Ultralytics a créé un modèle non seulement plus précis, mais aussi nettement plus facile à déployer dans le monde réel.

L'écosystème Ultralytics garantit une mise à niveau transparente. Avec des exigences de mémoire réduites pendant l'entraînement et des vitesses CPU plus rapides pendant l'inférence, YOLO26 est le point de départ recommandé pour tous les nouveaux projets en 2026.

Démarrer avec Ultralytics


Commentaires