Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX vs YOLOv10#

L'évolution des modèles de vision par ordinateur en temps réel a été marquée par d'importants bonds architecturaux. Deux étapes charnières de ce parcours sont YOLOX et YOLOv10. Sorti en 2021, YOLOX a comblé avec succès le fossé entre la recherche académique et l'application industrielle en introduisant une conception très efficace sans ancres. Trois ans plus tard, YOLOv10 a révolutionné le domaine en éliminant le besoin de suppression des non-maximaux (NMS) lors du post-traitement, repoussant les limites de l'efficacité et de la vitesse.

Cette comparaison technique complète explore les architectures, les mesures de performance et les cas d'utilisation idéaux pour les deux modèles, fournissant des informations pour t'aider à choisir le bon outil pour ton prochain projet de détection d'objets.

Link to this sectionOrigines et métadonnées des modèles#

Comprendre les origines de ces modèles donne du contexte sur leurs choix architecturaux et les environnements de déploiement prévus.

Détails sur YOLOX
Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation : Megvii
Date : 18-07-2021
Arxiv : https://arxiv.org/abs/2107.08430
GitHub : https://github.com/Megvii-BaseDetection/YOLOX
Docs : https://github.com/Megvii-BaseDetection/YOLOX/tree/main/docs

En savoir plus sur YOLOX

Détails sur YOLOv10
Auteurs : Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han et Guiguang Ding
Organisation : Tsinghua University
Date : 23-05-2024
Arxiv : https://arxiv.org/abs/2405.14458
GitHub : https://github.com/THU-MIG/yolov10
Docs : https://docs.ultralytics.com/models/yolov10/

En savoir plus sur YOLOv10

Link to this sectionInnovations architecturales#

Les différences fondamentales entre YOLOX et YOLOv10 résident dans la façon dont ils gèrent les prédictions de boîtes englobantes et le post-traitement.

Link to this sectionYOLOX : Pionnier de la conception sans ancres#

YOLOX a fait sensation en faisant passer la famille YOLO à une architecture sans ancres. En prédisant le centre d'un objet plutôt que de se baser sur des boîtes d'ancrage prédéfinies, YOLOX a considérablement réduit le nombre de paramètres de conception et le réglage heuristique nécessaires pour les jeux de données personnalisés. De plus, il a introduit une tête découplée, séparant les tâches de classification et de régression en voies distinctes. Cette approche a résolu le conflit entre l'identification de ce qu'est un objet et la détermination de l'endroit où il se trouve, entraînant une augmentation notable de la vitesse de convergence et de la précision.

Link to this sectionYOLOv10 : La révolution sans NMS#

Bien que YOLOX ait simplifié la tête de détection, il reposait toujours sur le NMS pour filtrer les prédictions redondantes de boîtes englobantes. YOLOv10 a résolu ce goulot d'étranglement fondamental. En utilisant des affectations doubles cohérentes pendant l'entraînement, YOLOv10 atteint une détection native de bout en bout. Il utilise une tête un-à-plusieurs pendant l'entraînement pour assurer des signaux de supervision riches, tout en utilisant une tête un-à-un pendant l'inférence pour sortir directement les prédictions finales. Cette conception holistique axée sur l'efficacité et la précision élimine totalement le NMS, réduisant considérablement la latence d'inférence sur les puces embarquées.

L'impact de la suppression du NMS

La suppression des non-maximaux est souvent une opération complexe à accélérer sur les unités de traitement neuronal (NPU). En la supprimant, YOLOv10 permet à l'ensemble du graphe du modèle de s'exécuter de manière transparente sur du matériel spécialisé, améliorant considérablement la compatibilité avec des frameworks d'optimisation tels qu'OpenVINO et TensorRT.

Link to this sectionMesures de performance et comparaison#

Lors de l'évaluation des modèles pour la production, il est essentiel d'équilibrer la précision avec la surcharge informatique. Le tableau ci-dessous illustre les compromis entre les différentes échelles de YOLOX et YOLOv10.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256,9160.4

Link to this sectionAnalyse des données#

Les métriques démontrent clairement le saut générationnel de YOLOv10. Par exemple, YOLOv10-S atteint une précision moyenne (mAP) de 46,7 % contre 46,9 % pour YOLOX-m, mais le fait en utilisant moins d'un tiers des paramètres (7,2M contre 25,3M) et beaucoup moins de FLOPs. De plus, le modèle haut de gamme YOLOv10-X pousse le mAP à 54,4 %, ce qui le rend très compétitif pour les tâches exigeantes en précision tout en restant plus rapide que l'ancienne architecture YOLOX-x.

Link to this sectionL'avantage de l'écosystème Ultralytics#

Alors que YOLOX reste une implémentation de recherche open-source robuste, l'adoption de YOLOv10 te donne un accès immédiat à l'écosystème bien entretenu fourni par Ultralytics. Choisir un modèle pris en charge par Ultralytics garantit une expérience utilisateur rationalisée caractérisée par une API simple et une documentation complète.

Les développeurs bénéficient énormément des exigences de mémoire du framework ; l'entraînement des modèles Ultralytics consomme généralement beaucoup moins de mémoire CUDA que les alternatives lourdes basées sur les Transformer comme RT-DETR. Cette empreinte d'entraînement efficace permet des tailles de lots plus grandes sur du matériel grand public, accélérant le temps entre la collecte de données et le déploiement du modèle. De plus, le framework offre une polyvalence inégalée, permettant aux utilisateurs de basculer de manière transparente entre la détection d'objets, la segmentation d'instances et l' estimation de pose avec un minimum de modifications de code.

Link to this sectionExemple d'entraînement et d'inférence#

L'API unifiée rend la validation des idées incroyablement rapide. L'extrait suivant démontre à quel point tu peux facilement entraîner et déployer un modèle YOLOv10 en utilisant le backend PyTorch :

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export the model for edge deployment
model.export(format="engine", quantize=16)

En tirant parti des routines d'exportation intégrées, la conversion de modèles vers des formats comme TensorRT ou ONNX ne nécessite qu'une seule ligne de code, contournant entièrement les obstacles de compilation complexes.

Link to this sectionCas d'utilisation idéaux et scénarios de déploiement#

Le choix entre ces architectures dépend en grande partie de tes contraintes matérielles et des exigences spécifiques à ton domaine.

Link to this sectionAnalytique vidéo en temps réel#

Pour les applications nécessitant une latence ultra-faible, telles que la conduite autonome ou la surveillance du trafic en temps réel, YOLOv10 est le meilleur choix. Sa conception de bout en bout sans NMS garantit des temps d'exécution déterministes, ce qui est crucial pour les systèmes de sécurité où une latence de post-traitement variable ne peut pas être tolérée. Les modèles atteignent facilement des fréquences d'images élevées sur des appareils comme la série NVIDIA Jetson.

Link to this sectionBases de référence académiques et microcontrôleurs Edge#

YOLOX conserve sa valeur dans les contextes académiques où les chercheurs souhaitent une base de référence propre avec une tête découplée pour expérimenter des stratégies d'affectation d'étiquettes. De plus, le YOLOX-Nano exceptionnellement petit (moins d'un million de paramètres) peut être intégré sur des microcontrôleurs edge très contraints où la mémoire se mesure en kilo-octets, à condition que le matériel puisse prendre en charge les opérations de convolution standard.

Link to this sectionLa norme ultime : Ultralytics YOLO26#

Bien que YOLOv10 ait marqué un pas de géant en supprimant le NMS, le domaine de la vision par ordinateur progresse rapidement. Pour les développeurs visant à mettre en œuvre les meilleures performances de leur catégorie aujourd'hui, nous recommandons vivement d'explorer YOLO26.

Sorti comme la toute dernière norme en IA de vision, YOLO26 reprend les idées fondamentales de ses prédécesseurs et les booste. Il offre le meilleur équilibre de performance, prenant nativement en charge la détection, la segmentation, la pose et les boîtes englobantes orientées.

Voici pourquoi YOLO26 est le choix recommandé pour les pipelines modernes de vision par ordinateur :

  • Conception de bout en bout sans NMS : En s'appuyant sur les percées de YOLOv10, YOLO26 est nativement de bout en bout, garantissant des temps d'inférence plus rapides et déterministes sans goulots d'étranglement après le traitement.
  • Inférence CPU jusqu'à 43 % plus rapide : Il est spécifiquement optimisé pour l'informatique edge, garantissant des performances exceptionnelles sur les processeurs mobiles et les appareils dépourvus de GPU discrets.
  • Optimiseur MuSGD : Inspiré par l'entraînement des grands modèles de langage (plus précisément Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD et de Muon pour un entraînement incroyablement stable et une convergence rapide.
  • ProgLoss + STAL : Ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance des petits objets, ce qui est essentiel pour des domaines exigeants comme l'imagerie aérienne et la navigation par drone.
  • Suppression de DFL : En supprimant la Distribution Focal Loss, YOLO26 simplifie le graphe du modèle pour une exportation sans friction vers des appareils edge et basse consommation.
  • Améliorations spécifiques aux tâches : Que tu utilises l'estimation de vraisemblance résiduelle (RLE) pour l'estimation de pose ou une perte d'angle spécialisée pour OBB, YOLO26 est affiné pour chaque tâche de vision majeure.

Pour les développeurs prêts à mettre à niveau leurs pipelines avec les outils d'entraînement et de déploiement les plus efficaces disponibles, passer à la plateforme Ultralytics et exploiter YOLO26 te garantit de rester à la pointe de l'intelligence artificielle. Les utilisateurs intéressés par des architectures plus anciennes mais stables peuvent également consulter YOLO11 ou YOLOv8 pour un large soutien de la communauté et une robustesse éprouvée.

Contributeurs

Commentaires