Meet YOLO26: next-gen vision AI.

Link to this sectionAnalyse comparative des options de déploiement de YOLO26#

YOLO26 prend en charge plus de 20 options de déploiement, chacune optimisée pour un environnement d'exécution, une cible matérielle ou une plateforme différente — de PyTorch et ONNX à TensorRT, OpenVINO, CoreML et des formats dédiés aux NPU en périphérie. Choisir la bonne option permet d'équilibrer la vitesse d'inférence, les contraintes matérielles et la facilité d'intégration. Ce guide compare chaque option pour t'aider à choisir celle qui convient le mieux à ton application, puis à consulter les meilleures pratiques de déploiement de modèles pour un déploiement fiable.



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

Le déploiement est l'étape du flux de travail d'un projet de vision par ordinateur où un modèle entraîné commence à effectuer un travail réel ; le format vers lequel tu exportes a donc un impact direct sur la vitesse, le coût et la portabilité.

Link to this sectionComment choisir la bonne option de déploiement pour ton modèle YOLO26#

Lorsqu'il est temps de déployer ton modèle YOLO26, le choix d'un format d'exportation adapté est très important. Comme indiqué dans la documentation d'exportation YOLO26 d'Ultralytics, la fonction model.export() convertit ton modèle entraîné en une variété de formats adaptés à divers environnements et exigences de performance.

Le format idéal dépend du contexte opérationnel et du matériel prévus pour ton modèle.

Ignore l'exportation manuelle

Pour un déploiement géré sans exportation manuelle, Ultralytics Platform fournit des points de terminaison d'inférence prêts à l'emploi avec une mise à l'échelle automatique sur 43 régions mondiales.

Link to this sectionOptions de déploiement de YOLO26#

Voici une courte description de chaque format et quand l'utiliser. Pour la procédure complète d'exportation, consulte la documentation d'exportation ; pour les critères comparatifs, passe directement au tableau de comparaison.

  • PyTorch (.pt) : Le format natif d'entraînement et d'inférence, offrant une flexibilité maximale et une accélération GPU CUDA — idéal pour la recherche et le prototypage sans étape d'exportation requise.
  • TorchScript (torchscript) : Sérialise le modèle pour un environnement d'exécution C++ sans Python, adapté aux systèmes de production où Python n'est pas disponible.
  • ONNX (onnx) : Un format d'échange agnostique aux frameworks avec un large support multiplateforme et matériel via ONNX Runtime.
  • OpenVINO (openvino) : La boîte à outils d'Intel pour une inférence optimisée sur les CPU, GPU intégrés et NPU Intel, courante dans l'IoT et l'informatique en périphérie.
  • TensorRT (engine) : L'environnement d'exécution haute performance de NVIDIA offrant une inférence GPU de premier ordre avec une optimisation FP16 et INT8.
  • CoreML (coreml) : Le format sur appareil d'Apple pour iOS, macOS, watchOS et tvOS, utilisant l'Apple Neural Engine.
  • TF SavedModel (saved_model) : Le format standard de TensorFlow pour un service évolutif côté serveur avec TensorFlow Serving.
  • TF GraphDef (pb) : Un format TensorFlow à graphe statique figé pour les environnements nécessitant un graphe de calcul fixe.
  • TF Lite (tflite) : Un environnement d'exécution TensorFlow léger pour l'inférence sur appareil pour matériel mobile et embarqué.
  • TF Edge TPU (edgetpu) : Compile les modèles TF Lite pour les accélérateurs Google Coral Edge TPU.
  • TF.js (tfjs) : Exécute les modèles directement dans le navigateur sans backend, accéléré via WebGL.
  • PaddlePaddle (paddle) : Le framework de deep learning de Baidu, populaire en Chine, avec un large support matériel.
  • MNN (mnn) : Un moteur d'inférence léger et haute performance optimisé pour les systèmes mobiles et embarqués ARM et x86-64.
  • NCNN (ncnn) : Un framework d'inférence léger et haute performance optimisé pour les appareils mobiles ARM.
  • Sony IMX500 (imx) : Exportations pour le capteur de vision intelligent IMX500 de Sony avec traitement sur puce, tel que la Raspberry Pi AI Camera.
  • Rockchip RKNN (rknn) : Cible les NPU Rockchip sur des cartes embarquées avec quantification FP16 et INT8.
  • ExecuTorch (executorch) : L'environnement d'exécution sur appareil natif de PyTorch pour mobile (iOS et Android) et les systèmes embarqués via XNNPACK.
  • Axelera AI (axelera) : Compile pour l'AIPU Metis d'Axelera (jusqu'à 856 TOPS) via PCIe ou M.2 pour une inférence en périphérie à haut débit.
  • DEEPX (deepx) : Cible le matériel NPU DEEPX avec quantification INT8 pour l'inférence en périphérie embarquée.
  • Qualcomm QNN (qnn) : Inférence sur appareil sur Snapdragon Hexagon NPU, Adreno GPU et CPU via la pile Qualcomm AI.

Pour une cible en périphérie supplémentaire, l'intégration Hailo compile les modèles de détection YOLO en HEF Hailo. Ce n'est pas une cible model.export() directe : les modèles de détection sont d'abord exportés en ONNX, puis compilés en HEF avec le Hailo Dataflow Compiler externe pour les accélérateurs Hailo-8, Hailo-8L et Hailo-15.

Link to this sectionComparaison des options de déploiement#

Le tableau suivant résume les options de déploiement pour les modèles YOLO26 selon les critères qui guident généralement le choix. Pour un examen approfondi de chaque format, consulte la documentation des formats d'exportation.

Option de déploiementBenchmarks de performanceCompatibilité et intégrationSupport communautaire et écosystèmeÉtudes de casMaintenance et mises à jourConsidérations de sécuritéAccélération matérielle
PyTorchBonne flexibilité ; peut compromettre les performances brutesExcellent avec les bibliothèques PythonRessources et communauté étenduesRecherche et prototypesDéveloppement régulier et actifDépend de l'environnement de déploiementSupport CUDA pour l'accélération GPU
TorchScriptMeilleur pour la production que PyTorchTransition fluide de PyTorch vers C++Spécialisé mais plus restreint que PyTorchIndustrie où Python est un goulot d'étranglementMises à jour cohérentes avec PyTorchSécurité améliorée sans Python completHérite du support CUDA de PyTorch
ONNXVariable selon le runtimeÉlevée entre différents frameworksVaste écosystème, soutenu par de nombreuses organisationsFlexibilité entre les frameworks MLMises à jour régulières pour les nouvelles opérationsAssurer des pratiques de conversion et de déploiement sécuriséesDiverses optimisations matérielles
OpenVINOOptimisé pour le matériel IntelIdéal au sein de l'écosystème IntelSolide dans le domaine de la vision par ordinateurIoT et périphérie avec le matériel IntelMises à jour régulières pour le matériel IntelFonctionnalités robustes pour les applications sensiblesAdapté au matériel Intel
TensorRTDe premier ordre sur les GPU NVIDIAMeilleur pour le matériel NVIDIARéseau solide grâce à NVIDIAInférence vidéo et image en temps réelMises à jour fréquentes pour les nouveaux GPUAccent mis sur la sécuritéConçu pour les GPU NVIDIA
CoreMLOptimisé pour le matériel Apple sur appareilExclusif à l'écosystème AppleSupport solide d'Apple et des développeursML sur appareil sur les produits AppleMises à jour régulières d'AppleAccent sur la confidentialité et la sécuritéMoteur neural et GPU Apple
TF SavedModelÉvolutif dans les environnements serveurLarge compatibilité dans l'écosystème TensorFlowSupport étendu dû à la popularité de TensorFlowService de modèles à grande échelleMises à jour régulières par Google et la communautéFonctionnalités robustes pour l'entrepriseDiverses accélérations matérielles
TF GraphDefStable pour les graphes de calcul statiquesS'intègre bien avec l'infrastructure TensorFlowRessources pour optimiser les graphes statiquesScénarios nécessitant des graphes statiquesMises à jour avec le noyau TensorFlowPratiques de sécurité établies par TensorFlowOptions d'accélération TensorFlow
TF LiteVitesse et efficacité sur mobile/embarquéLarge gamme de supports d'appareilsCommunauté robuste, soutenue par GoogleApplications mobiles avec une empreinte minimaleDernières fonctionnalités pour mobileEnvironnement sécurisé sur les appareils des utilisateurs finauxGPU et DSP entre autres
TF Edge TPUOptimisé pour le matériel Edge TPU de GoogleExclusif aux appareils Edge TPUEn pleine croissance avec Google et des ressources tiercesAppareils IoT nécessitant un traitement en temps réelAméliorations pour le nouveau matériel Edge TPUSécurité IoT robuste de GoogleConçu sur mesure pour Google Coral
TF.jsPerformance raisonnable dans le navigateurÉlevée avec les technologies webSupport des développeurs web et Node.jsApplications web interactivesContributions de l'équipe et de la communauté TensorFlowModèle de sécurité de la plateforme webAmélioré avec WebGL et d'autres API
PaddlePaddleCompétitif, facile à utiliser et évolutifÉcosystème Baidu, large support d'applicationsCroissance rapide, surtout en ChineMarché chinois et traitement linguistiqueFocus sur les applications d'IA chinoisesMet l'accent sur la confidentialité et la sécurité des donnéesIncluant les puces Kunlun de Baidu
MNNHaute performance pour les appareils mobilesSystèmes mobiles et embarqués ARM et CPU X86-64Communauté ML mobile/embarquéEfficacité des systèmes mobilesMaintenance de haute performance sur les appareils mobilesAvantages de la sécurité sur l'appareilOptimisations pour CPU et GPU ARM
NCNNOptimisé pour les appareils mobiles basés sur ARMSystèmes mobiles et embarqués ARMCommunauté ML mobile/embarqué de niche mais activeEfficacité des systèmes Android et ARMMaintenance haute performance sur ARMAvantages de la sécurité sur l'appareilOptimisations pour CPU et GPU ARM
Sony IMX500Inférence sur capteur à très faible consommationCapteur Sony IMX500, Raspberry Pi AI CameraÉcosystème Sony AITRIOSIA en périphérie sur caméraMises à jour de la chaîne d'outils SDK et MCT de SonyLes données restent sur le capteurAccélérateur sur puce Sony IMX500
Rockchip RKNNOptimisé pour les NPU RockchipCartes SoC Rockchip (par ex. RK3588)Communauté de développeurs RockchipSBC embarqués et appareils en périphérieMises à jour de Rockchip RKNN-ToolkitInférence locale sur appareilNPU Rockchip
ExecuTorchEnvironnement d'exécution PyTorch efficace sur appareiliOS, Android, embarqué via XNNPACKSoutenu par le projet PyTorchApplications mobiles et embarquéesMaintenu parallèlement à PyTorchL'inférence sur l'appareil garde les données en localBackends XNNPACK et CPU/GPU mobiles
Axelera AITrès haut débit (jusqu'à 856 TOPS)Metis AIPU via PCIe ou M.2SDK Axelera VoyagerInférence en périphérie à haut débitMises à jour du SDK AxeleraInférence en périphérie sur siteAIPU Axelera Metis
DEEPXInférence NPU optimisée INT8Matériel NPU DEEPXOutils de développement DEEPX (dx_com, dx_engine)Inférence en périphérie embarquéeMises à jour du SDK et de l'environnement d'exécution DEEPXInférence locale sur appareilNPU DEEPX
Qualcomm QNNInférence rapide sur appareil SnapdragonNPU Snapdragon Hexagon, GPU Adreno, CPUÉcosystème Qualcomm AI HubAppareils mobiles et en périphérie SnapdragonMises à jour de la pile Qualcomm AI (QAIRT)L'inférence sur l'appareil garde les données en localNPU Snapdragon Hexagon

Cette comparaison te donne une vue d'ensemble. Pour le déploiement, pèse les exigences et contraintes spécifiques de ton projet face à chaque option, et consulte le guide d'intégration lié pour le format que tu choisis.

Link to this sectionConclusion#

La large gamme de formats d'exportation de YOLO26 te permet d'adapter un modèle à presque tous les environnements, d'un serveur GPU cloud à une caméra en périphérie sur capteur. Une fois que tu as choisi un format, suis les meilleures pratiques de déploiement de modèles pour l'optimisation, le dépannage et la sécurité, et appuie-toi sur la communauté Ultralytics si tu rencontres un problème.

Link to this sectionFAQ#

Link to this sectionQuelles sont les options de déploiement disponibles pour YOLO26 sur différentes plateformes matérielles ?#

Ultralytics YOLO26 prend en charge divers formats de déploiement, chacun étant conçu pour des environnements et des plateformes matérielles spécifiques. Les principaux formats incluent :

  • PyTorch pour la recherche et le prototypage, avec une excellente intégration Python.
  • TorchScript pour les environnements de production où Python n'est pas disponible.
  • ONNX pour la compatibilité multiplateforme et l'accélération matérielle.
  • OpenVINO pour des performances optimisées sur le matériel Intel.
  • TensorRT pour une inférence à haute vitesse sur les GPU NVIDIA.

Chaque format a des avantages uniques. Pour une présentation détaillée, consulte notre documentation sur le processus d'exportation.

Link to this sectionComment améliorer la vitesse d'inférence de mon modèle YOLO26 sur un CPU Intel ?#

Pour améliorer la vitesse d'inférence sur les CPU Intel, tu peux déployer ton modèle YOLO26 en utilisant la boîte à outils OpenVINO d'Intel. OpenVINO offre des gains de performance significatifs en optimisant les modèles pour tirer efficacement parti du matériel Intel.

  1. Convertis ton modèle YOLO26 au format OpenVINO en utilisant la fonction model.export().
  2. Suis le guide de configuration détaillé dans la documentation d'exportation Intel OpenVINO.

Pour plus d'informations, jette un œil à notre article de blog.

Link to this sectionPuis-je déployer des modèles YOLO26 sur des appareils mobiles ?#

Oui, les modèles YOLO26 peuvent être déployés sur des appareils mobiles en utilisant TensorFlow Lite (TF Lite) pour les plateformes Android et iOS. TF Lite est conçu pour les appareils mobiles et embarqués, offrant une inférence efficace sur l'appareil.

Exemple
# Export command for TFLite format
model.export(format="tflite")

Pour plus de détails sur le déploiement de modèles sur mobile, consulte notre guide d'intégration TF Lite.

Link to this sectionQuels facteurs dois-je prendre en compte lors du choix d'un format de déploiement pour mon modèle YOLO26 ?#

Lors du choix d'un format de déploiement pour YOLO26, prends en compte les facteurs suivants :

  • Performance : Certains formats comme TensorRT offrent des vitesses exceptionnelles sur les GPU NVIDIA, tandis qu'OpenVINO est optimisé pour le matériel Intel.
  • Compatibilité : ONNX offre une large compatibilité entre différentes plateformes.
  • Facilité d'intégration : Des formats comme CoreML ou TF Lite sont adaptés à des écosystèmes spécifiques comme iOS et Android, respectivement.
  • Support de la communauté : Des formats comme PyTorch et TensorFlow disposent de ressources et d'un support communautaire étendus.

Pour une analyse comparative, consulte notre documentation sur les formats d'exportation.

Link to this sectionComment puis-je déployer des modèles YOLO26 dans une application web ?#

Pour déployer des modèles YOLO26 dans une application web, tu peux utiliser TensorFlow.js (TF.js), qui permet d'exécuter des modèles de machine learning directement dans le navigateur. Cette approche élimine le besoin d'infrastructure backend et offre des performances en temps réel.

  1. Exporte le modèle YOLO26 au format TF.js.
  2. Intègre le modèle exporté dans ton application web.

Pour des instructions étape par étape, consulte notre guide sur l'intégration TensorFlow.js.

Commentaires