Link to this sectionAnalyse comparative des options de déploiement de YOLO26#
YOLO26 prend en charge plus de 20 options de déploiement, chacune optimisée pour un environnement d'exécution, une cible matérielle ou une plateforme différente — de PyTorch et ONNX à TensorRT, OpenVINO, CoreML et des formats dédiés aux NPU en périphérie. Choisir la bonne option permet d'équilibrer la vitesse d'inférence, les contraintes matérielles et la facilité d'intégration. Ce guide compare chaque option pour t'aider à choisir celle qui convient le mieux à ton application, puis à consulter les meilleures pratiques de déploiement de modèles pour un déploiement fiable.
Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀
Le déploiement est l'étape du flux de travail d'un projet de vision par ordinateur où un modèle entraîné commence à effectuer un travail réel ; le format vers lequel tu exportes a donc un impact direct sur la vitesse, le coût et la portabilité.
Link to this sectionComment choisir la bonne option de déploiement pour ton modèle YOLO26#
Lorsqu'il est temps de déployer ton modèle YOLO26, le choix d'un format d'exportation adapté est très important. Comme indiqué dans la documentation d'exportation YOLO26 d'Ultralytics, la fonction model.export() convertit ton modèle entraîné en une variété de formats adaptés à divers environnements et exigences de performance.
Le format idéal dépend du contexte opérationnel et du matériel prévus pour ton modèle.
Pour un déploiement géré sans exportation manuelle, Ultralytics Platform fournit des points de terminaison d'inférence prêts à l'emploi avec une mise à l'échelle automatique sur 43 régions mondiales.
Link to this sectionOptions de déploiement de YOLO26#
Voici une courte description de chaque format et quand l'utiliser. Pour la procédure complète d'exportation, consulte la documentation d'exportation ; pour les critères comparatifs, passe directement au tableau de comparaison.
- PyTorch (
.pt) : Le format natif d'entraînement et d'inférence, offrant une flexibilité maximale et une accélération GPU CUDA — idéal pour la recherche et le prototypage sans étape d'exportation requise. - TorchScript (
torchscript) : Sérialise le modèle pour un environnement d'exécution C++ sans Python, adapté aux systèmes de production où Python n'est pas disponible. - ONNX (
onnx) : Un format d'échange agnostique aux frameworks avec un large support multiplateforme et matériel via ONNX Runtime. - OpenVINO (
openvino) : La boîte à outils d'Intel pour une inférence optimisée sur les CPU, GPU intégrés et NPU Intel, courante dans l'IoT et l'informatique en périphérie. - TensorRT (
engine) : L'environnement d'exécution haute performance de NVIDIA offrant une inférence GPU de premier ordre avec une optimisation FP16 et INT8. - CoreML (
coreml) : Le format sur appareil d'Apple pour iOS, macOS, watchOS et tvOS, utilisant l'Apple Neural Engine. - TF SavedModel (
saved_model) : Le format standard de TensorFlow pour un service évolutif côté serveur avec TensorFlow Serving. - TF GraphDef (
pb) : Un format TensorFlow à graphe statique figé pour les environnements nécessitant un graphe de calcul fixe. - TF Lite (
tflite) : Un environnement d'exécution TensorFlow léger pour l'inférence sur appareil pour matériel mobile et embarqué. - TF Edge TPU (
edgetpu) : Compile les modèles TF Lite pour les accélérateurs Google Coral Edge TPU. - TF.js (
tfjs) : Exécute les modèles directement dans le navigateur sans backend, accéléré via WebGL. - PaddlePaddle (
paddle) : Le framework de deep learning de Baidu, populaire en Chine, avec un large support matériel. - MNN (
mnn) : Un moteur d'inférence léger et haute performance optimisé pour les systèmes mobiles et embarqués ARM et x86-64. - NCNN (
ncnn) : Un framework d'inférence léger et haute performance optimisé pour les appareils mobiles ARM. - Sony IMX500 (
imx) : Exportations pour le capteur de vision intelligent IMX500 de Sony avec traitement sur puce, tel que la Raspberry Pi AI Camera. - Rockchip RKNN (
rknn) : Cible les NPU Rockchip sur des cartes embarquées avec quantification FP16 et INT8. - ExecuTorch (
executorch) : L'environnement d'exécution sur appareil natif de PyTorch pour mobile (iOS et Android) et les systèmes embarqués via XNNPACK. - Axelera AI (
axelera) : Compile pour l'AIPU Metis d'Axelera (jusqu'à 856 TOPS) via PCIe ou M.2 pour une inférence en périphérie à haut débit. - DEEPX (
deepx) : Cible le matériel NPU DEEPX avec quantification INT8 pour l'inférence en périphérie embarquée. - Qualcomm QNN (
qnn) : Inférence sur appareil sur Snapdragon Hexagon NPU, Adreno GPU et CPU via la pile Qualcomm AI.
Pour une cible en périphérie supplémentaire, l'intégration Hailo compile les modèles de détection YOLO en HEF Hailo. Ce n'est pas une cible model.export() directe : les modèles de détection sont d'abord exportés en ONNX, puis compilés en HEF avec le Hailo Dataflow Compiler externe pour les accélérateurs Hailo-8, Hailo-8L et Hailo-15.
Link to this sectionComparaison des options de déploiement#
Le tableau suivant résume les options de déploiement pour les modèles YOLO26 selon les critères qui guident généralement le choix. Pour un examen approfondi de chaque format, consulte la documentation des formats d'exportation.
| Option de déploiement | Benchmarks de performance | Compatibilité et intégration | Support communautaire et écosystème | Études de cas | Maintenance et mises à jour | Considérations de sécurité | Accélération matérielle |
|---|---|---|---|---|---|---|---|
| PyTorch | Bonne flexibilité ; peut compromettre les performances brutes | Excellent avec les bibliothèques Python | Ressources et communauté étendues | Recherche et prototypes | Développement régulier et actif | Dépend de l'environnement de déploiement | Support CUDA pour l'accélération GPU |
| TorchScript | Meilleur pour la production que PyTorch | Transition fluide de PyTorch vers C++ | Spécialisé mais plus restreint que PyTorch | Industrie où Python est un goulot d'étranglement | Mises à jour cohérentes avec PyTorch | Sécurité améliorée sans Python complet | Hérite du support CUDA de PyTorch |
| ONNX | Variable selon le runtime | Élevée entre différents frameworks | Vaste écosystème, soutenu par de nombreuses organisations | Flexibilité entre les frameworks ML | Mises à jour régulières pour les nouvelles opérations | Assurer des pratiques de conversion et de déploiement sécurisées | Diverses optimisations matérielles |
| OpenVINO | Optimisé pour le matériel Intel | Idéal au sein de l'écosystème Intel | Solide dans le domaine de la vision par ordinateur | IoT et périphérie avec le matériel Intel | Mises à jour régulières pour le matériel Intel | Fonctionnalités robustes pour les applications sensibles | Adapté au matériel Intel |
| TensorRT | De premier ordre sur les GPU NVIDIA | Meilleur pour le matériel NVIDIA | Réseau solide grâce à NVIDIA | Inférence vidéo et image en temps réel | Mises à jour fréquentes pour les nouveaux GPU | Accent mis sur la sécurité | Conçu pour les GPU NVIDIA |
| CoreML | Optimisé pour le matériel Apple sur appareil | Exclusif à l'écosystème Apple | Support solide d'Apple et des développeurs | ML sur appareil sur les produits Apple | Mises à jour régulières d'Apple | Accent sur la confidentialité et la sécurité | Moteur neural et GPU Apple |
| TF SavedModel | Évolutif dans les environnements serveur | Large compatibilité dans l'écosystème TensorFlow | Support étendu dû à la popularité de TensorFlow | Service de modèles à grande échelle | Mises à jour régulières par Google et la communauté | Fonctionnalités robustes pour l'entreprise | Diverses accélérations matérielles |
| TF GraphDef | Stable pour les graphes de calcul statiques | S'intègre bien avec l'infrastructure TensorFlow | Ressources pour optimiser les graphes statiques | Scénarios nécessitant des graphes statiques | Mises à jour avec le noyau TensorFlow | Pratiques de sécurité établies par TensorFlow | Options d'accélération TensorFlow |
| TF Lite | Vitesse et efficacité sur mobile/embarqué | Large gamme de supports d'appareils | Communauté robuste, soutenue par Google | Applications mobiles avec une empreinte minimale | Dernières fonctionnalités pour mobile | Environnement sécurisé sur les appareils des utilisateurs finaux | GPU et DSP entre autres |
| TF Edge TPU | Optimisé pour le matériel Edge TPU de Google | Exclusif aux appareils Edge TPU | En pleine croissance avec Google et des ressources tierces | Appareils IoT nécessitant un traitement en temps réel | Améliorations pour le nouveau matériel Edge TPU | Sécurité IoT robuste de Google | Conçu sur mesure pour Google Coral |
| TF.js | Performance raisonnable dans le navigateur | Élevée avec les technologies web | Support des développeurs web et Node.js | Applications web interactives | Contributions de l'équipe et de la communauté TensorFlow | Modèle de sécurité de la plateforme web | Amélioré avec WebGL et d'autres API |
| PaddlePaddle | Compétitif, facile à utiliser et évolutif | Écosystème Baidu, large support d'applications | Croissance rapide, surtout en Chine | Marché chinois et traitement linguistique | Focus sur les applications d'IA chinoises | Met l'accent sur la confidentialité et la sécurité des données | Incluant les puces Kunlun de Baidu |
| MNN | Haute performance pour les appareils mobiles | Systèmes mobiles et embarqués ARM et CPU X86-64 | Communauté ML mobile/embarqué | Efficacité des systèmes mobiles | Maintenance de haute performance sur les appareils mobiles | Avantages de la sécurité sur l'appareil | Optimisations pour CPU et GPU ARM |
| NCNN | Optimisé pour les appareils mobiles basés sur ARM | Systèmes mobiles et embarqués ARM | Communauté ML mobile/embarqué de niche mais active | Efficacité des systèmes Android et ARM | Maintenance haute performance sur ARM | Avantages de la sécurité sur l'appareil | Optimisations pour CPU et GPU ARM |
| Sony IMX500 | Inférence sur capteur à très faible consommation | Capteur Sony IMX500, Raspberry Pi AI Camera | Écosystème Sony AITRIOS | IA en périphérie sur caméra | Mises à jour de la chaîne d'outils SDK et MCT de Sony | Les données restent sur le capteur | Accélérateur sur puce Sony IMX500 |
| Rockchip RKNN | Optimisé pour les NPU Rockchip | Cartes SoC Rockchip (par ex. RK3588) | Communauté de développeurs Rockchip | SBC embarqués et appareils en périphérie | Mises à jour de Rockchip RKNN-Toolkit | Inférence locale sur appareil | NPU Rockchip |
| ExecuTorch | Environnement d'exécution PyTorch efficace sur appareil | iOS, Android, embarqué via XNNPACK | Soutenu par le projet PyTorch | Applications mobiles et embarquées | Maintenu parallèlement à PyTorch | L'inférence sur l'appareil garde les données en local | Backends XNNPACK et CPU/GPU mobiles |
| Axelera AI | Très haut débit (jusqu'à 856 TOPS) | Metis AIPU via PCIe ou M.2 | SDK Axelera Voyager | Inférence en périphérie à haut débit | Mises à jour du SDK Axelera | Inférence en périphérie sur site | AIPU Axelera Metis |
| DEEPX | Inférence NPU optimisée INT8 | Matériel NPU DEEPX | Outils de développement DEEPX (dx_com, dx_engine) | Inférence en périphérie embarquée | Mises à jour du SDK et de l'environnement d'exécution DEEPX | Inférence locale sur appareil | NPU DEEPX |
| Qualcomm QNN | Inférence rapide sur appareil Snapdragon | NPU Snapdragon Hexagon, GPU Adreno, CPU | Écosystème Qualcomm AI Hub | Appareils mobiles et en périphérie Snapdragon | Mises à jour de la pile Qualcomm AI (QAIRT) | L'inférence sur l'appareil garde les données en local | NPU Snapdragon Hexagon |
Cette comparaison te donne une vue d'ensemble. Pour le déploiement, pèse les exigences et contraintes spécifiques de ton projet face à chaque option, et consulte le guide d'intégration lié pour le format que tu choisis.
Link to this sectionConclusion#
La large gamme de formats d'exportation de YOLO26 te permet d'adapter un modèle à presque tous les environnements, d'un serveur GPU cloud à une caméra en périphérie sur capteur. Une fois que tu as choisi un format, suis les meilleures pratiques de déploiement de modèles pour l'optimisation, le dépannage et la sécurité, et appuie-toi sur la communauté Ultralytics si tu rencontres un problème.
Link to this sectionFAQ#
Link to this sectionQuelles sont les options de déploiement disponibles pour YOLO26 sur différentes plateformes matérielles ?#
Ultralytics YOLO26 prend en charge divers formats de déploiement, chacun étant conçu pour des environnements et des plateformes matérielles spécifiques. Les principaux formats incluent :
- PyTorch pour la recherche et le prototypage, avec une excellente intégration Python.
- TorchScript pour les environnements de production où Python n'est pas disponible.
- ONNX pour la compatibilité multiplateforme et l'accélération matérielle.
- OpenVINO pour des performances optimisées sur le matériel Intel.
- TensorRT pour une inférence à haute vitesse sur les GPU NVIDIA.
Chaque format a des avantages uniques. Pour une présentation détaillée, consulte notre documentation sur le processus d'exportation.
Link to this sectionComment améliorer la vitesse d'inférence de mon modèle YOLO26 sur un CPU Intel ?#
Pour améliorer la vitesse d'inférence sur les CPU Intel, tu peux déployer ton modèle YOLO26 en utilisant la boîte à outils OpenVINO d'Intel. OpenVINO offre des gains de performance significatifs en optimisant les modèles pour tirer efficacement parti du matériel Intel.
- Convertis ton modèle YOLO26 au format OpenVINO en utilisant la fonction
model.export(). - Suis le guide de configuration détaillé dans la documentation d'exportation Intel OpenVINO.
Pour plus d'informations, jette un œil à notre article de blog.
Link to this sectionPuis-je déployer des modèles YOLO26 sur des appareils mobiles ?#
Oui, les modèles YOLO26 peuvent être déployés sur des appareils mobiles en utilisant TensorFlow Lite (TF Lite) pour les plateformes Android et iOS. TF Lite est conçu pour les appareils mobiles et embarqués, offrant une inférence efficace sur l'appareil.
# Export command for TFLite format
model.export(format="tflite")Pour plus de détails sur le déploiement de modèles sur mobile, consulte notre guide d'intégration TF Lite.
Link to this sectionQuels facteurs dois-je prendre en compte lors du choix d'un format de déploiement pour mon modèle YOLO26 ?#
Lors du choix d'un format de déploiement pour YOLO26, prends en compte les facteurs suivants :
- Performance : Certains formats comme TensorRT offrent des vitesses exceptionnelles sur les GPU NVIDIA, tandis qu'OpenVINO est optimisé pour le matériel Intel.
- Compatibilité : ONNX offre une large compatibilité entre différentes plateformes.
- Facilité d'intégration : Des formats comme CoreML ou TF Lite sont adaptés à des écosystèmes spécifiques comme iOS et Android, respectivement.
- Support de la communauté : Des formats comme PyTorch et TensorFlow disposent de ressources et d'un support communautaire étendus.
Pour une analyse comparative, consulte notre documentation sur les formats d'exportation.
Link to this sectionComment puis-je déployer des modèles YOLO26 dans une application web ?#
Pour déployer des modèles YOLO26 dans une application web, tu peux utiliser TensorFlow.js (TF.js), qui permet d'exécuter des modèles de machine learning directement dans le navigateur. Cette approche élimine le besoin d'infrastructure backend et offre des performances en temps réel.
- Exporte le modèle YOLO26 au format TF.js.
- Intègre le modèle exporté dans ton application web.
Pour des instructions étape par étape, consulte notre guide sur l'intégration TensorFlow.js.