Link to this sectionExportation Qualcomm QNN pour les modèles YOLO d'Ultralytics#

Q: Comment exporter mon modèle Ultralytics YOLO au format QNN ?

Tu peux exporter ton modèle en utilisant export(format="qnn", imgsz=640) (imgsz=224 pour la classification) ou les arguments CLI équivalents. L'export crée d'abord un modèle ONNX, puis le compile localement dans un binaire de contexte QNN à l'aide du fournisseur d'exécution ONNX Runtime QNN. Le paquet onnxruntime-qnn est installé automatiquement lors du premier export.

Q: Sur quelles plateformes puis-je exporter ?

onnxruntime-qnn fournit des wheels précompilés pour Windows (x64 et ARM64) et Linux ARM64 (aarch64) ; sur Linux x86-64, compile ONNX Runtime à partir des sources avec --use_qnn (aucun wheel précompilé n'est publié, et macOS n'est pas un hôte QNN pris en charge). La génération du binaire de contexte s'exécute sur un hôte x64 — Windows x64 ou Linux x86-64 — et ne nécessite pas d'appareil Snapdragon physique.

Q: Comment exécuter YOLO sur un NPU Qualcomm Snapdragon ?

Exporte avec model.export(format="qnn", imgsz=640) (imgsz=224 pour la classification), copie le fichier yolo26n_qnn.onnx résultant sur ton appareil Snapdragon et exécute yolo predict model=yolo26n_qnn.onnx source=image.jpg (ou yolo val). Ultralytics charge le binaire de contexte via le fournisseur d'exécution ONNX Runtime QNN et l'exécute sur le NPU Hexagon — voir Déploiement de modèles YOLO QNN exportés.

Q: Puis-je exécuter un modèle QNN avec yolo predict et yolo val ?

Oui, sur un appareil Qualcomm Snapdragon avec onnxruntime-qnn installé — YOLO("yolo26n_qnn.onnx") charge le binaire de contexte via le fournisseur d'exécution QNN et exécute predict/val comme n'importe quel autre format. Sur un hôte x86 sans matériel QNN, le modèle ne peut pas s'exécuter, car le binaire de contexte cible le NPU Snapdragon.

Déployer des modèles de vision par ordinateur sur des appareils Qualcomm Snapdragon nécessite un format de modèle optimisé pour le runtime Qualcomm AI Engine Direct (QNN). Exporter des modèles Ultralytics YOLO au format QNN te permet d'exécuter une inférence accélérée sur l'appareil via le CPU Snapdragon, le GPU Adreno et le matériel NPU Hexagon présents dans des milliards de téléphones mobiles, ordinateurs portables, systèmes automobiles et appareils IoT. Ce guide décrit comment exporter YOLO vers Qualcomm QNN et le déployer pour une inférence rapide et économe en énergie sur du matériel Snapdragon.

Exécute YOLO sur les NPU Snapdragon dès aujourd'hui avec les applications mobiles officielles

Le plugin Flutter Ultralytics officiel offre un support QNN optionnel pour l'inférence par caméra en temps réel et la prédiction d'image unique sur l'ensemble des sept tâches YOLO26. Active l'environnement d'exécution QNN et ajoute sa dépendance ONNX Runtime comme décrit dans le README du plugin. Pour le déploiement sur iOS, consulte le SDK iOS Ultralytics YOLO et l'intégration CoreML.

Tailles d'entrée mobiles officielles

Exporte les modèles de classification à imgsz=224. Exporte les modèles de détection, segmentation, sémantique, profondeur, pose et OBB à imgsz=640. Ce standard 224/640 est partagé par les ressources mobiles officielles QNN, LiteRT et CoreML. Les ressources v73 et v81 prêtes à l'emploi pour les sept tâches nano sont publiées dans la version v0.6.6 de yolo-flutter-app.

Link to this sectionQu'est-ce que Qualcomm QNN ?#

Qualcomm QNN on-device inference

Qualcomm AI Engine Direct — couramment appelé QNN et distribué dans le cadre du SDK Qualcomm AI Runtime (QAIRT) — est la pile d'inférence bas niveau de Qualcomm pour les processeurs Snapdragon. Il fournit une API unifiée avec des bibliothèques spécifiques au backend qui ciblent le processeur CPU Snapdragon, le GPU Adreno et le Hexagon Tensor Processor (HTP), l'unité de traitement de réseau neuronal (NPU) dédiée à l'intérieur des SoC Snapdragon modernes. QNN offre aux développeurs un accès complet à ces accélérateurs d'IA Snapdragon et constitue le successeur moderne de l'ancien SDK Snapdragon Neural Processing Engine (SNPE). Il alimente l'IA sur l'appareil à travers les plateformes mobiles Snapdragon 8 Gen 2, 8 Gen 3 et 8 Elite, les ordinateurs portables Snapdragon X, ainsi que les produits automobiles et XR.

Link to this sectionPourquoi exporter vers Qualcomm QNN ?#

Snapdragon est la plateforme de calcul mobile la plus largement déployée au monde. Exporter Ultralytics YOLO au format Qualcomm QNN débloque le matériel IA dédié sur ces appareils :

Accélération NPU Hexagon : Exécuter YOLO sur le Hexagon Tensor Processor offre un débit considérablement plus élevé et une consommation d'énergie plus faible qu'une inférence CPU — idéal pour l'inférence en temps réel et la vision par ordinateur toujours active sur Snapdragon.
Sur l'appareil et hors ligne : L'inférence QNN s'exécute entièrement sur l'appareil Snapdragon ; il n'y a donc pas d'aller-retour avec le cloud, la latence reste faible et les données ne quittent jamais l'appareil.
Efficacité de quantification : L'exportation QNN quantifie YOLO en poids INT8 avec des activations 16 bits, l'équilibre précision/performance préféré du NPU Hexagon, réduisant la taille du modèle et maximisant les images par seconde sur le matériel alimenté par batterie.
Un format, plusieurs appareils : Une seule exportation Qualcomm QNN cible le CPU Snapdragon, le GPU Adreno et le NPU Hexagon sur les familles Snapdragon 8 Gen 2, 8 Gen 3, 8 Elite et au-delà.
Pile logicielle Qualcomm IA prête pour la production : QNN (Qualcomm AI Engine Direct / QAIRT) est l'actuel runtime IA embarqué de Qualcomm, activement maintenu et recommandé en remplacement de SNPE.

Link to this sectionFormat d'exportation QNN#

Ultralytics compile les modèles YOLO vers QNN localement en utilisant le fournisseur d'exécution QNN d'ONNX Runtime (le package onnxruntime-qnn installable via pip, qui regroupe les bibliothèques QAIRT). L'exportateur convertit ton modèle en ONNX, le quantifie avec des données de calibration en activations 16 bits et poids INT8 (l'équilibre recommandé pour le NPU Hexagon), puis initialise une session ONNX Runtime avec la mise en cache binaire du contexte activée — cela compile le graphe quantifié en un binaire de contexte QNN intégré dans <model>_qnn.onnx. Aucun compte Qualcomm, téléchargement cloud ou téléchargement de SDK séparé n'est requis.

Contrairement au Qualcomm AI Hub basé sur le cloud, qui compile et profile les modèles sur des appareils Snapdragon hébergés par Qualcomm et nécessite un compte Qualcomm, l'export QNN Ultralytics s'exécute entièrement sur ta propre machine avec un simple appel export(format="qnn", imgsz=640) (imgsz=224 pour la classification). Tu obtiens la même cible d'exécution QNN/QAIRT — processeur Snapdragon, GPU Adreno et NPU Hexagon — sans inscription, sans limites de téléchargement ni temps d'attente en file d'attente, et il s'intègre directement dans le flux de travail d'export YOLO standard.

Le fichier exporté *_qnn.onnx est autonome : il intègre le binaire de contexte QNN et les métadonnées ONNX telles que les noms de classes, la taille de l'image et la tâche.

Link to this sectionCaractéristiques clés des modèles QNN#

Quantification : Le modèle est quantifié en activations 16 bits et poids INT8 avec le flux QDQ d'ONNX Runtime QNN et un jeu de données de calibration, l'équilibre précision/performance recommandé pour le NPU Hexagon. Apprends-en davantage sur la quantification de modèle.
Compilation entièrement locale : Le binaire de contexte est généré entièrement sur ta machine hôte — aucun compte Qualcomm, jeton API ou téléchargement cloud requis.
Accélération Snapdragon complète : Exécute l'inférence sur le NPU Hexagon (HTP), le GPU Adreno ou le CPU via un runtime unifié unique.
Large portée d'appareils : Cible la vaste gamme de plateformes Snapdragon présentes dans les téléphones, PC (Windows on Snapdragon), systèmes automobiles, XR et produits embarqués.
Binaire de contexte précompilé : Fournir un binaire de contexte minimise la compilation du graphe sur l'appareil, réduisant la latence de chargement du modèle sur la cible.
Sortie autonome : Le fichier ONNX exporté inclut le binaire de contexte QNN précompilé et les métadonnées pour un déploiement simplifié.

Link to this sectionPerformances mesurées#

Link to this sectionTéléphone Android#

Matériel : Xiaomi 17 avec 12 Go de mémoire LPDDR5X et Android 16 / API 36. Son Snapdragon 8 Elite Gen 5 de 3 nm (SM8850) possède un processeur Qualcomm Oryon à 8 cœurs (2 cœurs Prime jusqu'à 4,6 GHz et 6 cœurs Performance jusqu'à 3,62 GHz), un GPU Adreno et un NPU Hexagon (HTP v81).

Modèle	Tâche	taille ^(pixels)	CPU ^{w8a32 LiteRT (ms)}	GPU ^{w8a32 LiteRT (ms)}	NPU ^{QNN W8A16 (ms)}
YOLO26n	Détection	640	52.2 ^{1.8 / 48.1 / 2.4}	15.8 ^{2.3 / 8.9 / 4.6}	10.7 ^{1.8 / 6.7 / 2.2}
YOLO26n-seg	Segmentation	640	73.4 ^{1.8 / 65.6 / 6.0}	33.2 ^{1.8 / 23.8 / 7.6}	17.4 ^{1.8 / 9.9 / 5.7}
YOLO26n-sem	Sémantique	640	61.2 ^{1.8 / 51.1 / 8.3}	34.2 ^{1.8 / 24.0 / 8.3}	11.5 ^{1.8 / 7.1 / 2.6}
YOLO26n-depth	Depth	640	124.4 ^{1.9 / 115.1 / 7.4}	23.0 ^{1.8 / 13.5 / 7.7}	35.2 ^{1.8 / 26.1 / 7.3}
YOLO26n-cls	Classification	224	4.4 ^{0.4 / 4.0 / 0.0}	3.1 ^{0.8 / 2.1 / 0.2}	1.2 ^{0.6 / 0.6 / 0.0}
YOLO26n-pose	Pose	640	57.4 ^{1.8 / 53.8 / 1.8}	16.6 ^{2.7 / 10.1 / 3.9}	10.9 ^{1.8 / 7.0 / 2.0}
YOLO26n-obb	OBB	640	50.3 ^{1.8 / 47.2 / 1.4}	11.7 ^{1.8 / 7.8 / 2.0}	8.6 ^{1.8 / 5.7 / 1.1}

Speed values are single-image burst latencies — the mean of 15 runs after 3 warmup runs on bus.jpg, measured with the Flutter plugin's 0.6.10 on-device benchmark harness and the standardized v0.6.6 assets. Backend order rotated between tasks in one sequential sweep. Native logs confirmed that every CPU row used LiteRT CPU/XNNPACK, every GPU row delegated the complete graph to LiteRT OpenCL (LITERT_CL), and every NPU row used the QNN Hexagon HTP backend.
L'historique détaillé des benchmarks se trouve dans la documentation sur les performances de Flutter.
Compare d'autres appareils Android dans l'intégration LiteRT et les appareils Apple dans l'intégration CoreML.

Link to this sectionOrdinateur portable Windows on Snapdragon#

Ce balayage historique a utilisé des binaires QNN v73 pré-standardisés ; le sémantique et l'OBB ont utilisé des entrées de 1024px. Il a été exécuté sur un ordinateur portable Lenovo doté de 32 Go de mémoire et de Windows 11. Son Snapdragon X Elite (X1E78100) possède un processeur Qualcomm Oryon à 12 cœurs, un GPU Adreno et un NPU Hexagon (HTP v73) ; le modèle Lenovo exact n'a pas été enregistré. Cette comparaison Windows-on-Snapdragon exécute la référence processeur PyTorch FP32 native à partir de laquelle la plupart des développeurs de bureau commencent par rapport au chemin ONNX Runtime QNN Hexagon HTP. Chaque cellule indique le temps total d'exécution model.predict() avec les temps de prétraitement / inférence / post-traitement affichés en dessous ; le total peut inclure la surcharge du framework en dehors de ces trois étapes. Les chiffres du processeur sont PyTorch FP32 (torch==2.10.0+cpu) et les chiffres du NPU sont ONNX Runtime QNN (onnxruntime-qnn==2.2.0, poids INT8 / activations 16 bits).

Modèle	Tâche	taille ^(pixels)	CPU ^{PT FP32 (ms)}	NPU Hexagon ^{QNN W8A16 (ms)}
YOLO26n	Détection	640	91.4 ^{4.3 / 75.2 / 0.1}	27.2 ^{4.9 / 19.4 / 0.9}
YOLO26n-seg	Segmentation	640	138.8 ^{4.5 / 127.1 / 2.8}	34.3 ^{5.0 / 24.0 / 5.1}
YOLO26n-sem	Sémantique	1024	295.8 ^{9.1 / 189.2 / 94.8}	133.0 ^{8.8 / 37.4 / 83.9}
YOLO26n-cls	Classification	224	15.4 ^{3.0 / 9.8 / 0.0}	11.7 ^{2.7 / 5.5 / 0.0}
YOLO26n-pose	Pose	640	109.6 ^{4.6 / 102.9 / 0.2}	28.9 ^{5.3 / 23.3 / 0.6}
YOLO26n-obb	OBB	1024	267.8 ^{8.1 / 254.6 / 0.1}	64.8 ^{8.9 / 54.7 / 0.6}

Les valeurs de vitesse sont des latences en rafale sur une seule image — la moyenne de 100 exécutions après 10 exécutions de préchauffage sur bus.jpg, mesurées avec time.perf_counter() autour de l'appel complet model.predict() sur un appareil au repos thermique (ultralytics==8.4.67, Python 3.12.10).
Le NPU Hexagon s'exécute environ 2-4 fois plus vite que la référence PyTorch CPU sur les tâches de 640-1024 px (détection ~3.4x), pour se réduire à ~1.3x sur le classificateur 224 px où la surcharge fixe de prétraitement domine la charge de travail minuscule.

Link to this sectionTâches prises en charge#

L'exportation QNN prend en charge l'ensemble de tâches standard disponible dans chaque famille de modèles, y compris la segmentation sémantique YOLO26.

Tâche	Pris en charge
Détection d'objets	✅
Segmentation d'instance	✅
Segmentation sémantique	✅
Estimation de pose	✅
Détection OBB	✅
Classification	✅
Estimation de profondeur	✅

Link to this sectionExporter vers QNN : Convertir ton modèle YOLO#

Exporte un modèle Ultralytics YOLO au format QNN pour un déploiement sur du matériel Snapdragon. Le binaire de contexte est finalisé pour une architecture de Hexagon Tensor Processor (HTP) cible, que tu sélectionnes avec l'argument name — le même argument utilisé pour cibler une puce dans l'exportation RKNN.

Link to this sectionArchitectures HTP prises en charge#

Passe l'architecture cible via name (par ex. name="73"). Valeurs valides :

`name`	Hexagon HTP	Plateforme Snapdragon
`68`	v68	Snapdragon 888
`69`	v69	Snapdragon 8 Gen 1 / 8+ Gen 1
`73`	v73	Snapdragon 8 Gen 2, X Elite (par défaut)
`75`	v75	Snapdragon 8 Gen 3
`79`	v79	Snapdragon 8 Elite
`81`	v81	Snapdragon 8 Elite Gen 5

Prise en charge de la plateforme

L'exportation QNN utilise le package onnxruntime-qnn. Des wheels précompilés sont publiés pour Windows (x64 et ARM64) et Linux ARM64 (aarch64) ; sur Linux x86-64, compile ONNX Runtime à partir des sources avec --use_qnn (aucun wheel précompilé n'est publié, et macOS n'est pas un hôte QNN pris en charge). La génération du binaire de contexte QNN s'exécute sur un hôte x64 — Windows x64 ou Linux x86-64 — et ne nécessite pas d'appareil Snapdragon pour l'étape d'exportation.

Link to this sectionInstallation#

Pour installer les paquets requis, exécute :

Installation

# Install the required package for YOLO
pip install ultralytics

Le package onnxruntime-qnn (qui fournit le fournisseur d'exécution QNN d'ONNX Runtime et regroupe les bibliothèques QAIRT) est installé automatiquement lors de la première exportation. Pour des instructions détaillées et les meilleures pratiques liées au processus d'installation, consulte notre guide d'installation Ultralytics. Si tu rencontres des difficultés lors de l'installation des packages requis pour YOLO, consulte notre guide des problèmes courants pour obtenir des solutions et des conseils.

Link to this sectionUtilisation#

Le format QNN prend en charge les modes Export, Predict et Validate. L'inférence et la validation s'exécutent sur du matériel Qualcomm Snapdragon via le fournisseur d'exécution QNN d'ONNX Runtime (le même package onnxruntime-qnn utilisé pour l'exportation). Exporte ton modèle, puis charge le modèle exporté sur un appareil Snapdragon pour exécuter l'inférence ou valider sa précision.

Exporter (Export)

from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export to Qualcomm QNN format (INT8, enforced automatically), targeting an HTP architecture via 'name'
# 'name' can be one of 68, 69, 73, 75, 79, 81 (Snapdragon 888, 8 Gen 1, 8 Gen 2, 8 Gen 3, 8 Elite, 8 Elite Gen 5)
model.export(format="qnn", name="73", imgsz=640)  # use imgsz=224 for classification

Prédire (Predict)

from ultralytics import YOLO

# Load the exported QNN model (on a Snapdragon device with onnxruntime-qnn)
model = YOLO("yolo26n_qnn.onnx")

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Valider

from ultralytics import YOLO

# Load the exported QNN model (on a Snapdragon device with onnxruntime-qnn)
model = YOLO("yolo26n_qnn.onnx")

# Validate accuracy on the COCO8 dataset
metrics = model.val(data="coco8.yaml")

Link to this sectionArguments d'exportation#

Argument	Type	Défaut	Description
`format`	`str`	`'qnn'`	Format cible pour le modèle exporté, définissant la compatibilité avec le runtime Qualcomm QNN.
`imgsz`	`int` ou `tuple`	`640`	Taille d'image souhaitée pour l'entrée du modèle. Peut être un entier pour des images carrées ou un tuple `(height, width)`.
`batch`	`int`	`1`	Spécifie la taille du lot du modèle d'exportation, qui est intégrée dans le binaire de contexte QNN généré.
`name`	`str`	`'73'`	Version de l'architecture Hexagon HTP cible : `68`, `69`, `73`, `75`, `79` ou `81` (Snapdragon 888, 8 Gen 1, 8 Gen 2, 8 Gen 3, 8 Elite, 8 Elite Gen 5). Le binaire de contexte est finalisé pour cette architecture.
`quantize`	`int` ou `str`	`'w8a16'`/auto	Précision de quantification. L'exportation QNN HTP est quantifiée en poids INT8 avec des activations 16 bits (`'w8a16'`) et est automatiquement activée si elle n'est pas spécifiée. Remplace les anciens flags `half`/`int8` obsolètes.
`simplify`	`bool`	`True`	Simplifie le graphe ONNX intermédiaire avec `onnxslim`.
`opset`	`int`	`None`	Spécifie la version de l'opset ONNX pour le graphe ONNX intermédiaire. Si elle n'est pas définie, la dernière version prise en charge est utilisée.
`data`	`str`	`'coco8.yaml'`	Fichier de configuration de jeu de données utilisé pour l'étalonnage INT8. Spécifie la source d'image d'étalonnage.
`fraction`	`float`	`1.0`	Fraction du jeu de données de calibration à utiliser pour la quantification INT8.
`device`	`str`	`None`	Spécifie l'appareil pour l'étape d'exportation ONNX : GPU (`device=0`) ou CPU (`device=cpu`).

Précision

L'exportation QNN quantifie le modèle en activations 16 bits et poids INT8 — l'équilibre précision/performance recommandé pour le NPU Hexagon — en utilisant le flux ONNX Runtime QDQ quantization avec des images de calibration provenant de data. quantize='w8a16' est appliqué automatiquement.

Pour plus de détails sur le processus d'exportation, visite la page de documentation Ultralytics sur l'exportation.

Link to this sectionStructure de sortie#

Après une exportation réussie, un fichier ONNX autonome est créé :

yolo26n_qnn.onnx   # ONNX wrapping the precompiled QNN context binary and metadata

Le fichier yolo26n_qnn.onnx intègre le binaire de contexte QNN et est chargé par ONNX Runtime avec le fournisseur d'exécution QNN sur l'appareil Snapdragon. Il contient également les métadonnées du modèle telles que les noms de classes, la taille de l'image et la tâche dans les metadata_props d'ONNX.

Link to this sectionDéployer des modèles YOLO QNN exportés#

Les modèles QNN s'exécutent sur du matériel Qualcomm Snapdragon, rendant le déploiement de modèle sur appareil simple. Sur un appareil Snapdragon avec onnxruntime-qnn installé, exécute le modèle exporté directement avec l'API Ultralytics (yolo predict/yolo val, voir Utilisation ci-dessus) — Ultralytics charge le binaire de contexte via le fournisseur d'exécution QNN d'ONNX Runtime et sélectionne le backend HTP (NPU), GPU ou CPU.

Pour des pipelines personnalisés, tu peux également charger le binaire de contexte ONNX directement avec ONNX Runtime. onnxruntime-qnn est un fournisseur d'exécution en plugin, alors enregistre-le au moment de l'exécution :

import onnxruntime as ort
import onnxruntime_qnn as qnn_ep

# On the Snapdragon device, register the QNN plugin EP and select its device(s)
ort.register_execution_provider_library("QNNExecutionProvider", qnn_ep.get_library_path())
devices = [d for d in ort.get_ep_devices() if d.ep_name == "QNNExecutionProvider"]

options = ort.SessionOptions()
options.add_provider_for_devices(devices, {"backend_path": qnn_ep.get_qnn_htp_path()})
session = ort.InferenceSession("yolo26n_qnn.onnx", sess_options=options)
input_info = session.get_inputs()[0]
outputs = session.run(None, {input_info.name: input_tensor})  # input_tensor: float32 NHWC

Parce que le binaire de contexte QNN est précompilé, la session se charge rapidement sans recompiler le graphe sur l'appareil.

Link to this sectionFlux de travail recommandé#

Entraîne ton modèle en utilisant le Mode Entraînement d'Ultralytics
Exporte au format QNN en utilisant model.export(format="qnn", imgsz=640) sur une plateforme prise en charge (utilise imgsz=224 pour la classification)
Déploie le fichier *_qnn.onnx exporté sur ton appareil Snapdragon
Exécute l'inférence avec ONNX Runtime et le fournisseur d'exécution QNN, en sélectionnant le backend HTP, GPU ou CPU

Link to this sectionApplications concrètes#

Les modèles YOLO s'exécutant sur du matériel Qualcomm Snapdragon sont bien adaptés à une large gamme d'applications d'IA en périphérie :

Smartphones : Détection d'objets en temps réel et compréhension de scène dans les applications photo et caméra avec accélération NPU.
Windows on Snapdragon : Vision par ordinateur sur appareil dans les PC Copilot+ sans déchargement vers le cloud.
Automobile : Surveillance du conducteur, détection des occupants et fonctionnalités ADAS sur les plateformes Snapdragon Digital Chassis.
XR et appareils portables : Perception basse puissance et basse latence pour les casques AR/VR et lunettes intelligentes.
IoT et robotique : Inférence de vision efficace sur les caméras, drones et systèmes embarqués alimentés par Snapdragon.

Link to this sectionRésumé#

Dans ce guide, tu as appris comment exporter des modèles Ultralytics YOLO au format Qualcomm QNN localement avec le fournisseur d'exécution QNN d'ONNX Runtime. Le pipeline d'exportation convertit ton modèle en ONNX, puis le compile en un binaire de contexte QNN sur ta machine hôte — aucun compte Qualcomm ou cloud requis — produisant un fichier *_qnn.onnx optimisé pour le CPU Snapdragon, le GPU Adreno et le matériel NPU Hexagon via le runtime QNN/QAIRT.

La combinaison d'Ultralytics YOLO et de la pile d'IA embarquée de Qualcomm fournit une solution efficace pour exécuter des charges de travail de vision par ordinateur avancées à travers le vaste écosystème Snapdragon.

Pour d'autres cibles de déploiement sur appareil et mobile, consulte les guides d'exportation associés ONNX, CoreML, NCNN, LiteRT, ExecuTorch, RKNN, Sony IMX500 et TensorRT. Pour comparer les formats avant la mise en production, utilise le mode Benchmark. Pour obtenir la liste complète des formats et des options, consulte la documentation du mode Export et la page des guides d'intégration.

Link to this sectionFAQ#

Link to this sectionComment exporter mon modèle Ultralytics YOLO au format QNN ?#

Tu peux exporter ton modèle en utilisant export(format="qnn", imgsz=640) (imgsz=224 pour la classification) ou les arguments CLI équivalents. L'export crée d'abord un modèle ONNX, puis le compile localement dans un binaire de contexte QNN à l'aide du fournisseur d'exécution ONNX Runtime QNN. Le paquet onnxruntime-qnn est installé automatiquement lors du premier export.

Exemple

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="qnn", imgsz=640)  # use imgsz=224 for classification

Link to this sectionAi-je besoin d'un compte Qualcomm ou d'un accès cloud ?#

Non. L'exportation QNN s'exécute entièrement sur ta machine locale en utilisant le package onnxruntime-qnn, qui regroupe les bibliothèques QAIRT. Aucun compte Qualcomm, jeton API ou accès réseau n'est requis.

Link to this sectionComment l'exportation Ultralytics QNN se compare-t-elle au Qualcomm AI Hub ?#

Qualcomm AI Hub est le service cloud de Qualcomm pour compiler, profiler et évaluer les modèles sur des appareils Snapdragon hébergés, et il nécessite un compte Qualcomm. L'exportation QNN d'Ultralytics cible le même runtime QNN/QAIRT (CPU Snapdragon, GPU Adreno et NPU Hexagon) mais compile le binaire de contexte localement avec le fournisseur d'exécution QNN d'ONNX Runtime — sans compte, sans téléchargement et sans file d'attente. C'est le moyen le plus rapide de passer d'un modèle .pt à une version prête pour Snapdragon directement dans le workflow d'exportation standard de YOLO.

Link to this sectionSur quelles plateformes puis-je exporter ?#

onnxruntime-qnn fournit des wheels précompilés pour Windows (x64 et ARM64) et Linux ARM64 (aarch64) ; sur Linux x86-64, compile ONNX Runtime à partir des sources avec --use_qnn (aucun wheel précompilé n'est publié, et macOS n'est pas un hôte QNN pris en charge). La génération du binaire de contexte s'exécute sur un hôte x64 — Windows x64 ou Linux x86-64 — et ne nécessite pas d'appareil Snapdragon physique.

Link to this sectionComment exécuter YOLO sur un NPU Qualcomm Snapdragon ?#

Exporte avec model.export(format="qnn", imgsz=640) (imgsz=224 pour la classification), copie le fichier yolo26n_qnn.onnx résultant sur ton appareil Snapdragon et exécute yolo predict model=yolo26n_qnn.onnx source=image.jpg (ou yolo val). Ultralytics charge le binaire de contexte via le fournisseur d'exécution ONNX Runtime QNN et l'exécute sur le NPU Hexagon — voir Déploiement de modèles YOLO QNN exportés.

Link to this sectionQuelle est la différence entre QNN et SNPE ?#

QNN (Qualcomm AI Engine Direct, faisant partie du SDK QAIRT) est la pile d'inférence actuelle de Qualcomm et le remplacement recommandé pour l'ancien SDK Snapdragon Neural Processing Engine (SNPE). Les nouveaux déploiements devraient cibler QNN.

Link to this sectionPuis-je exécuter un modèle QNN avec `yolo predict` et `yolo val` ?#

Oui, sur un appareil Qualcomm Snapdragon avec onnxruntime-qnn installé — YOLO("yolo26n_qnn.onnx") charge le binaire de contexte via le fournisseur d'exécution QNN et exécute predict/val comme n'importe quel autre format. Sur un hôte x86 sans matériel QNN, le modèle ne peut pas s'exécuter, car le binaire de contexte cible le NPU Snapdragon.

Link to this sectionQuel est le résultat d'une exportation QNN ?#

L'exportation crée un fichier ONNX de binaire de contexte autonome (par ex., yolo26n_qnn.onnx) avec les noms de classes, la taille de l'image, la tâche et d'autres métadonnées de modèle intégrées dans les metadata_props d'ONNX.

Contributeurs

GLglenn-jocher¹² AMamanharshx¹ AMambitious-octopus¹ ONonuralpszr¹ RAraimbekovm¹ SHShuaiLYU¹

Créé il y a 2 moisMis à jour il y a 11 heures