Link to this sectionUltralytics YOLO 모델을 위한 Qualcomm QNN 내보내기#

Q: Ultralytics YOLO 모델을 QNN 형식으로 내보내려면 어떻게 해야 하나요?

export(format="qnn", imgsz=640)(분류의 경우 imgsz=224) 또는 동등한 CLI 인수를 사용하여 모델을 내보낼 수 있습니다. 내보내기는 먼저 ONNX 모델을 생성한 다음, ONNX Runtime QNN Execution Provider를 사용하여 이를 로컬에서 QNN 컨텍스트 바이너리로 컴파일합니다. onnxruntime-qnn 패키지는 첫 번째 내보내기 시 자동으로 설치됩니다.

Q: Qualcomm 계정이나 클라우드 액세스가 필요한가요?

아니요. QNN 내보내기는 QAIRT 라이브러리를 포함하는 onnxruntime-qnn 패키지를 사용하여 로컬 머신에서 완전히 실행됩니다. Qualcomm 계정, API 토큰 또는 네트워크 액세스는 필요하지 않습니다.

Q: 어떤 플랫폼에서 내보낼 수 있나요?

onnxruntime-qnn은 Windows (x64 및 ARM64) 와 Linux ARM64 (aarch64) 용 사전 빌드 휠을 제공합니다. Linux x86-64의 경우 --use_qnn 옵션을 사용하여 소스에서 ONNX Runtime을 빌드하세요(사전 빌드된 휠은 게시되지 않으며 macOS는 지원되는 QNN 호스트가 아닙니다). 컨텍스트 바이너리 생성은 x64 호스트(Windows x64 또는 Linux x86-64)에서 실행되며 실제 Snapdragon 기기가 필요하지 않습니다.

Q: Qualcomm Snapdragon NPU에서 YOLO를 실행하려면 어떻게 해야 하나요?

model.export(format="qnn", imgsz=640)(분류의 경우 imgsz=224)로 내보내기 하고, 결과 yolo26n_qnn.onnx 파일을 Snapdragon 기기에 복사한 다음 yolo predict model=yolo26n_qnn.onnx source=image.jpg(또는 yolo val)를 실행하세요. Ultralytics는 ONNX Runtime QNN Execution Provider를 통해 컨텍스트 바이너리를 로드하고 Hexagon NPU에서 실행합니다. Deploying Exported YOLO QNN Models을 참조하세요.

Q: QNN 모델을 yolo predict 및 yolo val로 실행할 수 있나요?

네, onnxruntime-qnn이 설치된 Qualcomm Snapdragon 기기에서 가능합니다. YOLO("yolo26n_qnn.onnx")는 QNN 실행 공급자를 통해 컨텍스트 바이너리를 로드하고 다른 형식과 마찬가지로 predict/val을 실행합니다. QNN 하드웨어가 없는 x86 호스트에서는 컨텍스트 바이너리가 Snapdragon NPU를 대상으로 하므로 모델을 실행할 수 없습니다.

Qualcomm Snapdragon 기기에서 컴퓨터 비전 모델을 배포하려면 Qualcomm AI Engine Direct(QNN) 런타임에 맞춰 조정된 모델 형식이 필요합니다. Ultralytics YOLO 모델을 QNN 형식으로 내보내면 수십억 대의 모바일 폰, 노트북, 자동차 시스템 및 IoT 기기에 탑재된 Snapdragon CPU, Adreno GPU 및 Hexagon NPU 하드웨어 전반에서 가속화된 온디바이스 추론을 실행할 수 있습니다. 이 가이드에서는 YOLO를 Qualcomm QNN으로 내보내고 Snapdragon 하드웨어에서 빠르고 저전력 추론을 위해 배포하는 방법을 설명합니다.

공식 모바일 앱을 사용하여 지금 바로 Snapdragon NPU에서 YOLO를 실행하십시오.

공식 Ultralytics Flutter plugin은 7가지 모든 YOLO26 태스크에 걸쳐 실시간 카메라 추론 및 단일 이미지 예측을 위한 선택적 QNN 지원을 제공합니다. 플러그인 README에 설명된 대로 QNN 런타임을 활성화하고 ONNX Runtime 의존성을 추가하세요. iOS 배포의 경우 Ultralytics YOLO iOS SDK 및 CoreML integration을 참조하세요.

공식 모바일 입력 크기

imgsz=224로 분류 모델을 내보내기 하세요. 탐지, 세그멘테이션, 의미론적 세그멘테이션, 깊이, 포즈, OBB 모델은 imgsz=640으로 내보내기 하세요. 이 224/640 표준은 공식 QNN, LiteRT 및 CoreML 모바일 에셋 간에 공유됩니다. 7가지 모든 나노 태스크를 위한 즉시 실행 가능한 v73 및 v81 에셋이 yolo-flutter-app v0.6.6 release에 게시되어 있습니다.

Link to this sectionQualcomm QNN이란 무엇인가요?#

Qualcomm QNN on-device inference

Qualcomm AI Engine Direct은 흔히 QNN으로 불리며 Qualcomm AI Runtime(QAIRT) SDK의 일부로 배포되는 Snapdragon 프로세서용 Qualcomm 저수준 추론 스택입니다. 이는 Snapdragon CPU, Adreno GPU 및 최신 Snapdragon SoC에 내장된 전용 신경망 처리 장치(NPU)인 Hexagon Tensor Processor(HTP)를 타겟팅하는 백엔드별 라이브러리를 갖춘 통합 API를 제공합니다. QNN은 개발자에게 이러한 Snapdragon AI 가속기에 대한 풀스택 액세스 권한을 부여하며, 기존 Snapdragon Neural Processing Engine (SNPE) SDK의 현대적인 후속 제품입니다. 이는 Snapdragon 8 Gen 2, 8 Gen 3 및 8 Elite 모바일 플랫폼, Snapdragon X 노트북, 그리고 자동차 및 XR 제품 전반에서 온디바이스 AI를 구동합니다.

Link to this section왜 Qualcomm QNN으로 내보내야 하나요?#

Snapdragon은 전 세계에서 가장 널리 배포된 모바일 컴퓨팅 플랫폼입니다. Ultralytics YOLO를 Qualcomm QNN 형식으로 내보내면 이러한 기기에서 전용 AI 하드웨어를 활용할 수 있습니다:

Hexagon NPU 가속: Hexagon Tensor Processor에서 YOLO를 실행하면 CPU 추론보다 훨씬 높은 처리량과 낮은 전력 소모를 제공하므로, 실시간 추론과 Snapdragon에서의 상시 컴퓨터 비전 작업에 이상적입니다.
온디바이스 및 오프라인: QNN 추론은 Snapdragon 기기에서 완전히 실행되므로 클라우드 왕복이 없으며, 지연 시간이 낮게 유지되고 데이터가 기기를 벗어나지 않습니다.
양자화 효율성: QNN 내보내기는 YOLO를 16비트 활성화 함수와 INT8 가중치로 양자화합니다. 이는 Hexagon NPU가 선호하는 정확도/성능 균형으로, 모델 크기를 줄이고 배터리 기반 하드웨어에서 초당 프레임 수를 극대화합니다.
하나의 형식, 다양한 기기: 단일 Qualcomm QNN 내보내기로 Snapdragon 8 Gen 2, 8 Gen 3, 8 Elite 제품군 및 그 이상에 걸친 Snapdragon CPU, Adreno GPU 및 Hexagon NPU를 타겟팅할 수 있습니다.
운영 준비 완료된 Qualcomm AI 스택: QNN(Qualcomm AI Engine Direct / QAIRT)은 Qualcomm의 현재 활발히 유지 관리되는 온디바이스 AI 런타임이며, SNPE의 권장 대체 제품입니다.

Link to this sectionQNN 내보내기 형식#

Ultralytics는 ONNX Runtime QNN 실행 공급자(QAIRT 라이브러리를 포함하는 pip 설치형 onnxruntime-qnn 패키지)를 사용하여 YOLO 모델을 로컬에서 QNN으로 컴파일합니다. 내보내기 도구는 모델을 ONNX로 변환하고, 보정 데이터를 사용하여 16비트 활성화 함수와 INT8 가중치(Hexagon NPU를 위한 권장 균형)로 양자화한 다음, 컨텍스트 바이너리 캐싱이 활성화된 ONNX Runtime 세션을 초기화합니다. 이 과정에서 양자화된 그래프가 <model>_qnn.onnx에 포함된 QNN 컨텍스트 바이너리로 컴파일됩니다. Qualcomm 계정, 클라우드 업로드 또는 별도의 SDK 다운로드는 필요하지 않습니다.

Qualcomm에서 호스팅하는 Snapdragon 기기에서 모델을 컴파일 및 프로파일링하고 Qualcomm 계정이 필요한 클라우드 기반 Qualcomm AI Hub와 달리, Ultralytics QNN 내보내기는 단일 export(format="qnn", imgsz=640) 호출(분류의 경우 imgsz=224)을 통해 사용자의 로컬 머신에서 완전히 실행됩니다. 가입, 업로드 제한 또는 대기열 시간 없이 동일한 QNN/QAIRT 런타임 대상(Snapdragon CPU, Adreno GPU 및 Hexagon NPU)을 얻을 수 있으며 표준 YOLO 내보내기 워크플로에 바로 통합됩니다.

내보내진 *_qnn.onnx 파일은 독립형입니다. 이 파일에는 QNN 컨텍스트 바이너리와 클래스 이름, 이미지 크기, 작업과 같은 ONNX 메타데이터가 포함되어 있습니다.

Link to this sectionQNN 모델의 주요 기능#

양자화: 모델은 ONNX Runtime QNN QDQ 흐름과 보정 데이터셋을 사용하여 16비트 활성화 함수와 INT8 가중치로 양자화되며, 이는 Hexagon NPU의 권장 정확도/성능 균형입니다. 모델 양자화에 대해 자세히 알아보세요.
완전 로컬 컴파일: 컨텍스트 바이너리는 호스트 머신에서 전적으로 생성되므로 Qualcomm 계정, API 토큰 또는 클라우드 업로드가 필요 없습니다.
전체 Snapdragon 가속: 단일 통합 런타임을 통해 Hexagon NPU(HTP), Adreno GPU 또는 CPU에서 추론을 실행합니다.
광범위한 기기 도달 범위: 폰, PC(Windows on Snapdragon), 자동차, XR 및 임베디드 제품에 탑재되는 다양한 Snapdragon 플랫폼을 타겟팅합니다.
사전 컴파일된 컨텍스트 바이너리: 컨텍스트 바이너리를 배포하면 온디바이스 그래프 컴파일이 최소화되어 대상 기기에서 모델 로드 지연 시간이 줄어듭니다.
독립형 출력: 내보내진 ONNX 파일에는 간편한 배포를 위해 사전 컴파일된 QNN 컨텍스트 바이너리와 메타데이터가 포함됩니다.

Link to this section측정된 성능#

Link to this sectionAndroid 휴대폰#

하드웨어: 12 GB LPDDR5X 메모리 및 Android 16 / API 36이 탑재된 Xiaomi 17. 3 nm Snapdragon 8 Elite Gen 5(SM8850)에는 8코어 Qualcomm Oryon CPU(최대 4.6 GHz의 Prime 코어 2개 및 최대 3.62 GHz의 Performance 코어 6개), Adreno GPU 및 Hexagon NPU(HTP v81)가 탑재되어 있습니다.

모델	작업	크기 ^(픽셀)	CPU ^{w8a32 LiteRT (ms)}	GPU ^{w8a32 LiteRT (ms)}	NPU ^{QNN W8A16 (ms)}
YOLO26n	탐지(Detect)	640	52.2 ^{1.8 / 48.1 / 2.4}	15.8 ^{2.3 / 8.9 / 4.6}	10.7 ^{1.8 / 6.7 / 2.2}
YOLO26n-seg	세그멘테이션(Segment)	640	73.4 ^{1.8 / 65.6 / 6.0}	33.2 ^{1.8 / 23.8 / 7.6}	17.4 ^{1.8 / 9.9 / 5.7}
YOLO26n-sem	의미론적(Semantic)	640	61.2 ^{1.8 / 51.1 / 8.3}	34.2 ^{1.8 / 24.0 / 8.3}	11.5 ^{1.8 / 7.1 / 2.6}
YOLO26n-depth	Depth	640	124.4 ^{1.9 / 115.1 / 7.4}	23.0 ^{1.8 / 13.5 / 7.7}	35.2 ^{1.8 / 26.1 / 7.3}
YOLO26n-cls	분류(Classify)	224	4.4 ^{0.4 / 4.0 / 0.0}	3.1 ^{0.8 / 2.1 / 0.2}	1.2 ^{0.6 / 0.6 / 0.0}
YOLO26n-pose	포즈(Pose)	640	57.4 ^{1.8 / 53.8 / 1.8}	16.6 ^{2.7 / 10.1 / 3.9}	10.9 ^{1.8 / 7.0 / 2.0}
YOLO26n-obb	OBB(방향성 경계 상자)	640	50.3 ^{1.8 / 47.2 / 1.4}	11.7 ^{1.8 / 7.8 / 2.0}	8.6 ^{1.8 / 5.7 / 1.1}

Speed values are single-image burst latencies — the mean of 15 runs after 3 warmup runs on bus.jpg, measured with the Flutter plugin's 0.6.10 on-device benchmark harness and the standardized v0.6.6 assets. Backend order rotated between tasks in one sequential sweep. Native logs confirmed that every CPU row used LiteRT CPU/XNNPACK, every GPU row delegated the complete graph to LiteRT OpenCL (LITERT_CL), and every NPU row used the QNN Hexagon HTP backend.
자세한 벤치마크 기록은 Flutter performance doc에 있습니다.
LiteRT integration에서 다른 Android 기기를 비교하고 CoreML integration에서 Apple 기기를 비교하세요.

Link to this sectionWindows on Snapdragon 노트북#

이 이력 스위프는 표준화 이전의 v73 QNN 바이너리를 사용했으며; 의미론적 세그멘테이션과 OBB는 1024px 입력을 사용했습니다. 이 작업은 32 GB 메모리와 Windows 11이 탑재된 Lenovo 노트북에서 실행되었습니다. Snapdragon X Elite(X1E78100)에는 12코어 Qualcomm Oryon CPU, Adreno GPU 및 Hexagon NPU(HTP v73)가 탑재되어 있으며, 정확한 Lenovo 모델은 기록되지 않았습니다. 이 Windows-on-Snapdragon 비교는 대부분의 데스크톱 개발자가 시작하는 네이티브 PyTorch FP32 CPU 베이스라인과 ONNX Runtime QNN Hexagon HTP 경로를 비교합니다. 각 셀은 하단에 보고된 전처리기 / 추론 / 후처리기 타이밍과 함께 **전체 model.predict() 벽 시간(wall time)**을 보여주며; 총 시간에는 해당 세 단계 외의 프레임워크 오버헤드가 포함될 수 있습니다. CPU 숫자는 PyTorch FP32(torch==2.10.0+cpu)이고 NPU 숫자는 ONNX Runtime QNN(onnxruntime-qnn==2.2.0, INT8 가중치 / 16비트 활성화)입니다.

모델	작업	크기 ^(픽셀)	CPU ^{PT FP32 (ms)}	NPU Hexagon ^{QNN W8A16 (ms)}
YOLO26n	탐지(Detect)	640	91.4 ^{4.3 / 75.2 / 0.1}	27.2 ^{4.9 / 19.4 / 0.9}
YOLO26n-seg	세그멘테이션(Segment)	640	138.8 ^{4.5 / 127.1 / 2.8}	34.3 ^{5.0 / 24.0 / 5.1}
YOLO26n-sem	의미론적(Semantic)	1024	295.8 ^{9.1 / 189.2 / 94.8}	133.0 ^{8.8 / 37.4 / 83.9}
YOLO26n-cls	분류(Classify)	224	15.4 ^{3.0 / 9.8 / 0.0}	11.7 ^{2.7 / 5.5 / 0.0}
YOLO26n-pose	포즈(Pose)	640	109.6 ^{4.6 / 102.9 / 0.2}	28.9 ^{5.3 / 23.3 / 0.6}
YOLO26n-obb	OBB(방향성 경계 상자)	1024	267.8 ^{8.1 / 254.6 / 0.1}	64.8 ^{8.9 / 54.7 / 0.6}

Speed values are single-image burst latencies — the mean of 100 runs after 10 warmup runs on bus.jpg, measured with time.perf_counter() around the full model.predict() call on a thermally rested device (ultralytics==8.4.67, Python 3.12.10).
Hexagon NPU는 640-1024 px 작업 전반에서 PyTorch CPU 기준 대비 약 2-4배 더 빠르며 (검출의 경우 약 3.4배), 고정된 전처리 오버헤드가 작은 워크로드를 지배하는 224 px 분류기에서는 약 1.3배 수준으로 좁혀집니다.

Link to this section지원되는 작업#

QNN 내보내기는 YOLO26 의미론적 분할을 포함하여 각 모델 제품군에서 사용할 수 있는 표준 작업 세트를 지원합니다.

작업	지원됨
객체 탐지	✅
인스턴스 세분화(Instance Segmentation)	✅
시맨틱 세그멘테이션	✅
포즈 추정	✅
OBB 탐지	✅
분류	✅
깊이 추정	✅

Link to this sectionQNN으로 내보내기: YOLO 모델 변환#

Snapdragon 하드웨어에 배포하기 위해 Ultralytics YOLO 모델을 QNN 형식으로 내보냅니다. 컨텍스트 바이너리는 name 인수로 선택하는 대상 Hexagon Tensor Processor(HTP) 아키텍처에 맞게 최종화됩니다. 이는 RKNN 내보내기에서 칩을 타겟팅할 때 사용되는 동일한 인수입니다.

Link to this section지원되는 HTP 아키텍처#

name을 통해 대상 아키텍처를 전달합니다(예: name="73"). 유효한 값:

`name`	Hexagon HTP	Snapdragon 플랫폼
`68`	v68	Snapdragon 888
`69`	v69	Snapdragon 8 Gen 1 / 8+ Gen 1
`73`	v73	Snapdragon 8 Gen 2, X Elite (기본값)
`75`	v75	Snapdragon 8 Gen 3
`79`	v79	Snapdragon 8 Elite
`81`	v81	Snapdragon 8 Elite Gen 5

플랫폼 지원

QNN 내보내기는 onnxruntime-qnn 패키지를 사용합니다. 사전 빌드된 휠은 Windows (x64 및 ARM64) 와 Linux ARM64 (aarch64) 용으로 게시됩니다. Linux x86-64의 경우 --use_qnn 옵션을 사용하여 소스에서 ONNX Runtime을 빌드하세요(사전 빌드된 휠은 게시되지 않으며 macOS는 지원되는 QNN 호스트가 아닙니다). QNN 컨텍스트 바이너리 생성은 x64 호스트(Windows x64 또는 Linux x86-64)에서 실행되며 내보내기 단계에서 Snapdragon 기기가 필요하지 않습니다.

Link to this section설치#

필수 패키지를 설치하려면 다음을 실행하십시오:

설치

# Install the required package for YOLO
pip install ultralytics

onnxruntime-qnn 패키지(ONNX Runtime QNN 실행 공급자를 제공하고 QAIRT 라이브러리를 포함함)는 첫 내보내기 시 자동으로 설치됩니다. 설치 프로세스와 관련된 자세한 지침 및 모범 사례는 Ultralytics 설치 가이드를 확인하세요. YOLO용 필수 패키지를 설치하는 동안 어려움이 발생하면 일반 문제 가이드에서 해결책과 팁을 참조하세요.

Link to this section사용법#

QNN 형식은 내보내기, 예측 및 검증 모드를 지원합니다. 추론과 검증은 ONNX Runtime의 QNN 실행 공급자(내보내기에 사용된 것과 동일한 onnxruntime-qnn 패키지)를 통해 Qualcomm Snapdragon 하드웨어에서 실행됩니다. 모델을 내보낸 다음, 내보내진 모델을 Snapdragon 기기에 로드하여 추론을 실행하거나 정확도를 검증하세요.

내보내기(Export)

from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export to Qualcomm QNN format (INT8, enforced automatically), targeting an HTP architecture via 'name'
# 'name' can be one of 68, 69, 73, 75, 79, 81 (Snapdragon 888, 8 Gen 1, 8 Gen 2, 8 Gen 3, 8 Elite, 8 Elite Gen 5)
model.export(format="qnn", name="73", imgsz=640)  # use imgsz=224 for classification

추론(Predict)

from ultralytics import YOLO

# Load the exported QNN model (on a Snapdragon device with onnxruntime-qnn)
model = YOLO("yolo26n_qnn.onnx")

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

검증

from ultralytics import YOLO

# Load the exported QNN model (on a Snapdragon device with onnxruntime-qnn)
model = YOLO("yolo26n_qnn.onnx")

# Validate accuracy on the COCO8 dataset
metrics = model.val(data="coco8.yaml")

Link to this section내보내기 인수#

인수	유형	기본값	설명
`format`	`str`	`'qnn'`	내보내진 모델의 대상 형식으로, Qualcomm QNN 런타임과의 호환성을 정의합니다.
`imgsz`	`int` 또는 `tuple`	`640`	모델 입력에 필요한 이미지 크기입니다. 정사각형 이미지의 경우 정수를, 그 외에는 `(height, width)` 튜플을 사용할 수 있습니다.
`batch`	`int`	`1`	생성된 QNN 컨텍스트 바이너리에 포함될 내보내기 모델 배치 크기를 지정합니다.
`name`	`str`	`'73'`	대상 Hexagon HTP 아키텍처 버전: `68`, `69`, `73`, `75`, `79` 또는 `81` (Snapdragon 888, 8 Gen 1, 8 Gen 2, 8 Gen 3, 8 Elite, 8 Elite Gen 5). 컨텍스트 바이너리는 이 아키텍처에 맞게 최종화됩니다.
`quantize`	`int` 또는 `str`	`'w8a16'`/auto	양자화 정밀도입니다. QNN HTP 내보내기는 16비트 활성화 함수가 적용된 INT8 가중치(`'w8a16'`)로 양자화되며, 지정되지 않은 경우 자동으로 활성화됩니다. 이는 더 이상 사용되지 않는 `half`/`int8` 플래그를 대체합니다.
`simplify`	`bool`	`True`	`onnxslim`을 사용하여 중간 ONNX 그래프를 단순화합니다.
`opset`	`int`	`None`	중간 ONNX 그래프에 대한 ONNX opset 버전을 지정합니다. 설정하지 않으면 지원되는 최신 버전을 사용합니다.
`data`	`str`	`'coco8.yaml'`	INT8 보정에 사용되는 데이터셋 구성 파일입니다. 보정 이미지 소스를 지정합니다.
`fraction`	`float`	`1.0`	INT8 양자화에 사용할 보정 데이터셋의 비율입니다.
`device`	`str`	`None`	ONNX 내보내기 단계에 대한 기기를 지정합니다: GPU (`device=0`) 또는 CPU (`device=cpu`).

정밀도

QNN 내보내기는 ONNX Runtime QDQ quantization 흐름과 data의 보정 이미지를 사용하여 모델을 Hexagon NPU에 권장되는 정확도/성능 균형인 16비트 활성화 및 INT8 가중치로 양자화합니다. quantize='w8a16'은 자동으로 적용됩니다.

내보내기 프로세스에 대한 자세한 내용은 내보내기에 대한 Ultralytics 문서 페이지를 참조하십시오.

Link to this section출력 구조#

성공적으로 내보낸 후 독립형 ONNX 파일이 생성됩니다:

yolo26n_qnn.onnx   # ONNX wrapping the precompiled QNN context binary and metadata

yolo26n_qnn.onnx 파일은 QNN 컨텍스트 바이너리를 포함하며 Snapdragon 기기에서 QNN 실행 공급자와 함께 ONNX Runtime에 의해 로드됩니다. 또한 ONNX metadata_props에 클래스 이름, 이미지 크기 및 작업과 같은 모델 메타데이터를 포함합니다.

Link to this section내보내진 YOLO QNN 모델 배포#

QNN 모델은 Qualcomm Snapdragon 하드웨어에서 실행되므로 온디바이스 모델 배포가 간편합니다. onnxruntime-qnn이 설치된 Snapdragon 기기에서 내보내진 모델을 Ultralytics API(yolo predict/yolo val, 위 사용법 참조)로 직접 실행하세요. Ultralytics는 ONNX Runtime QNN 실행 공급자를 통해 컨텍스트 바이너리를 로드하고 HTP(NPU), GPU 또는 CPU 백엔드를 선택합니다.

사용자 지정 파이프라인의 경우, 컨텍스트 바이너리 ONNX를 ONNX Runtime으로 직접 로드할 수도 있습니다. onnxruntime-qnn은 플러그인 실행 공급자이므로 런타임에 등록하세요:

import onnxruntime as ort
import onnxruntime_qnn as qnn_ep

# On the Snapdragon device, register the QNN plugin EP and select its device(s)
ort.register_execution_provider_library("QNNExecutionProvider", qnn_ep.get_library_path())
devices = [d for d in ort.get_ep_devices() if d.ep_name == "QNNExecutionProvider"]

options = ort.SessionOptions()
options.add_provider_for_devices(devices, {"backend_path": qnn_ep.get_qnn_htp_path()})
session = ort.InferenceSession("yolo26n_qnn.onnx", sess_options=options)
input_info = session.get_inputs()[0]
outputs = session.run(None, {input_info.name: input_tensor})  # input_tensor: float32 NHWC

QNN 컨텍스트 바이너리는 미리 컴파일되어 있으므로, 기기에서 그래프를 다시 컴파일할 필요 없이 세션이 빠르게 로드됩니다.

Link to this section권장 워크플로우#

Ultralytics Train Mode를 사용하여 모델을 **학습(Train)**하십시오.
지원되는 플랫폼에서 model.export(format="qnn", imgsz=640)를 사용하여 QNN 형식으로 내보내기 하세요(분류의 경우 imgsz=224 사용).
내보내진 *_qnn.onnx 파일을 Snapdragon 기기에 배포
ONNX Runtime 및 QNN 실행 공급자로 추론을 실행하고 HTP, GPU 또는 CPU 백엔드 선택

Link to this section실제 활용 사례#

Qualcomm Snapdragon 하드웨어에서 실행되는 YOLO 모델은 광범위한 엣지 AI 애플리케이션에 적합합니다:

스마트폰: NPU 가속을 사용하여 카메라 및 사진 앱에서 실시간 객체 탐지 및 장면 이해 수행.
Windows on Snapdragon: 클라우드로 오프로드하지 않고 Copilot+ PC에서 온디바이스 컴퓨터 비전 수행.
자동차: Snapdragon Digital Chassis 플랫폼에서 운전자 모니터링, 탑승자 탐지 및 ADAS 기능 수행.
XR 및 웨어러블: AR/VR 헤드셋 및 스마트 글래스를 위한 저전력, 저지연 인식 기술.
IoT 및 로봇공학: Snapdragon 기반 카메라, 드론 및 임베디드 시스템에서 효율적인 비전 추론 수행.

Link to this section요약#

이 가이드에서는 ONNX Runtime QNN 실행 공급자를 사용하여 Ultralytics YOLO 모델을 Qualcomm QNN 형식으로 로컬에서 내보내는 방법을 배웠습니다. 내보내기 파이프라인은 모델을 ONNX로 변환한 다음, 호스트 머신에서 QNN 컨텍스트 바이너리로 컴파일합니다(Qualcomm 계정이나 클라우드 필요 없음). 결과적으로 QNN/QAIRT 런타임을 통해 Snapdragon CPU, Adreno GPU 및 Hexagon NPU 하드웨어에 최적화된 *_qnn.onnx 파일이 생성됩니다.

Ultralytics YOLO와 Qualcomm의 온디바이스 AI 스택의 결합은 광범위한 Snapdragon 생태계 전반에서 고급 컴퓨터 비전 워크로드를 실행하기 위한 효과적인 솔루션을 제공합니다.

다른 온디바이스 및 모바일 배포 대상은 관련 ONNX, CoreML, NCNN, LiteRT, ExecuTorch, RKNN, Sony IMX500 및 TensorRT 내보내기 가이드를 참조하십시오. 배포 전 형식을 비교하려면 Benchmark mode를 사용하십시오. 전체 형식 및 옵션 목록은 Export mode 문서와 integrations guide page를 방문하십시오.

Link to this sectionFAQ#

Link to this sectionUltralytics YOLO 모델을 QNN 형식으로 내보내려면 어떻게 해야 하나요?#

export(format="qnn", imgsz=640)(분류의 경우 imgsz=224) 또는 동등한 CLI 인수를 사용하여 모델을 내보낼 수 있습니다. 내보내기는 먼저 ONNX 모델을 생성한 다음, ONNX Runtime QNN Execution Provider를 사용하여 이를 로컬에서 QNN 컨텍스트 바이너리로 컴파일합니다. onnxruntime-qnn 패키지는 첫 번째 내보내기 시 자동으로 설치됩니다.

예시

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="qnn", imgsz=640)  # use imgsz=224 for classification

Link to this sectionQualcomm 계정이나 클라우드 액세스가 필요한가요?#

아니요. QNN 내보내기는 QAIRT 라이브러리를 포함하는 onnxruntime-qnn 패키지를 사용하여 로컬 머신에서 완전히 실행됩니다. Qualcomm 계정, API 토큰 또는 네트워크 액세스는 필요하지 않습니다.

Link to this sectionUltralytics QNN 내보내기와 Qualcomm AI Hub는 어떻게 다른가요?#

Qualcomm AI Hub는 호스팅된 Snapdragon 기기에서 모델을 컴파일, 프로파일링 및 벤치마킹하기 위한 Qualcomm의 클라우드 서비스이며, Qualcomm 계정이 필요합니다. Ultralytics QNN 내보내기는 동일한 QNN/QAIRT 런타임(Snapdragon CPU, Adreno GPU 및 Hexagon NPU)을 타겟팅하지만, ONNX Runtime QNN 실행 공급자를 사용하여 컨텍스트 바이너리를 로컬에서 컴파일합니다. 계정, 업로드, 대기열이 필요 없습니다. 이는 표준 YOLO 내보내기 워크플로우 내에서 .pt 모델에서 Snapdragon 준비 빌드로 이동하는 가장 빠른 방법입니다.

Link to this section어떤 플랫폼에서 내보낼 수 있나요?#

onnxruntime-qnn은 Windows (x64 및 ARM64) 와 Linux ARM64 (aarch64) 용 사전 빌드 휠을 제공합니다. Linux x86-64의 경우 --use_qnn 옵션을 사용하여 소스에서 ONNX Runtime을 빌드하세요(사전 빌드된 휠은 게시되지 않으며 macOS는 지원되는 QNN 호스트가 아닙니다). 컨텍스트 바이너리 생성은 x64 호스트(Windows x64 또는 Linux x86-64)에서 실행되며 실제 Snapdragon 기기가 필요하지 않습니다.

Link to this sectionQualcomm Snapdragon NPU에서 YOLO를 실행하려면 어떻게 해야 하나요?#

model.export(format="qnn", imgsz=640)(분류의 경우 imgsz=224)로 내보내기 하고, 결과 yolo26n_qnn.onnx 파일을 Snapdragon 기기에 복사한 다음 yolo predict model=yolo26n_qnn.onnx source=image.jpg(또는 yolo val)를 실행하세요. Ultralytics는 ONNX Runtime QNN Execution Provider를 통해 컨텍스트 바이너리를 로드하고 Hexagon NPU에서 실행합니다. Deploying Exported YOLO QNN Models을 참조하세요.

Link to this sectionQNN과 SNPE의 차이점은 무엇인가요?#

QNN(Qualcomm AI Engine Direct, QAIRT SDK의 일부)은 Qualcomm의 현재 추론 스택이며 구형 Snapdragon Neural Processing Engine(SNPE) SDK의 권장 대체 제품입니다. 새로운 배포 작업은 QNN을 타겟팅해야 합니다.

Link to this sectionQNN 모델을 `yolo predict` 및 `yolo val`로 실행할 수 있나요?#

네, onnxruntime-qnn이 설치된 Qualcomm Snapdragon 기기에서 가능합니다. YOLO("yolo26n_qnn.onnx")는 QNN 실행 공급자를 통해 컨텍스트 바이너리를 로드하고 다른 형식과 마찬가지로 predict/val을 실행합니다. QNN 하드웨어가 없는 x86 호스트에서는 컨텍스트 바이너리가 Snapdragon NPU를 대상으로 하므로 모델을 실행할 수 없습니다.

Link to this sectionQNN 내보내기의 출력은 무엇인가요?#

The export creates a self-contained context-binary ONNX file (e.g., yolo26n_qnn.onnx) with class names, image size, task, and other model metadata embedded in ONNX metadata_props.

기여자

GLglenn-jocher¹² AMamanharshx¹ AMambitious-octopus¹ ONonuralpszr¹ RAraimbekovm¹ SHShuaiLYU¹

생성됨 2개월 전업데이트됨 9시간 전