ExecuTorch를 사용하여 모바일 및 엣지 환경에 YOLO26 배포하기

스마트폰, 태블릿, 임베디드 시스템과 같은 엣지 디바이스에 컴퓨터 비전 모델을 배포하려면 성능과 리소스 제약 사이의 균형을 맞춘 최적화된 런타임이 필요합니다. PyTorch의 엣지 컴퓨팅 솔루션인 ExecuTorch는 Ultralytics YOLO 모델을 온디바이스에서 효율적으로 추론할 수 있도록 지원합니다.

이 가이드에서는 Ultralytics YOLO 모델을 ExecuTorch 형식으로 내보내어 모바일 및 엣지 디바이스에서 최적화된 성능으로 모델을 배포하는 방법을 설명합니다.

왜 ExecuTorch로 내보내야 하나요?

PyTorch ExecuTorch mobile inference framework

ExecuTorch는 모바일 및 엣지 디바이스 전반에서 온디바이스 추론 기능을 활성화하기 위한 PyTorch의 엔드투엔드 솔루션입니다. 휴대성과 효율성을 목표로 구축된 ExecuTorch는 다양한 컴퓨팅 플랫폼에서 PyTorch 프로그램을 실행하는 데 사용할 수 있습니다.

ExecuTorch의 주요 기능

ExecuTorch는 엣지 디바이스에 Ultralytics YOLO 모델을 배포하기 위한 강력한 기능을 제공합니다:

  • 휴대용 모델 형식: ExecuTorch는 리소스가 제한된 디바이스에서 크기와 로딩 속도에 최적화된 .pte (PyTorch ExecuTorch) 형식을 사용합니다.

  • XNNPACK 백엔드: XNNPACK과의 기본 통합을 통해 모바일 CPU에서 고도로 최적화된 추론을 제공하며, 특수 하드웨어 없이도 뛰어난 성능을 발휘합니다.

  • 양자화 지원: 모델 크기를 줄이고 추론 속도를 높이면서도 정확도를 유지할 수 있는 양자화 기법을 내장하여 지원합니다.

  • 메모리 효율성: 최적화된 메모리 관리로 런타임 메모리 사용량을 줄여 RAM이 제한된 디바이스에 적합합니다.

  • 모델 메타데이터: 내보낸 모델은 쉽게 통합할 수 있도록 별도의 YAML 파일에 메타데이터(이미지 크기, 클래스 이름 등)를 포함합니다.

ExecuTorch를 이용한 배포 옵션

ExecuTorch 모델은 다양한 엣지 및 모바일 플랫폼에 배포할 수 있습니다:

  • 모바일 애플리케이션: iOS 및 Android 애플리케이션에 네이티브 성능으로 배포하여 모바일 앱에서 실시간 객체 탐지를 구현할 수 있습니다.

  • 임베디드 시스템: Raspberry Pi, NVIDIA Jetson 및 기타 ARM 기반 시스템과 같은 임베디드 Linux 디바이스에서 최적화된 성능으로 실행할 수 있습니다.

  • 엣지 AI 디바이스: 가속화된 추론을 위해 커스텀 델리게이트(delegates)를 사용하여 특수 엣지 AI 하드웨어에 배포할 수 있습니다.

  • IoT 디바이스: 클라우드 연결 없이 온디바이스 추론을 수행하도록 IoT 디바이스에 통합할 수 있습니다.

Ultralytics YOLO26 모델을 ExecuTorch로 내보내기

Ultralytics YOLO26 모델을 ExecuTorch 형식으로 변환하면 모바일 및 엣지 디바이스에서 효율적인 배포가 가능해집니다.

설치

ExecuTorch 내보내기에는 Python 3.10 이상과 특정 종속성 패키지가 필요합니다:

설치
# Install Ultralytics package
pip install ultralytics

설치 과정과 관련된 자세한 지침 및 모범 사례는 YOLO26 설치 가이드를 확인하세요. YOLO26용 필수 패키지를 설치하는 동안 문제가 발생하면 일반 문제 가이드에서 해결책과 팁을 확인하세요.

사용법

YOLO26 모델을 ExecuTorch로 내보내는 과정은 간단합니다:

사용법
from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to ExecuTorch format
model.export(format="executorch")  # creates 'yolo26n_executorch_model' directory

# Load the exported ExecuTorch model
executorch_model = YOLO("yolo26n_executorch_model")

# Run inference on a single image
results = executorch_model.predict("https://ultralytics.com/images/bus.jpg")

ExecuTorch 내보내기를 수행하면 .pte 파일과 메타데이터가 포함된 디렉토리가 생성됩니다. 모바일 또는 임베디드 애플리케이션에서 ExecuTorch 런타임을 사용하여 .pte 모델을 로드하고 추론을 수행하십시오.

내보내기 인수

ExecuTorch 형식으로 내보낼 때 다음과 같은 인수를 지정할 수 있습니다:

인수(Argument)유형(Type)기본값(Default)설명
formatstr'executorch'내보낸 모델의 대상 형식으로, 다양한 배포 환경과의 호환성을 정의합니다.
imgszint 또는 tuple640모델 입력에 필요한 이미지 크기입니다. 정사각형 이미지의 경우 정수를, 특정 크기의 경우 (height, width) 튜플을 사용할 수 있습니다.
batchint1내보낸 모델의 배치 추론 크기 또는 predict 모드에서 내보낸 모델이 동시에 처리할 최대 이미지 수를 지정합니다.
devicestrNone내보낼 기기를 지정합니다: GPU (device=0), CPU (device=cpu), Apple 실리콘용 MPS (device=mps).

출력 구조

ExecuTorch 내보내기는 모델과 메타데이터가 포함된 디렉토리를 생성합니다:

yolo26n_executorch_model/
├── yolo26n.pte              # ExecuTorch model file
└── metadata.yaml            # Model metadata (classes, image size, etc.)

내보낸 ExecuTorch 모델 사용하기

모델을 내보낸 후에는 ExecuTorch 런타임을 사용하여 대상 애플리케이션에 통합해야 합니다.

모바일 통합

모바일 애플리케이션(iOS/Android)의 경우 다음을 수행해야 합니다:

  1. ExecuTorch 런타임 추가: 모바일 프로젝트에 ExecuTorch 런타임 라이브러리를 포함합니다.
  2. 모델 로드: 애플리케이션에서 .pte 파일을 로드합니다.
  3. 추론 실행: 이미지를 처리하고 예측값을 얻습니다.

iOS 통합 예시 (Objective-C/C++):

// iOS uses C++ APIs for model loading and inference
// See https://pytorch.org/executorch/stable/using-executorch-ios.html for complete examples

#include <executorch/extension/module/module.h>

using namespace ::executorch::extension;

// Load the model
Module module("/path/to/yolo26n.pte");

// Create input tensor
float input[1 * 3 * 640 * 640];
auto tensor = from_blob(input, {1, 3, 640, 640});

// Run inference
const auto result = module.forward(tensor);

Android 통합 예시 (Kotlin):

import org.pytorch.executorch.EValue
import org.pytorch.executorch.Module
import org.pytorch.executorch.Tensor

// Load the model
val module = Module.load("/path/to/yolo26n.pte")

// Prepare input tensor
val inputTensor = Tensor.fromBlob(floatData, longArrayOf(1, 3, 640, 640))
val inputEValue = EValue.from(inputTensor)

// Run inference
val outputs = module.forward(inputEValue)
val scores = outputs[0].toTensor().dataAsFloatArray

임베디드 Linux

임베디드 Linux 시스템의 경우 ExecuTorch C++ API를 사용하십시오:

#include <executorch/extension/module/module.h>

// Load model
auto module = torch::executor::Module("yolo26n.pte");

// Prepare input
std::vector<float> input_data = preprocessImage(image);
auto input_tensor = torch::executor::Tensor(input_data, {1, 3, 640, 640});

// Run inference
auto outputs = module.forward({input_tensor});

ExecuTorch를 애플리케이션에 통합하는 방법에 대한 자세한 내용은 ExecuTorch 문서를 방문하십시오.

성능 최적화

모델 크기 최적화

배포를 위해 모델 크기를 줄이려면:

  • 더 작은 모델 사용: 가장 작은 용량의 YOLO26n(nano) 모델부터 시작하십시오.
  • 입력 해상도 낮추기: 더 작은 이미지 크기(예: imgsz=320 또는 imgsz=416)를 사용하십시오.
  • 양자화: 양자화 기법을 적용하십시오(향후 ExecuTorch 버전에서 지원 예정).

추론 속도 최적화

더 빠른 추론을 위해:

  • XNNPACK 백엔드: 기본 XNNPACK 백엔드는 최적화된 CPU 추론을 제공합니다.
  • 하드웨어 가속: 플랫폼별 델리게이트(예: iOS용 CoreML)를 사용하십시오.
  • 배치 처리: 가능한 경우 여러 이미지를 한꺼번에 처리하십시오.

벤치마크

Ultralytics 팀은 PyTorch와 ExecuTorch 간의 속도와 정확도를 비교하여 YOLO26 모델을 벤치마킹했습니다.

성능
모델형식상태크기(MB)metrics/mAP50-95(B)추론 시간 (ms/im)
YOLO26nPyTorch5.30.4790314.80
YOLO26nExecuTorch9.40.4800142
YOLO26sPyTorch19.50.5730930.90
YOLO26sExecuTorch36.50.5780376.1
참고

추론 시간은 전처리/후처리 과정을 포함하지 않습니다.

문제 해결

일반적인 문제

문제: Python version error

해결책: ExecuTorch는 Python 3.10 이상이 필요합니다. Python 설치를 업그레이드하십시오:

# Using conda
conda create -n executorch python=3.10
conda activate executorch

문제: Export fails during first run

해결책: ExecuTorch는 처음 사용할 때 구성 요소를 다운로드하고 컴파일해야 할 수 있습니다. 다음이 설치되어 있는지 확인하십시오:

pip install --upgrade executorch

문제: Import errors for ExecuTorch modules

해결책: ExecuTorch가 올바르게 설치되었는지 확인하십시오:

pip install executorch --force-reinstall

더 많은 문제 해결 도움말은 Ultralytics GitHub Issues 또는 ExecuTorch 문서를 방문하십시오.

요약

YOLO26 모델을 ExecuTorch 형식으로 내보내면 모바일 및 엣지 디바이스에서 효율적인 배포가 가능합니다. PyTorch 네이티브 통합, 크로스 플랫폼 지원 및 최적화된 성능을 갖춘 ExecuTorch는 엣지 AI 애플리케이션을 위한 훌륭한 선택입니다.

핵심 요약:

  • ExecuTorch는 뛰어난 성능을 갖춘 PyTorch 네이티브 엣지 배포를 제공합니다.
  • format='executorch' 매개변수로 간편하게 내보낼 수 있습니다.
  • 모델은 XNNPACK 백엔드를 통해 모바일 CPU에 최적화됩니다.
  • iOS, Android 및 임베디드 Linux 플랫폼을 지원합니다.
  • Python 3.10 이상 및 FlatBuffers 컴파일러가 필요합니다.

FAQ

YOLO26 모델을 ExecuTorch 형식으로 어떻게 내보내나요?

Python 또는 CLI를 사용하여 YOLO26 모델을 ExecuTorch로 내보내십시오:

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="executorch")

또는

yolo export model=yolo26n.pt format=executorch

ExecuTorch 내보내기를 위한 시스템 요구 사항은 무엇인가요?

ExecuTorch 내보내기 요구 사항:

  • Python 3.10 이상
  • executorch 패키지 (pip install executorch를 통해 설치)
  • PyTorch (ultralytics 설치 시 자동으로 설치됨)

참고: 첫 번째 내보내기 중에는 ExecuTorch가 FlatBuffers 컴파일러를 포함한 필요한 구성 요소를 자동으로 다운로드하고 컴파일합니다.

Python에서 직접 ExecuTorch 모델로 추론을 실행할 수 있나요?

ExecuTorch 모델(.pte 파일)은 ExecuTorch 런타임을 사용하여 모바일 및 엣지 디바이스에 배포하도록 설계되었습니다. Python에서 YOLO()를 통해 직접 로드하여 추론할 수는 없습니다. ExecuTorch 런타임 라이브러리를 사용하여 대상 애플리케이션에 통합해야 합니다.

ExecuTorch는 어떤 플랫폼을 지원하나요?

ExecuTorch는 다음을 지원합니다:

  • 모바일: iOS 및 Android
  • 임베디드 Linux: Raspberry Pi, NVIDIA Jetson 및 기타 ARM 디바이스
  • 데스크톱: Linux, macOS 및 Windows (개발용)

모바일 배포 시 ExecuTorch와 TFLite를 어떻게 비교하나요?

ExecuTorch와 TFLite 모두 모바일 배포에 탁월합니다:

  • ExecuTorch: 더 나은 PyTorch 통합, 네이티브 PyTorch 워크플로우, 성장 중인 생태계
  • TFLite: 더 성숙함, 더 광범위한 하드웨어 지원, 더 많은 배포 예시

이미 PyTorch를 사용 중이고 네이티브 배포 경로를 원한다면 ExecuTorch를 선택하십시오. 최대 호환성과 성숙한 도구가 필요하다면 TFLite를 선택하십시오.

GPU 가속과 함께 ExecuTorch 모델을 사용할 수 있나요?

네! ExecuTorch는 다양한 백엔드를 통해 하드웨어 가속을 지원합니다:

  • 모바일 GPU: Vulkan, Metal 또는 OpenCL 델리게이트를 통해
  • NPU/DSP: 플랫폼별 델리게이트를 통해
  • 기본: 최적화된 CPU 추론을 위한 XNNPACK

백엔드별 설정은 ExecuTorch 문서를 참조하십시오.

댓글