Skip to main content

Ultralytics YOLO 모델을 위한 DeepX 내보내기

특수 NPU 하드웨어에 컴퓨터 비전 모델을 배포하려면 호환되고 최적화된 모델 형식이 필요합니다. Ultralytics YOLO 모델을 DeepX 형식으로 내보내면 DeepX NPU 가속기에서 효율적인 INT8 양자화 추론이 가능합니다. 이 가이드는 YOLO 모델을 DeepX 형식으로 변환하고 DeepX 기반 하드웨어에 배포하는 과정을 안내합니다.

DeepX란 무엇인가요?

DEEPX NPU Inference

DeepX는 엣지에서의 전력 효율적인 딥러닝 추론을 위해 설계된 NPU(신경망 처리 장치)를 전문으로 하는 AI 반도체 기업입니다. DeepX NPU는 까다로운 임베디드 및 산업용 AI 애플리케이션을 위해 설계되었으며, 최소한의 전력 소비로 높은 처리량을 제공합니다. 이들의 하드웨어는 로봇 공학, 스마트 카메라, 산업 자동화 시스템과 같이 클라우드 연결이 불안정하거나 적합하지 않은 배포 시나리오에 매우 적합합니다.

DeepX 내보내기 형식

DeepX 내보내기는 DeepX NPU 하드웨어에서 실행되도록 최적화된 컴파일된 .dxnn 모델 바이너리를 생성합니다. 컴파일 파이프라인은 dx_com 툴킷을 사용하여 INT8 양자화 및 하드웨어별 최적화를 수행하며, 배포 준비가 완료된 독립형 모델 디렉토리를 생성합니다.

DeepX 모델의 주요 특징

DeepX 모델은 엣지 배포를 위해 다음과 같은 몇 가지 이점을 제공합니다:

  • INT8 양자화: 모델은 내보내는 동안 INT8 정밀도로 양자화되어 모델 크기를 크게 줄이고 NPU 처리량을 최대화합니다. 모델 양자화.
  • NPU 최적화: .dxnn 형식은 DeepX NPU 하드웨어용으로 특별히 컴파일되어 전용 가속 장치를 활용하여 빠르고 효율적인 추론을 수행합니다.
  • 낮은 전력 소비: 추론 작업을 NPU로 오프로드함으로써 DeepX 모델은 동일한 CPU 또는 GPU 추론보다 훨씬 적은 전력을 소비합니다.
  • 보정 기반 정확도: 내보내기 과정에서는 실제 데이터셋 이미지를 사용한 EMA 기반 보정을 사용하여 양자화 중 정확도 손실을 최소화합니다.
  • 독립형 출력: 내보낸 모델 디렉토리에는 컴파일된 바이너리, 보정 구성 및 배포를 간편하게 수행할 수 있는 메타데이터가 번들로 포함되어 있습니다.

지원되는 작업

YOLO26, YOLO11, YOLOv8 모델 제품군 전반에 걸쳐 모든 표준 Ultralytics 작업을 DeepX 내보내기용으로 지원합니다.

DeepX로 내보내기: YOLO 모델 변환

Ultralytics YOLO 모델을 DeepX 형식으로 내보내고 내보낸 모델로 추론을 실행합니다.

참고

DeepX 내보내기는 x86-64 Linux 시스템에서만 지원됩니다. ARM64 (aarch64)는 내보내기 단계에서 지원되지 않습니다.

설치

필수 패키지를 설치하려면 다음을 실행하십시오:

설치
# Install the required package for YOLO
pip install ultralytics

dx_com 컴파일러 패키지는 첫 번째 내보내기 시 DeepX SDK 저장소에서 자동으로 설치됩니다. 설치 과정과 관련된 자세한 지침 및 모범 사례는 Ultralytics 설치 가이드를 확인하십시오. YOLO에 필요한 패키지를 설치하는 동안 문제가 발생하면 일반적인 문제 가이드에서 해결 방법 및 팁을 참조하십시오.

사용법

사용법
from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to DeepX format (int8=True is enforced automatically)
model.export(format="deepx")  # creates 'yolo26n_deepx_model/'

내보내기 인수

인수유형기본값설명
formatstr'deepx'내보낸 모델의 대상 형식으로, DeepX NPU 하드웨어와의 호환성을 정의합니다.
imgszint 또는 tuple640모델 입력에 필요한 이미지 크기입니다. DeepX 내보내기는 정사각형 입력을 필요로 하므로 정수(예: 640) 또는 높이와 너비가 동일한 튜플을 전달하십시오.
int8boolTrueINT8 양자화를 활성화합니다. DeepX 내보내기에 필수적이며 지정하지 않으면 자동으로 True로 설정됩니다.
datastr'coco128.yaml'INT8 보정에 사용되는 데이터셋 구성 파일입니다. 보정 이미지 소스를 지정합니다.
devicestrNone내보내기를 위한 장치를 지정합니다: GPU (device=0) 또는 CPU (device=cpu).
optimizeboolFalse추론 지연 시간을 줄이고 컴파일 시간을 늘리는 더 높은 컴파일러 최적화를 활성화합니다.

DeepX 내보내기는 항상 x86-64 Linux 호스트에서 실행하십시오. dx_com 컴파일러는 ARM64를 지원하지 않습니다.

내보내기 프로세스에 대한 자세한 내용은 내보내기에 관한 Ultralytics 문서 페이지.

를 방문하십시오.

출력 구조

yolo26n_deepx_model/
├── yolo26n.dxnn     # Compiled DeepX model binary (NPU executable)
├── config.json      # Calibration and preprocessing configuration
└── metadata.yaml    # Model metadata (classes, image size, task, etc.)

.dxnn성공적으로 내보내면 다음과 같은 레이아웃의 모델 디렉토리가 생성됩니다: 파일은 dx_engine 런타임이 NPU에서 직접 로드하는 컴파일된 모델 바이너리입니다. metadata.yaml에는 Ultralytics 추론 파이프라인에서 사용하는 클래스 이름, 이미지 크기 및 기타 정보가 포함되어 있습니다.

내보낸 YOLO DeepX 모델 배포

Ultralytics YOLO 모델을 DeepX 형식으로 성공적으로 내보냈다면, 다음 단계는 이러한 모델을 DeepX NPU 하드웨어에 배포하는 것입니다.

런타임 설치

추론을 위해서는 DeepX NPU 드라이버, libdxrt 런타임 및 dx_engine Python 패키지가 필요합니다.

참고

DeepX 런타임은 x86-64 Linux 시스템과 ARM64 Debian Trixie 시스템(Raspberry Pi 5)에서만 지원됩니다.

# Install the NPU driver and libdxrt runtime
sudo apt update
wget https://github.com/DEEPX-AI/dx_rt_npu_linux_driver/raw/main/release/2.4.0/dxrt-driver-dkms_2.4.0-2_all.deb
sudo apt install ./dxrt-driver-dkms_2.4.0-2_all.deb
wget https://github.com/DEEPX-AI/dx_rt/raw/main/release/3.3.2/libdxrt_3.3.2_all.deb
sudo apt install ./libdxrt_3.3.2_all.deb

# Create dx-engine wheel
cd /usr/share/libdxrt/python_package && sudo ./make_whl.sh

# Install the bundled dx_engine Python wheel
pip install dx_engine-*.whl

런타임이 dxrt-cli --version로 올바르게 설치되었는지 확인하십시오. 다음과 유사한 출력이 표시되어야 합니다:

DXRT v3.3.2
Minimum Driver Versions
Device Driver: v2.4.0
PCIe Driver: v2.2.0
Firmware: v2.5.2
Minimum Compiler Versions
Compiler: v1.18.1
.dxnn File Format: v6

사용법

사용법
from ultralytics import YOLO

# Load the exported DeepX model
model = YOLO("yolo26n_deepx_model")

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for r in results:
    print(f"Detected {len(r.boxes)} objects")
    r.show()

dxtron을 사용한 시각화

dxtron은 컴파일된 .dxnn 모델을 검사하기 위한 DeepX의 그래프 시각화 도구입니다.

DeepX SDK에서 dxtron 패키지를 다운로드하고 이를 통해 설치하여 .deb를 x86-64 Linux에 설치하십시오.dpkg:

wget https://sdk.deepx.ai/release/dxtron/v2.0.1/dxtron_2.0.1_amd64.deb
sudo dpkg -i dxtron_2.0.1_amd64.deb

그런 다음 내보낸 모델을 엽니다:

dxtron yolo26n_deepx_model/yolo26n.dxnn
참고

dxtronx86-64 Linux에서만 사용할 수 있습니다. ARM64/aarch64 및 비 Linux 플랫폼은 지원되지 않습니다.

벤치마크

Ultralytics 팀은 PyTorch와 DeepX 간의 속도와 정확도를 비교하며 YOLO26 모델을 벤치마킹했습니다.

성능
모델형식상태크기 (MB)metrics/mAP50-95(B)추론 시간 (ms/im)
YOLO26nPyTorch5.30.4760315.2
YOLO26nDeepX6.60.466034.6
YOLO26n-segPyTorch6.50.4080485.4
YOLO26n-segDeepX7.90.392053.8
YOLO26n-posePyTorch7.60.4230506.3
YOLO26n-poseDeepX8.80.459037.6
YOLO26n-obbPyTorch5.70.8171094.4
YOLO26n-obbDeepX7.30.78356.4
모델형식상태크기 (MB)acc (top1)acc (top5)추론 시간 (ms/im)
YOLO26n-clsPyTorch5.60.4310.71623.8
YOLO26n-clsDeepX5.90.3330.6862.7
참고

위 벤치마크에 대한 검증은 객체 탐지의 경우 coco128, 세그멘테이션은 coco128-seg, 포즈 추정은 coco8-pose, 분류는 imagenet100, OBB 모델은 dota128을 사용하여 수행되었습니다. 추론 시간에는 전처리 및 후처리 과정이 포함되지 않습니다.

성능 최적화 팁

Raspberry Pi 5에 연결된 DX-M1 NPU에서 최상의 추론 처리량을 얻으려면 부팅 구성 파일을 열고 PCIe Gen 3 지원을 활성화하십시오.

sudo nano /boot/firmware/config.txt

파일 끝에 다음 줄을 추가하십시오:

dtparam=pciex1
dtparam=pciex1_gen=3

저장 후 종료(Ctrl+X, 이후 Y, 그리고 Enter)하고 재부팅하십시오:

sudo reboot

권장 워크플로우

  1. Predict Ultralytics를 사용하여 모델을 학습 모드(Train Mode)
  2. 로 DeepX 형식으로 model.export(format="deepx")
  3. 검증(Validate)하여 정확도를 yolo val을 통해 최소 양자화 손실을 확인하십시오
  4. 에 대한 전체 문서는 yolo predict을 사용하여 정성적 검증
  5. 배포(Deploy) 내보낸 _deepx_model/ 디렉토리를 다음을 사용하여 DeepX NPU 하드웨어에 dx_engine 런타임

실제 활용 사례

DeepX NPU 하드웨어에 배포된 YOLO 모델은 다음과 같은 다양한 엣지 AI 애플리케이션에 매우 적합합니다:

  • 스마트 보안: 저전력 소비로 클라우드 의존성 없이 보안 및 모니터링 시스템을 위한 실시간 객체 탐지 기능 제공.
  • 산업 자동화: 공장 환경에서의 온디바이스 품질 관리, 결함 탐지 및 공정 모니터링.
  • 로봇 공학: 자율 로봇 및 드론에서의 시각 기반 내비게이션, 장애물 회피 및 객체 인식.
  • 스마트 농업: 다음을 활용한 작물 상태 모니터링, 해충 탐지 및 수확량 예측 농업 분야의 컴퓨터 비전.
  • 소매 분석: 실시간 엣지 추론을 통한 고객 흐름 분석, 매대 모니터링 및 재고 추적.

요약

이 가이드에서는 Ultralytics YOLO 모델을 DeepX 형식으로 내보내고 DeepX NPU 하드웨어에 배포하는 방법을 배웠습니다. 내보내기 파이프라인은 INT8 보정 및 dx_com 컴파일러를 사용하여 하드웨어 최적화된 .dxnn 바이너리를 생성하며, dx_engine 런타임은 장치에서의 추론을 처리합니다.

Ultralytics와 DeepX의 NPU 기술 결합은 임베디드 및 엣지 장치에서 고급 Ultralytics YOLO컴퓨터 비전 워크로드를 실행하기 위한 효과적인 솔루션을 제공하며, 실시간 애플리케이션을 위해 낮은 전력 소비로 높은 처리량을 구현합니다.자세한 사용법은

DeepX 공식 웹사이트를 방문하십시오..

또한 다른 Ultralytics YOLO 통합에 대해 알고 싶으시면 저희 통합 가이드 페이지를 방문하십시오. 유용한 리소스와 인사이트를 많이 찾으실 수 있습니다.

FAQ

Ultralytics YOLO 모델을 DeepX 형식으로 어떻게 내보내나요?

Python의 export() 메서드를 사용하거나 CLI를 통해 모델을 내보낼 수 있습니다. 내보내기는 자동으로 INT8 양자화를 활성화하고 보정 데이터셋을 사용하여 정확도 손실을 최소화합니다. dx_com 컴파일러 패키지는 설치되어 있지 않은 경우 자동으로 설치됩니다.

Ultralytics Platform
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="deepx")

DeepX 내보내기에 INT8 양자화가 필요한 이유는 무엇인가요?

DeepX NPU는 최대 효율로 INT8 연산을 수행하도록 설계되었습니다. dx_com 컴파일러는 실제 데이터셋 이미지를 사용한 EMA 기반 보정을 통해 내보내기(export) 중에 모델을 양자화하여 NPU가 전체 성능을 발휘할 수 있도록 합니다. DeepX 내보내기에는 항상 INT8이 강제 적용됩니다. 만약 int8=False을(를) 전달하면 경고와 함께 재정의됩니다.

DeepX 내보내기는 어떤 플랫폼을 지원하나요?

DeepX 모델 내보내기(컴파일)에는 x86-64 Linux 호스트가 필요합니다. 내보내기 단계는 ARM64(aarch64) 및 Windows 머신에서 지원되지 않습니다. 내보낸 .dxnn 모델을 사용한 추론은 dx_engine 런타임이 지원하는 모든 Linux 플랫폼(x86-64 및 ARM64)에서 실행할 수 있습니다.

DeepX 내보내기의 출력 결과는 무엇인가요?

내보내기를 수행하면 다음을 포함하는 디렉토리(예: yolo26n_deepx_model/)가 생성됩니다:

  • yolo26n.dxnn — 컴파일된 NPU 바이너리
  • config.json — 보정 및 전처리 설정
  • metadata.yaml — 클래스 이름 및 이미지 크기를 포함한 모델 메타데이터

DeepX 하드웨어에 사용자 지정 모델을 배포할 수 있나요?

네 가능합니다. Ultralytics Train Mode를 사용하여 학습되고 format="deepx"(으)로 내보낸 모든 모델은 지원되는 레이어 연산을 사용하는 경우 DeepX NPU 하드웨어에 배포할 수 있습니다. 내보내기는 감지(detection), 분할(segmentation), 자세 추정(pose estimation), 방향성 경계 상자(OBB) 및 분류(classification) 작업을 지원합니다.

DeepX 내보내기에 몇 개의 보정 이미지를 사용해야 하나요?

DeepX 내보내기 파이프라인은 EMA 보정 방식을 사용하여 보정 데이터셋의 모든 이미지( fraction 필터링 후)를 사용합니다. 일반적으로 수백 장의 이미지면 우수한 양자화 정확도를 얻기에 충분합니다. 대규모 데이터셋에서 컴파일 시간이 문제가 될 경우 data을(를) 더 작은 데이터셋으로 지정하거나 fraction을(를) 1.0 미만으로 설정하십시오.

추론을 위한 DeepX 런타임은 어떻게 설치하나요?

DeepX 런타임은 ultralytics와(과) 함께 번들로 제공되지 않으므로 추론을 실행하기 전에 별도로 설치해야 합니다. x86-64 Linux 머신 및 ARM64 Debian Trixie 머신(Raspberry Pi 5)의 경우, DEEPX-AI GitHub 릴리스에서 NPU 드라이버(dxrt-driver-dkms) 및 런타임(libdxrt)을 설치한 다음 번들된 dx_engine Python 휠을 설치하십시오. 단계별 명령은 위의 런타임 설치 섹션을 참조하십시오.

댓글