퀵 스타트 가이드: NVIDIA DGX Spark 및 Ultralytics YOLO26
이 종합 가이드는 NVIDIA의 소형 데스크톱 AI 슈퍼컴퓨터인 NVIDIA DGX Spark에 Ultralytics YOLO26을 배포하는 상세한 단계별 안내를 제공합니다. 또한, 이 강력한 시스템에서 YOLO26의 성능을 입증하기 위한 벤치마크 결과를 보여줍니다.
이 가이드는 Ubuntu 기반의 DGX OS를 실행하는 NVIDIA DGX Spark Founders Edition에서 테스트되었습니다. 최신 DGX OS 릴리스에서도 원활하게 작동할 것으로 예상됩니다.
NVIDIA DGX Spark란 무엇입니까?
NVIDIA DGX Spark는 NVIDIA GB10 Grace Blackwell Superchip으로 구동되는 소형 데스크톱 AI 슈퍼컴퓨터입니다. FP4 정밀도로 최대 1 petaFLOP의 AI 컴퓨팅 성능을 제공하여 데스크톱 폼 팩터에서 강력한 AI 성능이 필요한 개발자, 연구원 및 데이터 과학자에게 이상적입니다.
Watch: How to Get up to 1000 FPS with Ultralytics YOLO26 on NVIDIA DGX Spark | TensorRT & Batch Inference
주요 사양
| 사양 | 세부 정보 |
|---|---|
| AI 성능 | 최대 1 PFLOP (FP4) |
| GPU | 5세대 Tensor 코어 및 4세대 RT 코어가 포함된 NVIDIA Blackwell 아키텍처 |
| CPU | 20코어 Arm 프로세서 (10 Cortex-X925 + 10 Cortex-A725) |
| 메모리 | 128 GB LPDDR5x 통합 시스템 메모리, 256-bit 인터페이스, 4266 MHz, 273 GB/s 대역폭 |
| 스토리지 | 1 TB 또는 4 TB NVMe M.2 (자가 암호화 포함) |
| 네트워크 | 1x RJ-45 (10 GbE), ConnectX-7 Smart NIC, Wi-Fi 7, Bluetooth 5.4 |
| 연결성 | 4x USB Type-C, 1x HDMI 2.1a, HDMI 멀티채널 오디오 |
| 비디오 처리 | 1x NVENC, 1x NVDEC |
DGX OS
NVIDIA DGX OS는 DGX 시스템에서 AI, 머신러닝 및 분석 애플리케이션을 실행하기 위한 안정적이고 테스트를 거친 지원되는 운영 체제 기반을 제공하는 맞춤형 Linux 배포판입니다. 다음을 포함합니다:
- AI 워크로드에 최적화된 강력한 Linux 기반
- NVIDIA 하드웨어용으로 사전 구성된 드라이버 및 시스템 설정
- 보안 업데이트 및 시스템 유지 관리 기능
- 더 넓은 NVIDIA 소프트웨어 생태계와의 호환성
DGX OS는 일반적으로 1년에 두 번(2월 및 8월경) 업데이트를 제공하는 정기 릴리스 일정을 따르며, 주요 릴리스 사이에 추가 보안 패치가 제공됩니다.
DGX 대시보드
DGX Spark에는 다음을 제공하는 내장형 DGX 대시보드가 함께 제공됩니다:
- 실시간 시스템 모니터링: 시스템의 현재 운영 지표 개요
- 시스템 업데이트: 대시보드에서 직접 업데이트를 적용하는 기능
- 시스템 설정: 장치 이름 및 기타 구성 변경
- 통합 JupyterLab: 개발을 위한 로컬 Jupyter Notebook 접근
대시보드 접근
Ubuntu 데스크톱 왼쪽 하단에 있는 "Show Apps" 버튼을 클릭한 다음 "DGX 대시보드"를 선택하여 브라우저에서 엽니다.
대시보드에는 가상 환경을 자동으로 생성하고 시작 시 권장 패키지를 설치하는 통합 JupyterLab 인스턴스가 포함되어 있습니다. 각 사용자 계정에는 JupyterLab 접근을 위한 전용 포트가 할당됩니다.
Docker를 이용한 퀵 스타트
NVIDIA DGX Spark에서 Ultralytics YOLO26을 시작하는 가장 빠른 방법은 사전 빌드된 docker 이미지를 사용하는 것입니다. Jetson AGX Thor(JetPack 7.0)를 지원하는 동일한 Docker 이미지가 DGX OS가 설치된 DGX Spark에서도 작동합니다.
t=ultralytics/ultralytics:latest-nvidia-arm64
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia --gpus all $t이 작업이 완료되면 NVIDIA DGX Spark에서 TensorRT 사용 섹션으로 건너뛰십시오.
네이티브 설치로 시작
Docker 없는 네이티브 설치를 위해서는 다음 단계를 따르십시오.
Ultralytics 패키지 설치
여기서는 PyTorch 모델을 다른 형식으로 내보낼 수 있도록 선택적 종속성을 포함하여 DGX Spark에 Ultralytics 패키지를 설치합니다. TensorRT가 DGX Spark의 성능을 극대화할 수 있으므로 주로 NVIDIA TensorRT 내보내기에 중점을 둡니다.
-
패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드
sudo apt update sudo apt install python3-pip -y pip install -U pip -
선택적 종속성이 포함된
ultralyticspip 패키지 설치pip install ultralytics[export] -
장치 재부팅
sudo reboot
PyTorch 및 Torchvision 설치
위의 ultralytics 설치 과정에서 Torch 및 Torchvision이 설치됩니다. 그러나 pip를 통해 설치된 이 패키지들은 CUDA 13이 포함된 DGX Spark의 ARM64 아키텍처에 완전히 최적화되지 않았을 수 있습니다. 따라서 CUDA 13 호환 버전을 설치하는 것을 권장합니다:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130When running PyTorch 2.9.1 on NVIDIA DGX Spark, you may encounter the following UserWarning when initializing CUDA (e.g. running yolo checks, yolo predict, etc.):
UserWarning: Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.
Minimum and Maximum cuda capability supported by this version of PyTorch is (8.0) - (12.0)이 경고는 무시해도 안전합니다. 이를 영구적으로 해결하기 위해 PyTorch PR #164590에 수정 사항이 제출되었으며, 이는 PyTorch 2.10 릴리스에 포함될 예정입니다.
onnxruntime-gpu 설치
PyPI에 호스팅된 onnxruntime-gpu 패키지에는 ARM64 시스템용 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기 작업에 필요합니다.
Here we will download and install onnxruntime-gpu 1.24.0 with Python3.12 support.
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whlNVIDIA DGX Spark에서 TensorRT 사용
Ultralytics에서 지원하는 모든 모델 내보내기 형식 중 TensorRT는 NVIDIA DGX Spark에서 가장 높은 추론 성능을 제공하므로 배포 시 가장 권장됩니다. 설정 방법 및 고급 사용법은 전용 TensorRT 통합 가이드를 참조하십시오.
모델을 TensorRT로 변환하고 추론 실행
PyTorch 형식의 YOLO26n 모델을 TensorRT로 변환하여 내보낸 모델로 추론을 실행합니다.
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT
model.export(format="engine") # creates 'yolo26n.engine'
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")모델을 다양한 형식으로 내보낼 때 추가 인수를 확인하려면 내보내기 페이지를 방문하십시오.
NVIDIA DGX Spark YOLO11 벤치마크
YOLO11 벤치마크는 Ultralytics 팀이 여러 모델 형식(PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch)에 대해 속도와 정확도를 측정하였습니다. 벤치마크는 기본 입력 이미지 크기 640을 사용하여 FP32 정밀도에서 NVIDIA DGX Spark로 실행되었습니다.
상세 비교 테이블
아래 표는 5가지 모델(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)에 대한 여러 형식의 벤치마크 결과를 나타내며, 각 조합에 대한 상태, 크기, mAP50-95(B) 지표 및 추론 시간을 제공합니다.
| 형식 | 상태 | 디스크 크기 (MB) | mAP50-95(B) | 추론 시간 (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.4 | 0.5071 | 2.67 |
| TorchScript | ✅ | 10.5 | 0.5083 | 2.62 |
| ONNX | ✅ | 10.2 | 0.5074 | 5.92 |
| OpenVINO | ✅ | 10.4 | 0.5058 | 14.95 |
| TensorRT (FP32) | ✅ | 12.8 | 0.5085 | 1.95 |
| TensorRT (FP16) | ✅ | 7.0 | 0.5068 | 1.01 |
| TensorRT (INT8) | ✅ | 18.6 | 0.4880 | 1.62 |
| TF SavedModel | ✅ | 25.7 | 0.5076 | 36.39 |
| TF GraphDef | ✅ | 10.3 | 0.5076 | 41.06 |
| TF Lite | ✅ | 10.3 | 0.5075 | 64.36 |
| MNN | ✅ | 10.1 | 0.5075 | 12.14 |
| NCNN | ✅ | 10.2 | 0.5041 | 12.31 |
| ExecuTorch | ✅ | 10.2 | 0.5075 | 27.61 |
Ultralytics 8.3.249 버전으로 벤치마크되었습니다.
결과 재현하기
모든 내보내기 형식에 대해 위의 Ultralytics 벤치마크를 재현하려면 다음 코드를 실행하십시오:
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Benchmark YOLO26n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)벤치마크 결과는 시스템의 정확한 하드웨어 및 소프트웨어 구성과 벤치마크 실행 시점의 시스템 부하에 따라 달라질 수 있습니다. 가장 신뢰할 수 있는 결과를 얻으려면 data='coco.yaml'(5000개의 검증 이미지)과 같이 이미지 수가 많은 데이터셋을 사용하십시오.
NVIDIA DGX Spark를 위한 모범 사례
NVIDIA DGX Spark를 사용할 때 YOLO26을 실행하면서 최대 성능을 발휘하기 위해 따라야 할 몇 가지 모범 사례가 있습니다.
-
시스템 성능 모니터링
NVIDIA의 모니터링 도구를 사용하여 GPU 및 CPU 사용률을 추적하십시오:
nvidia-smi -
메모리 사용 최적화
128GB의 통합 메모리를 갖춘 DGX Spark는 대규모 배치 크기와 모델을 처리할 수 있습니다. 처리량 향상을 위해 배치 크기를 늘리는 것을 고려하십시오:
from ultralytics import YOLO model = YOLO("yolo26n.engine") results = model.predict(source="path/to/images", batch=16) -
FP16 또는 INT8로 TensorRT 사용
최상의 성능을 위해 FP16 또는 INT8 정밀도로 모델을 내보내십시오:
yolo export model=yolo26n.pt format=engine half=True # FP16 yolo export model=yolo26n.pt format=engine int8=True # INT8
시스템 업데이트 (Founders Edition)
DGX Spark Founders Edition을 최신 상태로 유지하는 것은 성능과 보안 측면에서 매우 중요합니다. NVIDIA는 시스템 OS, 드라이버 및 펌웨어를 업데이트하기 위한 두 가지 주요 방법을 제공합니다.
DGX Dashboard 사용 (권장)
DGX Dashboard는 호환성을 보장하며 시스템 업데이트를 수행하는 권장 방법입니다. 이 대시보드를 통해 다음 작업을 수행할 수 있습니다:
- 사용 가능한 시스템 업데이트 보기
- 보안 패치 및 시스템 업데이트 설치
- NVIDIA 드라이버 및 펌웨어 업데이트 관리
수동 시스템 업데이트
숙련된 사용자의 경우 터미널을 통해 수동으로 업데이트를 수행할 수 있습니다:
sudo apt update
sudo apt dist-upgrade
sudo fwupdmgr refresh
sudo fwupdmgr upgrade
sudo reboot업데이트를 수행하기 전에 시스템이 안정적인 전원에 연결되어 있고 중요한 데이터를 백업했는지 확인하십시오.
다음 단계
추가 학습 및 지원은 Ultralytics YOLO26 문서를 참조하십시오.
FAQ
NVIDIA DGX Spark에 Ultralytics YOLO26을 어떻게 배포합니까?
NVIDIA DGX Spark에 Ultralytics YOLO26을 배포하는 것은 간단합니다. 빠른 설정을 위해 사전 빌드된 Docker 이미지를 사용하거나 필요한 패키지를 수동으로 설치할 수 있습니다. 각 방법에 대한 자세한 단계는 Docker를 이용한 빠른 시작 및 네이티브 설치로 시작하기 섹션에서 확인할 수 있습니다.
NVIDIA DGX Spark에서 YOLO26의 성능은 어느 정도입니까?
YOLO26 모델은 GB10 Grace Blackwell 슈퍼칩 덕분에 DGX Spark에서 뛰어난 성능을 제공합니다. TensorRT 형식은 최고의 추론 성능을 제공합니다. 다양한 모델 크기와 형식에 대한 구체적인 벤치마크 결과는 상세 비교 표 섹션을 확인하십시오.
DGX Spark에서 YOLO26을 위해 왜 TensorRT를 사용해야 합니까?
TensorRT는 최적의 성능을 제공하므로 DGX Spark에 YOLO26 모델을 배포할 때 적극 권장됩니다. 이 도구는 Blackwell GPU 기능을 활용하여 추론 속도를 가속화하고 최대의 효율성과 속도를 보장합니다. NVIDIA DGX Spark에서 TensorRT 사용 섹션에서 자세한 내용을 알아보십시오.
YOLO26 측면에서 DGX Spark와 Jetson 장치를 어떻게 비교할 수 있습니까?
DGX Spark는 최대 1 PFLOP의 AI 성능과 128GB 통합 메모리를 제공하여 Jetson AGX Thor의 2070 TFLOPS 및 128GB 메모리에 비해 훨씬 강력한 컴퓨팅 파워를 제공합니다. DGX Spark는 데스크탑 AI 슈퍼컴퓨터로 설계되었으며, Jetson 장치는 엣지 배포에 최적화된 임베디드 시스템입니다.
DGX Spark와 Jetson AGX Thor에 동일한 Docker 이미지를 사용할 수 있습니까?
네! ultralytics/ultralytics:latest-nvidia-arm64 Docker 이미지는 NVIDIA DGX Spark(DGX OS 사용)와 Jetson AGX Thor(JetPack 7.0 사용)를 모두 지원합니다. 두 장치 모두 CUDA 13과 유사한 소프트웨어 스택을 갖춘 ARM64 아키텍처를 사용하기 때문입니다.