콘텐츠로 건너뛰기

빠른 시작 가이드: NVIDIA Spark with Ultralytics YOLO11

이 포괄적인 가이드는 NVIDIA 소형 데스크톱 AI 슈퍼컴퓨터인 NVIDIA Spark에 Ultralytics YOLO11 배포하는 상세한 절차를 제공합니다. 또한 이 강력한 YOLO11 성능을 입증하기 위한 벤치마크 결과를 제시합니다.

NVIDIA Spark

참고

본 가이드는 Ubuntu 기반 DGX OS를 실행하는 NVIDIA Spark Founders Edition에서 테스트되었습니다. 최신 DGX OS 릴리스에서도 작동할 것으로 예상됩니다.

NVIDIA Spark란 무엇인가요?

NVIDIA Spark는 NVIDIA Grace Blackwell 슈퍼칩으로 구동되는 컴팩트한 데스크탑 AI 슈퍼컴퓨터입니다. FP4 정밀도로 최대 1 페타플롭의 AI 컴퓨팅 성능을 제공하여, 데스크탑 폼 팩터에서 강력한 AI 성능이 필요한 개발자, 연구원 및 데이터 과학자에게 이상적입니다.

주요 사양

사양상세 정보
AI 성능최대 1 PFLOP (FP4)
GPUNVIDIA 아키텍처, 5세대 Tensor 및 4세대 RT 코어 탑재
CPU20코어 Arm 프로세서 (10개의 Cortex-X925 + 10개의 Cortex-A725)
메모리128GB LPDDR5x 통합 시스템 메모리, 256비트 인터페이스, 4266MHz, 273GB/s 대역폭
저장자체 암호화 기능이 있는 1TB 또는 4TB NVMe M.2
네트워크1x RJ-45 (10GbE), ConnectX-7 스마트 NIC, Wi-Fi 7, Bluetooth 5.4
연결성USB Type-C 포트 4개, HDMI 2.1a 포트 1개, HDMI 멀티채널 오디오
영상 처리1x NVENC, 1x NVDEC

DGX OS

NVIDIA OS는 DGX 시스템에서 AI, 머신 러닝 및 분석 애플리케이션을 실행하기 위한 안정적이고 검증되며 지원되는 운영 체제 기반을 제공하는 맞춤형 Linux 배포판입니다. 다음을 포함합니다:

  • 인공지능 워크로드에 최적화된 강력한 리눅스 기반
  • NVIDIA 사전 구성된 드라이버 및 시스템 설정
  • 보안 업데이트 및 시스템 유지보수 기능
  • NVIDIA 생태계 전반과의 호환성

DGX OS는 정기적인 릴리스 일정을 따르며, 일반적으로 연 2회(2월과 8월경) 업데이트를 제공합니다. 주요 릴리스 사이에는 추가 보안 패치가 제공됩니다.

DGX 대시보드

DGX Spark에는 내장된 DGX 대시보드가 제공되며, 다음과 같은 기능을 제공합니다:

  • 실시간 시스템 모니터링: 시스템의 현재 운영 지표 개요
  • 시스템 업데이트: 대시보드에서 직접 업데이트 적용 가능
  • 시스템 설정: 기기 이름 및 기타 구성 변경
  • 통합 JupyterLab: 개발을 위한 로컬 Jupyter Notebook 접근

NVIDIA 대시보드

대시보드에 접근하기

우분투 데스크톱 좌측 하단의 "앱 표시" 버튼을 클릭한 후, "DGX 대시보드"를 선택하여 브라우저에서 열 수 있습니다.

# Open an SSH tunnel
ssh -L 11000:localhost:11000 <username>@<IP or spark-abcd.local>

# Then open in browser
# http://localhost:11000

NVIDIA 연결한 후, "DGX 대시보드" 버튼을 클릭하여 대시보드를 엽니다. http://localhost:11000.

통합 JupyterLab

대시보드에는 통합된 JupyterLab 인스턴스가 포함되어 있으며, 시작 시 자동으로 가상 환경을 생성하고 권장 패키지를 설치합니다. 각 사용자 계정에는 JupyterLab 접근을 위한 전용 포트가 할당됩니다.

Docker로 빠른 시작

NVIDIA YOLO11 Ultralytics YOLO11 시작하는 가장 빠른 방법은 사전 구축된 도커 이미지를 실행하는 것입니다. Jetson AGX Thor(JetPack 7.0)를 지원하는 동일한 도커 이미지가 DGX OS가 설치된 DGX Spark에서도 작동합니다.

t=ultralytics/ultralytics:latest-nvidia-arm64
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia --gpus all $t

이 작업이 완료된 후에는 NVIDIA TensorRT 사용 섹션으로 건너뛰십시오.

네이티브 설치로 시작하기

Docker 없이 직접 설치하려면 다음 단계를 따르십시오.

Ultralytics 패키지 설치

여기서 우리는 DGX Spark에 Ultralytics 선택적 종속성과 함께 설치하여 PyTorch 모델을 다른 다양한 형식으로 내보낼 수 있도록 합니다. 특히 NVIDIA TensorRT 중점을 둘 예정인데, TensorRT DGX Spark에서 최대한의 성능을 확보할 수 TensorRT .

  1. 패키지 목록을 업데이트하고, pip를 설치하고, 최신 버전으로 업그레이드합니다.

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. 설치 ultralytics 선택적 종속성이 있는 pip 패키지

    pip install ultralytics[export]
    
  3. 장치를 재부팅합니다.

    sudo reboot
    

PyTorch 및 Torchvision 설치

위의 ultralytics Torch Torchvision을 설치합니다. 그러나 pip를 통해 설치된 이러한 패키지는 CUDA 사용하는 DGX Spark의 ARM64 아키텍처에 완전히 최적화되지 않을 수 있습니다. 따라서 CUDA 호환 버전을 설치할 것을 권장합니다:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

정보

NVIDIA Spark에서 PyTorch .9.1을 실행할 때 다음과 같은 문제가 발생할 수 있습니다. UserWarning CUDA 초기화 시 CUDA 예: 실행) yolo checks, yolo predict등):

UserWarning: Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.
Minimum and Maximum cuda capability supported by this version of PyTorch is (8.0) - (12.0)

이 경고는 안전하게 무시해도 됩니다. 이 문제를 영구적으로 해결하기 위해 PyTorch PR #164590에 수정 사항이 제출되었으며, 이는 PyTorch .10 릴리스에 포함될 예정입니다.

설치 onnxruntime-gpu

에 지정되어 있습니다. onnxruntime-gpu PyPI 호스팅되는 패키지에는 aarch64 ARM64 시스템용 바이너리입니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기에 필요합니다.

여기에서 다운로드하여 설치합니다. onnxruntime-gpu 1.24.0 와 함께 Python3.12 지원합니다.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

NVIDIA Spark TensorRT 사용

Ultralytics 지원하는 모든 모델 내보내기 형식 중 TensorRT NVIDIA Spark에서 가장 높은 추론 성능을 TensorRT 배포 시 최우선으로 권장합니다. 설정 방법 및 고급 사용법은 전용 TensorRT 가이드를 참조하십시오.

모델을 TensorRT로 변환하고 추론 실행

PyTorch 형식의 YOLO11n 모델이 TensorRT로 변환되어 내보낸 모델로 추론을 실행합니다.

예시

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

참고

모델을 다른 모델 형식으로 내보낼 때 추가 인수에 액세스하려면 내보내기 페이지를 방문하십시오.

NVIDIA Spark YOLO11

Ultralytics 다양한 모델 형식( PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF , MNN, NCNN, ExecuTorch)에서 속도와 정확도를 측정하는 YOLO11 실행했습니다. 벤치마크는 NVIDIA Spark에서 FP32 정밀도로, 기본 입력 이미지 크기 640으로 실행되었습니다.

자세한 비교 표

아래 표는 다섯 가지 모델(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)에 대한 벤치마크 결과를 다양한 형식으로 제시하며, 각 조합별 상태, 크기, mAP50(B) 지표 및 추론 시간을 보여줍니다.

성능

형식상태디스크 크기(MB)mAP50(B)추론 시간 (ms/im)
PyTorch5.40.50712.67
TorchScript10.50.50832.62
ONNX10.20.50745.92
OpenVINO10.40.505814.95
TensorRT (FP32)12.80.50851.95
TensorRT (FP16)7.00.50681.01
TensorRT (INT8)18.60.48801.62
TF SavedModel25.70.507636.39
TF GraphDef10.30.507641.06
TF Lite10.30.507564.36
MNN10.10.507512.14
NCNN10.20.504112.31
ExecuTorch10.20.507527.61
형식상태디스크 크기(MB)mAP50(B)추론 시간 (ms/im)
PyTorch18.40.57675.38
TorchScript36.50.57815.48
ONNX36.30.57848.17
OpenVINO36.40.580927.12
TensorRT (FP32)39.80.57833.59
TensorRT (FP16)20.10.58001.85
TensorRT (INT8)17.50.56641.88
TF SavedModel90.80.578266.63
TF GraphDef36.30.578271.67
TF Lite36.30.5782187.36
MNN36.20.577527.05
NCNN36.20.580626.26
ExecuTorch36.20.578254.73
형식상태디스크 크기(MB)mAP50(B)추론 시간 (ms/im)
PyTorch38.80.625411.14
TorchScript77.30.630412.00
ONNX76.90.630413.83
OpenVINO77.10.628462.44
TensorRT (FP32)79.90.63056.96
TensorRT (FP16)40.60.63133.14
TensorRT (INT8)26.60.62043.30
TF SavedModel192.40.6306139.85
TF GraphDef76.90.6306146.76
TF Lite76.90.6306568.18
MNN76.80.630667.67
NCNN76.80.630860.49
ExecuTorch76.90.6306120.37
형식상태디스크 크기(MB)mAP50(B)추론 시간 (ms/im)
PyTorch49.00.636613.95
TorchScript97.60.639915.67
ONNX97.00.639916.62
OpenVINO97.30.637778.80
TensorRT (FP32)99.20.64078.86
TensorRT (FP16)50.80.63503.85
TensorRT (INT8)32.50.62244.52
TF SavedModel242.70.6409187.45
TF GraphDef97.00.6409193.92
TF Lite97.00.6409728.61
MNN96.90.636985.21
NCNN96.90.637377.62
ExecuTorch97.00.6409153.56
형식상태디스크 크기(MB)mAP50(B)추론 시간 (ms/im)
PyTorch109.30.699223.19
TorchScript218.10.690025.75
ONNX217.50.690027.43
OpenVINO217.80.6872149.44
TensorRT (FP32)222.70.690213.87
TensorRT (FP16)111.10.68836.19
TensorRT (INT8)62.90.67936.62
TF SavedModel543.90.6900335.10
TF GraphDef217.50.6900348.86
TF Lite217.50.69001578.66
MNN217.30.6874168.95
NCNN217.40.6901132.13
ExecuTorch217.40.6900297.17

Ultralytics .3.249 버전으로 벤치마크 수행

결과 재현하기

모든 내보내기 형식에서 위의 Ultralytics 벤치마크를 재현하려면 다음 코드를 실행하십시오.

예시

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640

벤치마크 결과는 시스템의 정확한 하드웨어 및 소프트웨어 구성과 벤치마크 실행 시점의 시스템 현재 작업 부하에 따라 달라질 수 있습니다. 가장 신뢰할 수 있는 결과를 얻으려면 대량의 이미지를 포함한 데이터셋을 사용하십시오. 예를 들어, data='coco.yaml' (5000개의 검증 이미지).

NVIDIA Spark 모범 사례

NVIDIA Spark를 사용할 때 YOLO11 실행 시 최대 성능을 발휘하기 위해 따라야 할 몇 가지 권장 사항이 있습니다.

  1. 시스템 성능 모니터링

    NVIDIA 모니터링 도구를 사용하여GPU CPU track :

    nvidia-smi
    
  2. 메모리 사용량 최적화

    128GB의 통합 메모리를 탑재한 DGX Spark는 대규모 배치 작업과 모델을 처리할 수 있습니다. 처리량 향상을 위해 배치 크기 증대를 고려하십시오:

    from ultralytics import YOLO
    
    model = YOLO("yolo11n.engine")
    results = model.predict(source="path/to/images", batch=16)
    
  3. FP16 또는 INT8 TensorRT 사용

    최상의 성능을 위해 FP16 또는 INT8 정밀도로 모델을 내보내십시오:

    yolo export model=yolo11n.pt format=engine half=True # FP16
    yolo export model=yolo11n.pt format=engine int8=True # INT8
    

시스템 업데이트 (파운더스 에디션)

DGX Spark Founders Edition을 최신 상태로 유지하는 것은 성능과 보안을 위해 매우 중요합니다. NVIDIA 시스템 OS, 드라이버 및 펌웨어를 업데이트하기 위한 두 가지 주요 방법을 NVIDIA .

DGX 대시보드는 호환성을 보장하는 시스템 업데이트를 수행하는 권장 방법입니다. 이를 통해 다음을 수행할 수 있습니다:

  • 사용 가능한 시스템 업데이트 보기
  • 보안 패치 및 시스템 업데이트를 설치하십시오
  • NVIDIA 및 펌웨어 업데이트 관리

수동 시스템 업데이트

고급 사용자의 경우 터미널을 통해 수동으로 업데이트를 수행할 수 있습니다:

sudo apt update
sudo apt dist-upgrade
sudo fwupdmgr refresh
sudo fwupdmgr upgrade
sudo reboot

경고

업데이트를 수행하기 전에 시스템이 안정적인 전원에 연결되어 있는지 확인하고 중요한 데이터를 백업하십시오.

다음 단계

추가 학습 및 지원은 Ultralytics YOLO11 참조하십시오.

FAQ

NVIDIA SparkYOLO11 Ultralytics YOLO11 어떻게 배포하나요?

NVIDIA YOLO11 Ultralytics YOLO11 배포하는 것은 간단합니다. 빠른 설정을 위해 사전 구축된 Docker 이미지를 사용하거나 필요한 패키지를 수동으로 설치할 수 있습니다. 각 방법에 대한 자세한 단계는 'Docker를 사용한 빠른 시작''네이티브 설치로 시작하기' 섹션에서 확인할 수 있습니다.

NVIDIA YOLO11 성능은 어느 정도 기대할 수 있나요?

GB10 Grace Blackwell 슈퍼칩 덕분에 YOLO11 DGX Spark에서 탁월한 성능을 발휘합니다. TensorRT 최고의 추론 성능을 제공합니다. 다양한 모델 크기와 형식에 걸친 구체적인 벤치마크 결과는 상세 비교표 섹션을 참조하십시오.

왜 DGX Spark YOLO11 TensorRT 사용해야 하나요?

TensorRT 최적의 성능으로 인해 DGX Spark에 YOLO11 배포하는 데 적극 TensorRT . Blackwell GPU 활용하여 추론을 가속화함으로써 최대 효율성과 속도를 보장합니다. 자세한 내용은 NVIDIA TensorRT 사용 섹션에서 확인하세요.

YOLO11 대해 DGX Spark와 Jetson 디바이스는 어떻게 비교되나요?

DGX Spark는 최대 1PFLOPS의 AI 성능과 128GB 통합 메모리를 제공하여 Jetson AGX Thor의 2070 TFLOPS 및 128GB 메모리에 비해 훨씬 더 높은 컴퓨팅 성능을 제공합니다. DGX Spark는 데스크톱 AI 슈퍼컴퓨터로 설계된 반면, Jetson 디바이스는 에지 배포에 최적화된 임베디드 시스템입니다.

DGX Spark와 Jetson AGX Thor에 동일한 Docker 이미지를 사용할 수 있나요?

네! ultralytics/ultralytics:latest-nvidia-arm64 Docker 이미지는 NVIDIA Spark(DGX OS 포함)와 Jetson AGX Thor(JetPack 7.0 포함) 모두를 지원합니다. 두 시스템 모두 ARM64 아키텍처를 사용하며 CUDA 및 유사한 소프트웨어 스택을 탑재하고 있기 때문입니다.



📅 생성 0 일 전 ✏️ 업데이트 0일 전
onuralpszr

댓글