クイックスタートガイド: NVIDIA DGX Spark と Ultralytics YOLO26

本包括的ガイドでは、NVIDIAのコンパクトなデスクトップAIスーパーコンピュータであるNVIDIA DGX SparkにUltralytics YOLO26をデプロイするための詳細な手順を説明します。さらに、この強力なシステム上でのYOLO26の性能を実証するためのベンチマーク結果も紹介します。

NVIDIA DGX Spark AI workstation overview

注意

本ガイドは、UbuntuベースのDGX OSを実行するNVIDIA DGX Spark Founders Editionでテスト済みです。最新のDGX OSリリースでも動作する想定です。

NVIDIA DGX Sparkとは?

NVIDIA DGX Sparkは、NVIDIA GB10 Grace Blackwell Superchipを搭載したコンパクトなデスクトップAIスーパーコンピュータです。FP4精度で最大1ペタFLOPSのAI演算性能を発揮し、デスクトップフォームファクタで強力なAI機能を必要とする開発者、研究者、データサイエンティストにとって理想的です。



Watch: How to Get up to 1000 FPS with Ultralytics YOLO26 on NVIDIA DGX Spark | TensorRT & Batch Inference

主要仕様

仕様詳細
AI性能最大1 PFLOP (FP4)
GPU第5世代Tensorコア、第4世代RTコア搭載のNVIDIA Blackwellアーキテクチャ
CPU20コアArmプロセッサ (Cortex-X925 x 10 + Cortex-A725 x 10)
メモリ128 GB LPDDR5xユニファイドシステムメモリ、256ビットインターフェース、4266 MHz、帯域幅273 GB/s
ストレージ自己暗号化機能付き1 TBまたは4 TB NVMe M.2
ネットワーク1x RJ-45 (10 GbE)、ConnectX-7 Smart NIC、Wi-Fi 7、Bluetooth 5.4
接続性4x USB Type-C、1x HDMI 2.1a、HDMIマルチチャンネルオーディオ
ビデオ処理1x NVENC、1x NVDEC

DGX OS

NVIDIA DGX OSは、DGXシステム上でAI、機械学習、解析アプリケーションを実行するための、安定したテスト済みのサポートされたOS基盤を提供するカスタマイズされたLinuxディストリビューションです。以下の内容が含まれます:

  • AIワークロード向けに最適化された堅牢なLinux基盤
  • NVIDIAハードウェア向けに事前構成されたドライバおよびシステム設定
  • セキュリティアップデートおよびシステムメンテナンス機能
  • より広範なNVIDIAソフトウェアエコシステムとの互換性

DGX OSは定期的なリリーススケジュールに従っており、アップデートは通常年2回(2月と8月頃)提供され、メジャーリリースの間には追加のセキュリティパッチが提供されます。

DGXダッシュボード

DGX Sparkには、以下を提供するDGXダッシュボードが組み込まれています:

  • リアルタイムシステムモニタリング: システムの現在の運用メトリクスの概要
  • システムアップデート: ダッシュボードから直接アップデートを適用する機能
  • システム設定: デバイス名の変更およびその他の設定
  • 統合JupyterLab: 開発用にローカルのJupyter Notebooksへアクセス可能

NVIDIA DGX management dashboard interface

ダッシュボードへのアクセス

Ubuntuデスクトップの左下隅にある「Show Apps」ボタンをクリックし、「DGX Dashboard」を選択してブラウザで開きます。

統合JupyterLab

ダッシュボードには、起動時に自動的に仮想環境を作成し、推奨パッケージをインストールする統合JupyterLabインスタンスが含まれています。各ユーザーアカウントには、JupyterLabアクセス用の専用ポートが割り当てられます。

Dockerによるクイックスタート

NVIDIA DGX SparkでUltralytics YOLO26を使い始める最も早い方法は、構築済みのDockerイメージを実行することです。Jetson AGX Thor (JetPack 7.0)をサポートする同じDockerイメージが、DGX OSを搭載したDGX Sparkでも動作します。

t=ultralytics/ultralytics:latest-nvidia-arm64
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia --gpus all $t

これが完了したら、Use TensorRT on NVIDIA DGX Sparkのセクションへ進んでください。

ネイティブインストールから開始

Dockerを使用しないネイティブインストールの場合は、以下の手順に従ってください。

Ultralyticsパッケージのインストール

ここでは、PyTorchモデルを他の異なるフォーマットにエクスポートできるように、オプションの依存関係を含めてDGX SparkにUltralyticsパッケージをインストールします。TensorRTはDGX Sparkの性能を最大限に引き出すため、主にNVIDIA TensorRTエクスポートに焦点を当てます。

  1. パッケージリストを更新し、pipをインストールして最新版にアップグレードします

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. オプションの依存関係を含むultralytics pipパッケージをインストールします

    pip install ultralytics[export]
  3. デバイスを再起動します

    sudo reboot

PyTorchとTorchvisionのインストール

上記のultralyticsのインストールによりTorchとTorchvisionがインストールされます。ただし、pip経由でインストールされたこれらのパッケージは、CUDA 13を搭載したDGX SparkのARM64アーキテクチャに対して完全に最適化されていない場合があります。そのため、CUDA 13互換バージョンをインストールすることを推奨します:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130
情報

When running PyTorch 2.9.1 on NVIDIA DGX Spark, you may encounter the following UserWarning when initializing CUDA (e.g. running yolo checks, yolo predict, etc.):

UserWarning: Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.
Minimum and Maximum cuda capability supported by this version of PyTorch is (8.0) - (12.0)

この警告は無視しても安全です。永続的に解決するには、PyTorch PR #164590で修正が提出されており、これはPyTorch 2.10リリースに含まれる予定です。

onnxruntime-gpuのインストール

PyPIでホストされているonnxruntime-gpuパッケージには、ARM64システム用のaarch64バイナリがありません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。

Here we will download and install onnxruntime-gpu 1.24.0 with Python3.12 support.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

NVIDIA DGX SparkでのTensorRTの使用

Ultralyticsがサポートするすべてのモデルエクスポートフォーマットの中で、TensorRTはNVIDIA DGX Spark上で最高の推論パフォーマンスを提供するため、デプロイに推奨するトップのフォーマットです。セットアップ手順および詳細な使用方法については、専用のTensorRT統合ガイドを参照してください。

モデルのTensorRTへの変換と推論の実行

PyTorchフォーマットのYOLO26nモデルをTensorRTに変換し、エクスポートしたモデルで推論を実行します。

from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo26n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
注意

モデルを異なるフォーマットへエクスポートする際の追加引数については、Exportページにアクセスしてください。

NVIDIA DGX SparkでのYOLO11ベンチマーク

YOLO11のベンチマークは、Ultralyticsチームによって複数のモデルフォーマット(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch)の速度と精度を測定して実行されました。ベンチマークは、デフォルトの入力画像サイズ640でFP32の精度を用いてNVIDIA DGX Spark上で実行されました。

詳細な比較表

以下の表は、5つの異なるモデル(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)を複数のフォーマットで実行したベンチマーク結果であり、それぞれの組み合わせに対するステータス、サイズ、mAP50-95(B)メトリクス、および推論時間を示しています。

性能
形式ステータスディスク上のサイズ (MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.40.50712.67
TorchScript10.50.50832.62
ONNX10.20.50745.92
OpenVINO10.40.505814.95
TensorRT (FP32)12.80.50851.95
TensorRT (FP16)7.00.50681.01
TensorRT (INT8)18.60.48801.62
TF SavedModel25.70.507636.39
TF GraphDef10.30.507641.06
TF Lite10.30.507564.36
MNN10.10.507512.14
NCNN10.20.504112.31
ExecuTorch10.20.507527.61

Ultralytics 8.3.249でベンチマークを実施

結果の再現

上記のUltralyticsベンチマークをすべてのエクスポート形式で再現するには、以下のコードを実行してください:

from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Benchmark YOLO26n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)

ベンチマーク結果は、システムの正確なハードウェアおよびソフトウェア構成、ならびにベンチマーク実行時のシステムの現在の負荷によって異なる場合があることに注意してください。最も信頼性の高い結果を得るには、data='coco.yaml'(5000枚の検証用画像)のように、画像数の多いデータセットを使用してください。

NVIDIA DGX Sparkのベストプラクティス

NVIDIA DGX Sparkを使用する際、YOLO26を最高性能で実行するために従うべきベストプラクティスがいくつかあります。

  1. システムパフォーマンスの監視

    NVIDIAの監視ツールを使用して、GPUおよびCPUの使用率を追跡してください:

    nvidia-smi
  2. メモリ使用量の最適化

    128GBのユニファイドメモリを備えたDGX Sparkは、大規模なバッチサイズとモデルを処理できます。スループットを向上させるために、バッチサイズの拡大を検討してください:

    from ultralytics import YOLO
    
    model = YOLO("yolo26n.engine")
    results = model.predict(source="path/to/images", batch=16)
  3. FP16またはINT8でTensorRTを使用する

    最高のパフォーマンスを得るには、FP16またはINT8の精度でモデルをエクスポートしてください:

    yolo export model=yolo26n.pt format=engine half=True # FP16
    yolo export model=yolo26n.pt format=engine int8=True # INT8

システムアップデート (Founders Edition)

DGX Spark Founders Editionを最新の状態に保つことは、パフォーマンスとセキュリティのために重要です。NVIDIAは、システムOS、ドライバー、およびファームウェアを更新するための2つの主要な方法を提供しています。

DGX Dashboardの使用 (推奨)

DGX Dashboardは、互換性を確保しながらシステムアップデートを実行するための推奨される方法です。これを使用すると、以下のことが可能です:

  • 利用可能なシステムアップデートの確認
  • セキュリティパッチおよびシステムアップデートのインストール
  • NVIDIAドライバーおよびファームウェアのアップデート管理

手動によるシステムアップデート

上級ユーザー向けに、ターミナル経由で手動でアップデートを実行することも可能です:

sudo apt update
sudo apt dist-upgrade
sudo fwupdmgr refresh
sudo fwupdmgr upgrade
sudo reboot
警告

アップデートを実行する前に、システムが安定した電源に接続されていること、および重要なデータをバックアップしていることを確認してください。

次のステップ

詳細な学習とサポートについては、Ultralytics YOLO26 Docsを参照してください。

FAQ

Ultralytics YOLO26をNVIDIA DGX Sparkにデプロイするにはどうすればよいですか?

Ultralytics YOLO26をNVIDIA DGX Sparkにデプロイするのは簡単です。事前構築済みのDockerイメージを使用してすぐにセットアップするか、必要なパッケージを手動でインストールすることができます。各アプローチの詳細な手順については、Quick Start with DockerおよびStart with Native Installationのセクションを参照してください。

NVIDIA DGX SparkでYOLO26からどのようなパフォーマンスが期待できますか?

YOLO26モデルは、GB10 Grace Blackwell Superchipのおかげで、DGX Spark上で優れたパフォーマンスを発揮します。TensorRT形式は最高の推論パフォーマンスを提供します。さまざまなモデルサイズと形式にわたる具体的なベンチマーク結果については、Detailed Comparison Tableセクションを確認してください。

DGX SparkでYOLO26にTensorRTを使用するべき理由は何ですか?

TensorRTは、その最適なパフォーマンスから、DGX Spark上でYOLO26モデルをデプロイするために強く推奨されます。これはBlackwell GPUの機能を活用して推論を高速化し、最大限の効率と速度を保証します。Use TensorRT on NVIDIA DGX Sparkセクションで詳細を学んでください。

YOLO26において、DGX SparkとJetsonデバイスはどのように比較されますか?

DGX Sparkは、最大1 PFLOPのAI性能と128GBのユニファイドメモリを備えており、Jetson AGX Thorの2070 TFLOPSおよび128GBメモリと比較して、Jetsonデバイスよりも大幅に高いコンピューティングパワーを提供します。DGX SparkはデスクトップAIスーパーコンピュータとして設計されており、一方Jetsonデバイスはエッジデプロイメント向けに最適化された組み込みシステムです。

DGX SparkとJetson AGX Thorで同じDockerイメージを使用できますか?

はい! ultralytics/ultralytics:latest-nvidia-arm64 Dockerイメージは、NVIDIA DGX Spark (DGX OS搭載) とJetson AGX Thor (JetPack 7.0搭載) の両方をサポートしています。どちらもCUDA 13と類似のソフトウェアスタックを備えたARM64アーキテクチャを使用しているためです。

コメント