コンテンツにスキップ

クイックスタートガイド: NVIDIA DGX SparkとUltralytics YOLO26

この包括的なガイドでは、NVIDIAのコンパクトなデスクトップAIスーパーコンピューターであるNVIDIA DGX SparkにUltralytics YOLO26をデプロイするための詳細な手順を説明します。さらに、この強力なシステム上でのYOLO26の能力を示すパフォーマンスベンチマークも紹介しています。

NVIDIA Spark AIワークステーション概要

このガイドは、UbuntuベースのDGX OSを実行するNVIDIA DGX Spark Founders Editionでテストされています。最新のDGX OSリリースでも動作すると予想されます。

NVIDIA DGX Sparkとは?

NVIDIA DGX Sparkは、NVIDIA GB10 Grace Blackwell Superchipを搭載したコンパクトなデスクトップAIスーパーコンピューターです。FP4精度で最大1 petaFLOPのAIコンピューティング性能を提供し、デスクトップフォームファクターで強力なAI機能を必要とする開発者、研究者、データサイエンティストにとって理想的です。

主な仕様

仕様詳細
AIパフォーマンス最大1 PFLOP (FP4)
GPU第5世代Tensorコア、第4世代RTコアを搭載したNVIDIA Blackwellアーキテクチャ
CPU20コアArmプロセッサ(10 Cortex-X925 + 10 Cortex-A725)
メモリ128 GB LPDDR5x ユニファイドシステムメモリ、256ビットインターフェース、4266 MHz、273 GB/s帯域幅
ストレージ自己暗号化機能付き1 TBまたは4 TB NVMe M.2
ネットワーク1x RJ-45 (10 GbE)、ConnectX-7 Smart NIC、Wi-Fi 7、Bluetooth 5.4
接続性4x USB Type-C、1x HDMI 2.1a、HDMIマルチチャンネルオーディオ
ビデオ処理1x NVENC、1x NVDEC

DGX OS

NVIDIA DGX OSは、DGXシステム上でAI、機械学習、および分析アプリケーションを実行するための、安定した、テスト済みでサポートされているオペレーティングシステム基盤を提供するカスタマイズされたLinuxディストリビューションです。以下が含まれます:

  • AIワークロード向けに最適化された堅牢なLinux基盤
  • NVIDIAハードウェア向けに事前設定されたドライバーとシステム設定
  • セキュリティアップデートとシステムメンテナンス機能
  • 広範なNVIDIAソフトウェアエコシステムとの互換性

DGX OSは定期的なリリーススケジュールに従い、通常、年に2回(2月と8月頃)アップデートが提供され、メジャーリリース間には追加のセキュリティパッチが提供されます。

DGXダッシュボード

DGX Sparkには、以下の機能を提供する組み込みのDGX Dashboardが付属しています:

  • リアルタイムシステム監視:システムの現在の運用メトリクスの概要
  • システムアップデート:ダッシュボードから直接アップデートを適用する機能
  • システム設定:デバイス名やその他の設定を変更
  • 統合JupyterLab:開発用のローカルJupyter Notebookにアクセス

NVIDIA DGX管理ダッシュボードインターフェース

ダッシュボードへのアクセス

Ubuntuデスクトップの左下隅にある「Show Apps」ボタンをクリックし、「DGX Dashboard」を選択してブラウザで開きます。

# Open an SSH tunnel
ssh -L 11000:localhost:11000 username@spark-abcd.local

# Then open in browser
# http://localhost:11000

NVIDIA Syncに接続後、「DGX Dashboard」ボタンをクリックしてダッシュボードを開きます。 http://localhost:11000.

統合JupyterLab

ダッシュボードには統合されたJupyterLabインスタンスが含まれており、起動時に仮想環境を自動的に作成し、推奨パッケージをインストールします。各ユーザーアカウントには、JupyterLabアクセス用の専用ポートが割り当てられます。

Dockerを使ったクイックスタート

NVIDIA DGX SparkでUltralytics YOLO26を始める最も速い方法は、ビルド済みのDockerイメージを使用することです。Jetson AGX Thor (JetPack 7.0)をサポートするのと同じDockerイメージが、DGX OSを搭載したDGX Sparkで動作します。

t=ultralytics/ultralytics:latest-nvidia-arm64
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia --gpus all $t

これが完了したら、NVIDIA DGX SparkでのTensorRTの使用セクションにスキップしてください。

ネイティブインストールから開始

Dockerを使用しないネイティブインストールの場合、以下の手順に従ってください。

Ultralyticsパッケージのインストール

ここでは、オプションの依存関係と共にDGX SparkにUltralyticsパッケージをインストールし、PyTorchモデルを他の異なる形式にエクスポートできるようにします。主にNVIDIA TensorRTエクスポートに焦点を当てます。これは、TensorRTを使用することでDGX Sparkから最大限のパフォーマンスを引き出すことができるためです。

  1. パッケージリストの更新、pipのインストール、および最新バージョンへのアップグレード

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. インストール ultralytics オプションの依存関係を含む pip パッケージ

    pip install ultralytics[export]
    
  3. デバイスを再起動

    sudo reboot
    

PyTorchとTorchvisionのインストール

上記のUltralyticsのインストールでは、torchとTorchvisionがインストールされます。しかし、pip経由でインストールされたこれらのパッケージは、CUDA 13を搭載したDGX SparkのARM64アーキテクチャに完全に最適化されていない可能性があります。そのため、CUDA 13互換バージョンをインストールすることをお勧めします。

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

情報

NVIDIA DGX SparkでPyTorch 2.9.1を実行する際、以下の問題に遭遇する可能性があります UserWarning CUDAを初期化する際(例:実行中 yolo checks, yolo predictなど):

UserWarning: Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.
Minimum and Maximum cuda capability supported by this version of PyTorch is (8.0) - (12.0)

この警告は無視しても問題ありません。この問題を恒久的に解決するため、PyTorch PR #164590 で修正が提出されており、PyTorch 2.10 リリースに含まれる予定です。

インストール onnxruntime-gpu

The onnxruntime-gpu PyPIでホストされているパッケージには aarch64 ARM64システム用のバイナリです。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。

ここでは、ダウンロードしてインストールします onnxruntime-gpu 1.24.0 with Python3.12 サポート。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

NVIDIA DGX SparkでTensorRTを使用する

Ultralyticsがサポートするすべてのモデルエクスポート形式の中で、TensorRTはNVIDIA DGX Spark上で最高の推論パフォーマンスを提供するため、デプロイメントにはTensorRTを強く推奨します。セットアップ手順と高度な使用法については、専用のTensorRT統合ガイドを参照してください。

モデルをTensorRTに変換して推論を実行

PyTorch形式のYOLO26nモデルは、エクスポートされたモデルで推論を実行するためにTensorRTに変換されます。

from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo26n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO26n PyTorch model to TensorRT format
yolo export model=yolo26n.pt format=engine # creates 'yolo26n.engine'

# Run inference with the exported model
yolo predict model=yolo26n.engine source='https://ultralytics.com/images/bus.jpg'

モデルを異なる形式でエクスポートする際の追加引数にアクセスするには、エクスポートページをご覧ください。

NVIDIA DGX Spark YOLO11ベンチマーク

Ultralyticsチームは、YOLO11のベンチマークを複数のモデル形式で実行し、速度と精度を測定しました。対象形式はPyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorchです。ベンチマークはNVIDIA DGX Spark上で、FP32 精度、デフォルトの入力画像サイズ640で実行されました。

詳細な比較表

以下の表は、5つの異なるモデル(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)について、複数の形式でのベンチマーク結果を示しており、各組み合わせにおけるステータス、サイズ、mAP50-95(B)メトリック、および推論時間を提供します。

パフォーマンス

形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.40.50712.67
TorchScript10.50.50832.62
ONNX10.20.50745.92
OpenVINO10.40.505814.95
TensorRT(FP32)12.80.50851.95
TensorRT(FP16)7.00.50681.01
TensorRT(INT8)18.60.48801.62
TF SavedModel25.70.507636.39
TF GraphDef10.30.507641.06
TF Lite10.30.507564.36
MNN10.10.507512.14
NCNN10.20.504112.31
ExecuTorch10.20.507527.61
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch18.40.57675.38
TorchScript36.50.57815.48
ONNX36.30.57848.17
OpenVINO36.40.580927.12
TensorRT(FP32)39.80.57833.59
TensorRT(FP16)20.10.58001.85
TensorRT(INT8)17.50.56641.88
TF SavedModel90.80.578266.63
TF GraphDef36.30.578271.67
TF Lite36.30.5782187.36
MNN36.20.577527.05
NCNN36.20.580626.26
ExecuTorch36.20.578254.73
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch38.80.625411.14
TorchScript77.30.630412.00
ONNX76.90.630413.83
OpenVINO77.10.628462.44
TensorRT(FP32)79.90.63056.96
TensorRT(FP16)40.60.63133.14
TensorRT(INT8)26.60.62043.30
TF SavedModel192.40.6306139.85
TF GraphDef76.90.6306146.76
TF Lite76.90.6306568.18
MNN76.80.630667.67
NCNN76.80.630860.49
ExecuTorch76.90.6306120.37
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch49.00.636613.95
TorchScript97.60.639915.67
ONNX97.00.639916.62
OpenVINO97.30.637778.80
TensorRT(FP32)99.20.64078.86
TensorRT(FP16)50.80.63503.85
TensorRT(INT8)32.50.62244.52
TF SavedModel242.70.6409187.45
TF GraphDef97.00.6409193.92
TF Lite97.00.6409728.61
MNN96.90.636985.21
NCNN96.90.637377.62
ExecuTorch97.00.6409153.56
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch109.30.699223.19
TorchScript218.10.690025.75
ONNX217.50.690027.43
OpenVINO217.80.6872149.44
TensorRT(FP32)222.70.690213.87
TensorRT(FP16)111.10.68836.19
TensorRT(INT8)62.90.67936.62
TF SavedModel543.90.6900335.10
TF GraphDef217.50.6900348.86
TF Lite217.50.69001578.66
MNN217.30.6874168.95
NCNN217.40.6901132.13
ExecuTorch217.40.6900297.17

Ultralytics 8.3.249でベンチマークを実施

結果の再現

上記Ultralyticsのベンチマークをすべてのエクスポート形式で再現するには、次のコードを実行します:

from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Benchmark YOLO26n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO26n speed and accuracy on the COCO128 dataset for all export formats
yolo benchmark model=yolo26n.pt data=coco128.yaml imgsz=640

なお、ベンチマーク結果は、システムの正確なハードウェアおよびソフトウェア構成、ならびにベンチマーク実行時のシステムの現在のワークロードによって異なる場合があります。最も信頼性の高い結果を得るには、多数の画像を含むデータセットを使用してください (例: )。 data='coco.yaml' (5000の検証画像)。

NVIDIA DGX Sparkのベストプラクティス

NVIDIA DGX Sparkを使用する際には、YOLO26を最大限のパフォーマンスで実行するために、いくつかのベストプラクティスに従う必要があります。

  1. システムパフォーマンスの監視

    NVIDIAの監視ツールを使用してGPUとCPUの使用率をtrackします:

    nvidia-smi
    
  2. メモリ使用量の最適化

    128GBのユニファイドメモリを搭載したDGX Sparkは、大規模なバッチサイズとモデルを処理できます。スループット向上のため、バッチサイズの増加を検討してください:

    from ultralytics import YOLO
    
    model = YOLO("yolo26n.engine")
    results = model.predict(source="path/to/images", batch=16)
    
  3. FP16またはINT8でTensorRTを使用

    最高のパフォーマンスを得るには、FP16またはINT8精度でモデルをエクスポートします:

    yolo export model=yolo26n.pt format=engine half=True # FP16
    yolo export model=yolo26n.pt format=engine int8=True # INT8
    

システムアップデート(Founders Edition)

DGX Spark Founders Editionを最新の状態に保つことは、パフォーマンスとセキュリティにとって非常に重要です。NVIDIAは、システムOS、ドライバー、およびファームウェアを更新するための2つの主要な方法を提供しています。

DGX Dashboardは、互換性を確保しながらシステムアップデートを実行するための推奨される方法です。これにより、以下のことが可能になります:

  • 利用可能なシステムアップデートの表示
  • セキュリティパッチとシステムアップデートのインストール
  • NVIDIAドライバーとファームウェアのアップデートの管理

手動システムアップデート

上級ユーザーの場合、ターミナル経由で手動でアップデートを実行できます:

sudo apt update
sudo apt dist-upgrade
sudo fwupdmgr refresh
sudo fwupdmgr upgrade
sudo reboot

警告

アップデートを実行する前に、システムが安定した電源に接続されており、重要なデータがバックアップされていることを確認してください。

次のステップ

さらなる学習とサポートについては、Ultralytics YOLO26 ドキュメントを参照してください。

よくある質問

NVIDIA DGX SparkにUltralytics YOLO26をどのようにデプロイしますか?

NVIDIA DGX SparkへのUltralytics YOLO26のデプロイは簡単です。迅速なセットアップのためにビルド済みのDockerイメージを使用するか、必要なパッケージを手動でインストールすることができます。各アプローチの詳細な手順は、Quick Start with DockerおよびStart with Native Installationのセクションで確認できます。

NVIDIA DGX Spark上でYOLO26からどのようなパフォーマンスを期待できますか?

GB10 Grace Blackwell Superchipのおかげで、YOLO26モデルはDGX Spark上で優れたパフォーマンスを発揮します。TensorRT形式は最高の推論パフォーマンスを提供します。異なるモデルサイズと形式における具体的なベンチマーク結果については、Detailed Comparison Tableセクションをご確認ください。

DGX Spark上でYOLO26にTensorRTを使用すべき理由は何ですか?

TensorRTは、その最適なパフォーマンスにより、DGX Spark上にYOLO26モデルをデプロイする上で強く推奨されます。Blackwell GPUの機能を活用して推論を高速化し、最大の効率と速度を保証します。詳細については、Use TensorRT on NVIDIA DGX Sparkセクションをご覧ください。

YOLO26に関して、DGX SparkはJetsonデバイスと比較してどうですか?

DGX Sparkは、Jetson AGX Thorの2070 TFLOPSおよび128GBメモリと比較して、最大1 PFLOPのAI性能と128GBのユニファイドメモリを備え、Jetsonデバイスよりも大幅に高い計算能力を提供します。DGX SparkはデスクトップAIスーパーコンピューターとして設計されており、Jetsonデバイスはエッジデプロイメント向けに最適化された組み込みシステムです。

DGX SparkとJetson AGX Thorで同じDockerイメージを使用できますか?

はい!その ultralytics/ultralytics:latest-nvidia-arm64 Dockerイメージは、NVIDIA DGX Spark (DGX OS搭載) と Jetson AGX Thor (JetPack 7.0搭載) の両方をサポートしています。これは、どちらもCUDA 13と類似のソフトウェアスタックを備えたARM64アーキテクチャを使用しているためです。



📅 21日前に作成✏️ 9日前に更新
glenn-jocherlakshanthadonuralpszr

コメント