コンテンツにスキップ

クイックスタートガイド:NVIDIA Spark withUltralytics YOLO11

この包括的なガイドでは、NVIDIAデスクトップAIスーパーコンピュータNVIDIA NVIDIA SparkへのUltralYOLO11 デプロイに関する詳細な手順を解説します。さらに、この高性能YOLO11 能力を示すパフォーマンスベンチマーク結果も紹介しています。

NVIDIA Spark

このガイドは、UbuntuベースのDGX OSを実行するNVIDIA Spark Founders Editionでテスト済みです。最新のDGX OSリリースでも動作することが期待されます。

NVIDIA Sparkとは何ですか?

NVIDIA Sparkは、NVIDIA Grace Blackwell Superchipを搭載したコンパクトなデスクトップAIスーパーコンピュータです。FP4精度で最大1ペタFLOPSのAI演算性能を発揮し、デスクトップフォームファクターで強力なAI機能を求める開発者、研究者、データサイエンティストに最適です。

主要仕様

仕様詳細
AIパフォーマンス最大1 PFLOP (FP4)
GPUNVIDIA (第5世代TensorTensor 、第4世代RTコア搭載)
CPU20コアのArmプロセッサ(10個のCortex-X925 + 10個のCortex-A725)
メモリ128 GB LPDDR5x 統合システムメモリ、256ビットインターフェース、4266 MHz、273 GB/s 帯域幅
ストレージ1TBまたは4TB NVMe M.2(自己暗号化機能付き)
ネットワーク1x RJ-45 (10 GbE)、ConnectX-7 Smart NIC、Wi-Fi 7、Bluetooth 5.4
接続性USB Type-C ×4、HDMI 2.1a ×1、HDMIマルチチャンネルオーディオ
動画処理1x NVENC、1x NVDEC

DGX OS

NVIDIA OSは、DGXシステム上でAI、機械学習、分析アプリケーションを実行するための安定した、テスト済みでサポート対象のオペレーティングシステム基盤を提供するカスタマイズされたLinuxディストリビューションです。以下を含みます:

  • AIワークロード向けに最適化された堅牢なLinux基盤
  • NVIDIA 事前設定済みドライバーおよびシステム設定
  • セキュリティ更新プログラムとシステム保守機能
  • NVIDIA 広範なNVIDIA エコシステムとの互換性

DGX OSは定期的なリリーススケジュールに従い、通常は年2回(2月と8月頃)に更新が提供されます。主要リリース間には追加のセキュリティパッチが提供されます。

DGXダッシュボード

DGX Sparkには組み込みのDGXダッシュボードが付属し、以下を提供します:

  • リアルタイムシステム監視:システムの現在の運用指標の概要
  • システム更新:ダッシュボードから直接更新を適用する機能
  • システム設定:デバイス名やその他の設定を変更する
  • 統合JupyterLab:開発用にローカルのJupyter Notebookにアクセス

NVIDIA ダッシュボード

ダッシュボードへのアクセス

Ubuntuデスクトップの左下隅にある「アプリを表示」ボタンをクリックし、「DGX Dashboard」を選択してブラウザで開きます。

# Open an SSH tunnel
ssh -L 11000:localhost:11000 <username>@<IP or spark-abcd.local>

# Then open in browser
# http://localhost:11000

NVIDIA 接続後、「DGXダッシュボード」ボタンをクリックしてダッシュボードを開きます。 http://localhost:11000.

統合JupyterLab

ダッシュボードには統合されたJupyterLabインスタンスが含まれており、起動時に自動的に仮想環境を作成し、推奨パッケージをインストールします。各ユーザーアカウントには、JupyterLabアクセス用の専用ポートが割り当てられます。

Dockerを使ったクイックスタート

NVIDIA YOLO11 迅速に開始する方法は、事前構築済みのDockerイメージを実行することです。Jetson AGX Thor(JetPack 7.0)をサポートする同一のDockerイメージが、DGX OSを搭載したDGX Sparkでも動作します。

t=ultralytics/ultralytics:latest-nvidia-arm64
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia --gpus all $t

この作業が完了したら、「 NVIDIA SparkTensorRT を使用する」セクションに進んでください。

ネイティブインストールから開始

Dockerを使用しないネイティブインストールの場合、以下の手順に従ってください。

Ultralyticsパッケージのインストール

ここでは、DGX SparkにUltralytics オプションの依存関係と共にインストールし、エクスポートできるようにします。 PyTorch モデルを他の異なる形式にエクスポートできるようにします。NVIDIA TensorRT に焦点を当てます。TensorRT DGX Sparkから最大限のパフォーマンスを引き出すことを保証TensorRT 。

  1. パッケージリストの更新、pipのインストール、および最新バージョンへのアップグレード

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. インストール ultralytics オプションの依存関係を含む pip パッケージ

    pip install ultralytics[export]
    
  3. デバイスを再起動

    sudo reboot
    

PyTorchとTorchvisionのインストール

ultralytics Torch インストールされます。ただし、pip経由でインストールされたこれらのパッケージは、CUDA を搭載したDGX SparkのARM64アーキテクチャ向けに完全に最適化されていない可能性があります。そのため、CUDA 互換バージョンをインストールすることを推奨します:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

情報

NVIDIA PyTorch .9.1を実行する際、以下の問題が発生する可能性があります UserWarning CUDA 初期化時CUDA 例:実行時CUDA yolo checks, yolo predictなど:

UserWarning: Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.
Minimum and Maximum cuda capability supported by this version of PyTorch is (8.0) - (12.0)

この警告は安全に無視できます。恒久的な解決策として、PyTorch #164590に修正が提出されており、PyTorch .10 リリースに含まれる予定です。

インストール onnxruntime-gpu

The onnxruntime-gpu PyPI ホストされているパッケージには aarch64 ARM64システム用のバイナリ。そのため、このパッケージを手動でインストールする必要があります。このパッケージは、一部のエクスポートに必要なものです。

ここでは onnxruntime-gpu 1.24.0 with Python3.12 サポート。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

NVIDIA SparkTensorRT を使用する

Ultralyticsサポートするすべてのモデル出力形式の中で、NVIDIA Spark上で最高の推論性能TensorRT 、デプロイメントにおける最優先推奨ソリューションです。設定手順および高度な使用方法については、 TensorRT をご参照ください。

モデルをTensorRTに変換して推論を実行

PyTorch形式のYOLO11nモデルは、エクスポートされたモデルで推論を実行するためにTensorRTに変換されます。

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

モデルを異なる形式でエクスポートする際の追加引数にアクセスするには、エクスポートページをご覧ください。

NVIDIA SparkYOLO11

Ultralytics は、複数のモデル形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF 、MNN、NCNN、ExecuTorch)で速度と精度を測定するYOLO11 を実行しました。ベンチマークNVIDIA Spark上でFP32精度、デフォルト入力画像サイズ640で実行されました。

詳細な比較表

以下の表は、5つの異なるモデル(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)における複数フォーマットのベンチマーク結果を示しており、各組み合わせの状態、サイズ、mAP50(B)指標、推論時間を確認できます。

パフォーマンス

形式ステータスディスク上のサイズ(MB)mAP50(B)推論時間 (ms/im)
PyTorch5.40.50712.67
TorchScript10.50.50832.62
ONNX10.20.50745.92
OpenVINO10.40.505814.95
TensorRT(FP32)12.80.50851.95
TensorRT(FP16)7.00.50681.01
TensorRT(INT8)18.60.48801.62
TF SavedModel25.70.507636.39
TF GraphDef10.30.507641.06
TF Lite10.30.507564.36
MNN10.10.507512.14
NCNN10.20.504112.31
エクゼキュートーチ10.20.507527.61
形式ステータスディスク上のサイズ(MB)mAP50(B)推論時間 (ms/im)
PyTorch18.40.57675.38
TorchScript36.50.57815.48
ONNX36.30.57848.17
OpenVINO36.40.580927.12
TensorRT(FP32)39.80.57833.59
TensorRT(FP16)20.10.58001.85
TensorRT(INT8)17.50.56641.88
TF SavedModel90.80.578266.63
TF GraphDef36.30.578271.67
TF Lite36.30.5782187.36
MNN36.20.577527.05
NCNN36.20.580626.26
エクゼキュートーチ36.20.578254.73
形式ステータスディスク上のサイズ(MB)mAP50(B)推論時間 (ms/im)
PyTorch38.80.625411.14
TorchScript77.30.630412.00
ONNX76.90.630413.83
OpenVINO77.10.628462.44
TensorRT(FP32)79.90.63056.96
TensorRT(FP16)40.60.63133.14
TensorRT(INT8)26.60.62043.30
TF SavedModel192.40.6306139.85
TF GraphDef76.90.6306146.76
TF Lite76.90.6306568.18
MNN76.80.630667.67
NCNN76.80.630860.49
エクゼキュートーチ76.90.6306120.37
形式ステータスディスク上のサイズ(MB)mAP50(B)推論時間 (ms/im)
PyTorch49.00.636613.95
TorchScript97.60.639915.67
ONNX97.00.639916.62
OpenVINO97.30.637778.80
TensorRT(FP32)99.20.64078.86
TensorRT(FP16)50.80.63503.85
TensorRT(INT8)32.50.62244.52
TF SavedModel242.70.6409187.45
TF GraphDef97.00.6409193.92
TF Lite97.00.6409728.61
MNN96.90.636985.21
NCNN96.90.637377.62
エクゼキュートーチ97.00.6409153.56
形式ステータスディスク上のサイズ(MB)mAP50(B)推論時間 (ms/im)
PyTorch109.30.699223.19
TorchScript218.10.690025.75
ONNX217.50.690027.43
OpenVINO217.80.6872149.44
TensorRT(FP32)222.70.690213.87
TensorRT(FP16)111.10.68836.19
TensorRT(INT8)62.90.67936.62
TF SavedModel543.90.6900335.10
TF GraphDef217.50.6900348.86
TF Lite217.50.69001578.66
MNN217.30.6874168.95
NCNN217.40.6901132.13
エクゼキュートーチ217.40.6900297.17

Ultralytics .3.249 を用いてベンチマークを実施

結果の再現

上記Ultralyticsのベンチマークをすべてのエクスポート形式で再現するには、次のコードを実行します:

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640

ベンチマーク結果は、システムの具体的なハードウェアおよびソフトウェア構成、ならびにベンチマーク実行時のシステム負荷によって異なる可能性があることに留意してください。最も信頼性の高い結果を得るには、大量の画像を含むデータセットを使用してください。例: data='coco.yaml' (5000の検証画像)。

NVIDIA Spark のベストプラクティス

NVIDIA Sparkを使用する際、YOLO11最高のパフォーマンスを発揮させるために従うべきベストプラクティスがいくつかあります。

  1. システムパフォーマンスの監視

    NVIDIA監視ツールを使用して、CPU track :

    nvidia-smi
    
  2. メモリ使用量の最適化

    128GBの統合メモリを搭載したDGX Sparkは、大規模なバッチサイズとモデルを処理できます。スループット向上のためにバッチサイズの拡大をご検討ください:

    from ultralytics import YOLO
    
    model = YOLO("yolo11n.engine")
    results = model.predict(source="path/to/images", batch=16)
    
  3. TensorRT 使用する

    最高のパフォーマンスを得るには、FP16またはINT8精度でモデルをエクスポートしてください:

    yolo export model=yolo11n.pt format=engine half=True # FP16
    yolo export model=yolo11n.pt format=engine int8=True # INT8
    

システム更新 (ファウンダーズエディション)

DGX Spark Founders Editionを最新の状態に保つことは、パフォーマンスとセキュリティの観点から極めて重要です。NVIDIA 、システムOS、ドライバー、ファームウェアを更新するための主に2つのNVIDIA 。

DGXダッシュボードは、互換性を確保したシステム更新を実行するための推奨方法です。これにより以下のことが可能になります:

  • 利用可能なシステム更新を表示する
  • セキュリティパッチとシステム更新プログラムをインストールする
  • NVIDIA およびファームウェアの更新を管理する

手動システム更新

上級ユーザー向けには、ターミナル経由で手動で更新を実行できます:

sudo apt update
sudo apt dist-upgrade
sudo fwupdmgr refresh
sudo fwupdmgr upgrade
sudo reboot

警告

更新を実行する前に、システムが安定した電源に接続されていることを確認し、重要なデータのバックアップを取ってください。

次のステップ

詳細な学習とサポートについては、Ultralytics YOLO11 を参照してください。

よくある質問

NVIDIA SparkYOLO11 Ultralytics YOLO11 をデプロイするにはどうすればよいですか?

NVIDIA SparkYOLO11 Ultralytics YOLO11 のデプロイは簡単です。迅速なセットアップには事前構築済みの Docker イメージを使用するか、必要なパッケージを手動でインストールできます。各方法の詳細な手順は、「Docker によるクイックスタート」および「ネイティブインストールによる開始」セクションに記載されています。

NVIDIA YOLO11 、どの程度の性能が期待できますか?

YOLO11 、GB10 Grace Blackwell Superchipを搭載したDGX Spark上で優れた性能を発揮します。TensorRT 最高の推論性能を提供します。異なるモデルサイズと形式における具体的なベンチマーク結果については、詳細比較表セクションをご確認ください。

なぜDGXYOLO11 TensorRT を使用すべきですか?

TensorRT 、最適なパフォーマンスを実現するため、DGX SparkYOLO11 に強くTensorRT 。BlackwellGPU を活用して推論を高速化し、最大限の効率と速度を確保します。詳細は「 NVIDIA TensorRT の使用」セクションをご覧ください。

YOLO11において、DGX SparkとJetsonデバイスはどのように比較されますか?

DGX Sparkは、Jetsonデバイスよりも大幅に高い演算能力を提供します。最大1PFLOPSのAI性能と128GBの統合メモリを備え、Jetson AGX Thorの2070 TFLOPSおよび128GBメモリと比較されます。DGX SparkはデスクトップAIスーパーコンピュータとして設計されているのに対し、Jetsonデバイスはエッジ展開向けに最適化された組み込みシステムです。

DGX SparkとJetson AGX Thorで同じDockerイメージを使用できますか?

はい! ultralytics/ultralytics:latest-nvidia-arm64 Dockerイメージは、NVIDIA Spark(DGX OS搭載)とJetson AGX Thor(JetPack 7.0搭載)の両方をサポートします。いずれもARM64アーキテクチャを採用し、CUDA 類似のソフトウェアスタックを備えているためです。



📅 0日前に作成 ✏️ 0日前に更新
onuralpszr

コメント