コンテンツにスキップ

クイックスタートガイド: Ultralytics YOLO11とNVIDIA Jetson

この包括的なガイドでは、NVIDIA JetsonデバイスへのUltralytics YOLO11のデプロイについて詳しく説明します。さらに、これらの小型で強力なデバイス上でのYOLO11の性能を示すパフォーマンスベンチマークを紹介します。

新製品のサポート

このガイドを最新のNVIDIA Jetson Orin Nano Super Developer Kitで更新しました。これにより、最大67 TOPSのAIパフォーマンスが実現し、前モデルより1.7倍向上し、最も人気のあるAIモデルをシームレスに実行できます。



見る: NVIDIA JETSONデバイスでUltralytics YOLO11を使用する方法

NVIDIA Jetsonエコシステム

このガイドは、最新の安定版JetPackリリースであるJP6.2を実行しているNVIDIA Jetson AGX Orin Developer Kit (64GB)、JetPackリリースJP6.1を実行しているNVIDIA Jetson Orin Nano Super Developer Kit、JetPackリリースJP6.0/JP5.1.3を実行しているNVIDIA Jetson Orin NX 16GBベースのSeeed Studio reComputer J4012、およびJetPackリリースJP4.6.1を実行しているNVIDIA Jetson Nano 4GBベースのSeeed Studio reComputer J1020 v2でテストされています。最新およびレガシーを含むすべてのNVIDIA Jetsonハードウェアラインナップで動作することが期待されます。

NVIDIA Jetsonとは何ですか?

NVIDIA Jetsonは、エッジデバイスに高速化されたAI(人工知能)コンピューティングをもたらすように設計された一連の組み込みコンピューティングボードです。これらのコンパクトで強力なデバイスは、NVIDIAのGPUアーキテクチャを基盤として構築されており、クラウドコンピューティングリソースに頼ることなく、複雑なAIアルゴリズムと深層学習モデルをデバイス上で直接実行できます。Jetsonボードは、ロボット工学、自動運転車、産業オートメーション、および低遅延と高効率でローカルにAI推論を実行する必要があるその他のアプリケーションでよく使用されます。さらに、これらのボードはARM64アーキテクチャに基づいており、従来のGPUコンピューティングデバイスと比較して低電力で動作します。

NVIDIA Jetsonシリーズ比較

Jetson Orinは、NVIDIA Ampereアーキテクチャに基づくNVIDIA Jetsonファミリの最新のイテレーションであり、以前の世代と比較してAIパフォーマンスが大幅に向上しています。以下の表は、エコシステム内のいくつかのJetsonデバイスを比較したものです。

Jetson AGX Orin 64GB Jetson Orin NX 16GB Jetson Orin Nano Super Jetson AGX Xavier Jetson Xavier NX Jetson Nano
AIパフォーマンス 275 TOPS 100 TOPS 67 TOPs 32 TOPS 21 TOPS 472 GFLOPS
GPU 64 Tensor Coreを搭載した2048コアのNVIDIA AmpereアーキテクチャGPU 1024-core NVIDIA Ampere アーキテクチャ GPU (32 Tensor Cores 搭載) 1024-core NVIDIA Ampere アーキテクチャ GPU (32 Tensor Cores 搭載) 64のTensor Coreを搭載した512-core NVIDIA Voltaアーキテクチャ GPU 48 Tensor Coreを搭載した384コアのNVIDIA Volta™アーキテクチャGPU 128コア NVIDIA Maxwell™アーキテクチャ GPU
GPU 最大周波数 1.3 GHz 918 MHz 1020 MHz 1377 MHz 1100 MHz 921MHz
CPU 12コア NVIDIA Arm® Cortex A78AE v8.2 64ビット CPU 3MB L2 + 6MB L3 8コア NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 2MB L2 + 4MB L3 6-core Arm® Cortex®-A78AE v8.2 64-bit CPU 1.5MB L2 + 4MB L3 8コア NVIDIA Carmel Arm®v8.2 64-bit CPU 8MB L2 + 4MB L3 6-core NVIDIA Carmel Arm®v8.2 64-bit CPU 6MB L2 + 4MB L3 クアッドコア Arm® Cortex®-A57 MPCoreプロセッサ
CPU 最大周波数 2.2 GHz 2.0 GHz 1.7 GHz 2.2 GHz 1.9 GHz 1.43GHz
メモリ 64GB 256-bit LPDDR5 204.8GB/秒 16GB 128ビット LPDDR5 102.4GB/秒 8GB 128-bit LPDDR5 102 GB/秒 32GB 256-bit LPDDR4x 136.5GB/秒 8GB 128-bit LPDDR4x 59.7GB/秒 4GB 64-bit LPDDR4 25.6GB/s

より詳細な比較表については、NVIDIA Jetsonの公式ページ技術仕様セクションをご覧ください。

NVIDIA JetPackとは何ですか?

Jetsonモジュールを強化するNVIDIA JetPack SDKは、最も包括的なソリューションであり、エンドツーエンドの高速化されたAIアプリケーションを構築するための完全な開発環境を提供し、市場投入までの時間を短縮します。JetPackには、ブートローダー、Linuxカーネル、Ubuntuデスクトップ環境、およびGPUコンピューティング、マルチメディア、グラフィックス、コンピュータビジョンの高速化のための完全なライブラリセットを備えたJetson Linuxが含まれています。また、ホストコンピュータと開発キットの両方に対応したサンプル、ドキュメント、および開発者ツールも含まれており、ストリーミングビデオ分析用のDeepStream、ロボティクス用のIsaac、会話型AI用のRivaなどの高レベルSDKをサポートしています。

NVIDIA JetsonへのJetPackのフラッシュ

NVIDIA Jetsonデバイスを入手した後の最初のステップは、NVIDIA JetPackをデバイスに書き込むことです。NVIDIA Jetsonデバイスを書き込むには、いくつかの異なる方法があります。

  1. Jetson Orin Nano Developer Kit などの NVIDIA 公式開発キットをお持ちの場合は、イメージをダウンロードし、JetPack を使用してデバイスを起動するための SD カードを準備することができます。
  2. その他の NVIDIA 開発キットをお持ちの場合は、SDK Manager を使用して JetPack をデバイスに書き込むことができます。
  3. Seeed Studio reComputer J4012 デバイスをお持ちの場合は、JetPack を付属の SSD に書き込むことができます。また、Seeed Studio reComputer J1020 v2 デバイスをお持ちの場合は、JetPack を eMMC/SSD に書き込むことができます。
  4. NVIDIA Jetson モジュールを搭載したその他のサードパーティ製デバイスをお持ちの場合は、コマンドラインでの書き込みに従うことをお勧めします。

上記の方法3および4については、システムをフラッシュしてデバイスを起動した後、デバイスのターミナルで「sudo apt update && sudo apt install nvidia-jetpack -y」と入力して、必要な残りのJetPackコンポーネントをすべてインストールしてください。

Jetsonデバイスに基づくJetPackのサポート

以下の表は、さまざまなNVIDIA JetsonデバイスでサポートされているNVIDIA JetPackのバージョンをまとめたものです。

JetPack 4 JetPack 5 JetPack 6
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano

Dockerを使ったクイックスタート

NVIDIA JetsonでUltralytics YOLO11を始める最も速い方法は、Jetson用の構築済みDockerイメージで実行することです。上記の表を参照して、お持ちのJetsonデバイスに応じてJetPackバージョンを選択してください。

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

完了したら、NVIDIA JetsonでTensorRTを使用するセクションに進んでください。

ネイティブインストールから開始

Dockerを使用しないネイティブインストールについては、以下の手順を参照してください。

JetPack 6.1 で実行

Ultralyticsパッケージのインストール

ここでは、PyTorchモデルを他のさまざまな形式でエクスポートできるように、オプションの依存関係とともにUltralyticsパッケージをJetsonにインストールします。ここでは主にNVIDIA TensorRTエクスポートに焦点を当てます。これは、TensorRTがJetsonデバイスから最大限のパフォーマンスを引き出すことを保証するためです。

  1. パッケージリストの更新、pipのインストール、および最新バージョンへのアップグレード

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. インストール ultralytics オプションの依存関係を含む pip パッケージ

    pip install ultralytics[export]
    
  3. デバイスを再起動

    sudo reboot
    

PyTorchとTorchvisionのインストール

上記のUltralyticsのインストールでは、TorchとTorchvisionがインストールされます。ただし、pip経由でインストールされたこれらの2つのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームでの実行には対応していません。したがって、事前に構築されたPyTorch pip wheelを手動でインストールし、ソースからTorchvisionをコンパイル/インストールする必要があります。

インストール torch 2.5.0 および torchvision 0.20 JP6.1に準拠

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

JetPackのバージョンに対応したさまざまなバージョンのPyTorchにアクセスするには、Jetson用PyTorchのページをご覧ください。PyTorch、Torchvisionの互換性に関するより詳細なリストについては、PyTorchとTorchvisionの互換性ページをご覧ください。

インストール cuSPARSELt の依存関係の問題を修正するには、 torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

インストール onnxruntime-gpu

The onnxruntime-gpu PyPIでホストされているパッケージには、 aarch64 Jetson用のバイナリ。したがって、このパッケージを手動でインストールする必要があります。このパッケージは、一部のエクスポートに必要です。

利用可能なすべての onnxruntime-gpu JetPackバージョン、Pythonバージョン、およびその他の互換性の詳細ごとに整理されたパッケージを Jetson Zoo ONNX Runtime 互換性マトリックス。ここでは、をダウンロードしてインストールします。 onnxruntime-gpu 1.20.0 with Python3.10 サポート。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

onnxruntime-gpu numpyのバージョンが自動的に最新版に戻ります。そのため、numpyを再インストールする必要があります。 1.23.5 問題を修正するには、以下を実行します。

pip install numpy==1.23.5

JetPack 5.1.2 で実行

Ultralyticsパッケージのインストール

ここでは、PyTorchモデルを他のさまざまな形式でエクスポートできるように、オプションの依存関係とともにUltralyticsパッケージをJetsonにインストールします。ここでは主にNVIDIA TensorRTエクスポートに焦点を当てます。これは、TensorRTがJetsonデバイスから最大限のパフォーマンスを引き出すことを保証するためです。

  1. パッケージリストの更新、pipのインストール、および最新バージョンへのアップグレード

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. インストール ultralytics オプションの依存関係を含む pip パッケージ

    pip install ultralytics[export]
    
  3. デバイスを再起動

    sudo reboot
    

PyTorchとTorchvisionのインストール

上記のUltralyticsのインストールでは、TorchとTorchvisionがインストールされます。ただし、pip経由でインストールされたこれらの2つのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームでの実行には対応していません。したがって、事前に構築されたPyTorch pip wheelを手動でインストールし、ソースからTorchvisionをコンパイル/インストールする必要があります。

  1. 現在インストールされているPyTorchおよびTorchvisionをアンインストールする

    pip uninstall torch torchvision
    
  2. インストール torch 2.2.0 および torchvision 0.17.2 JP5.1.2に準拠

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl
    

JetPackのバージョンに対応したさまざまなバージョンのPyTorchにアクセスするには、Jetson用PyTorchのページをご覧ください。PyTorch、Torchvisionの互換性に関するより詳細なリストについては、PyTorchとTorchvisionの互換性ページをご覧ください。

インストール onnxruntime-gpu

The onnxruntime-gpu PyPIでホストされているパッケージには、 aarch64 Jetson用のバイナリ。したがって、このパッケージを手動でインストールする必要があります。このパッケージは、一部のエクスポートに必要です。

利用可能なすべての onnxruntime-gpu JetPackバージョン、Pythonバージョン、およびその他の互換性の詳細ごとに整理されたパッケージを Jetson Zoo ONNX Runtime 互換性マトリックス。ここでは、をダウンロードしてインストールします。 onnxruntime-gpu 1.17.0 with Python3.8 サポート。

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

onnxruntime-gpu numpyのバージョンが自動的に最新版に戻ります。そのため、numpyを再インストールする必要があります。 1.23.5 問題を修正するには、以下を実行します。

pip install numpy==1.23.5

NVIDIA JetsonでTensorRTを使用する

Ultralyticsがサポートするすべてのモデルエクスポート形式の中で、TensorRTはNVIDIA Jetsonデバイスで最高の推論パフォーマンスを提供するため、Jetsonデプロイメントに最適な推奨事項です。セットアップ手順と高度な使用法については、専用のTensorRT統合ガイドを参照してください。

モデルをTensorRTに変換して推論を実行

PyTorch形式のYOLO11nモデルは、エクスポートされたモデルで推論を実行するためにTensorRTに変換されます。

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

モデルを異なる形式でエクスポートする際の追加引数にアクセスするには、エクスポートページをご覧ください。

NVIDIA Deep Learning Accelerator (DLA) を使用する

NVIDIA Deep Learning Accelerator (DLA)は、NVIDIA Jetsonデバイスに組み込まれた特殊なハードウェアコンポーネントであり、エネルギー効率とパフォーマンスのために深層学習推論を最適化します。GPUからタスクをオフロードすることにより(より集中的なプロセスのためにGPUを解放します)、DLAは、組み込みシステムおよびリアルタイムAIアプリケーションに最適な、高いスループットを維持しながら、より低い消費電力でモデルを実行できるようにします。

以下のJetsonデバイスには、DLAハードウェアが搭載されています。

Jetsonデバイス DLAコア DLA最大周波数
Jetson AGX Orinシリーズ 2 1.6 GHz
Jetson Orin NX 16GB 2 614 MHz
Jetson Orin NX 8GB 1 614 MHz
Jetson AGX Xavierシリーズ 2 1.4 GHz
Jetson Xavier NXシリーズ 2 1.1 GHz

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

DLAエクスポートを使用する場合、一部のレイヤーはDLAでの実行がサポートされず、GPUにフォールバックすることがあります。このフォールバックにより、追加のレイテンシが発生し、全体的な推論パフォーマンスに影響を与える可能性があります。したがって、DLAは主に、GPUで完全に実行されるTensorRTと比較して、推論レイテンシを削減するように設計されていません。代わりに、その主な目的は、スループットを向上させ、エネルギー効率を改善することです。

NVIDIA Jetson Orin YOLO11ベンチマーク

YOLO11のベンチマークは、Ultralyticsチームによって、速度と精度を測定するために10種類のモデル形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN)で実行されました。ベンチマークは、NVIDIA Jetson AGX Orin Developer Kit (64GB)、NVIDIA Jetson Orin Nano Super Developer Kit、およびJetson Orin NX 16GBデバイスを搭載したSeeed Studio reComputer J4012上で、FP32 精度、デフォルトの入力画像サイズ640で実行されました。

比較チャート

すべてのモデルのエクスポートは NVIDIA Jetson で動作しますが、Jetson の GPU を利用し、最高の結果を保証する PyTorch、TorchScript、TensorRT のみを以下の比較チャートに含めました。他のすべてのエクスポートは CPU のみを利用するため、上記の 3 つほどパフォーマンスは高くありません。すべてのエクスポートのベンチマークは、このチャートの後のセクションにあります。

NVIDIA Jetson AGX Orin Developer Kit (64GB)

Jetson AGX Orin ベンチマーク
Ultralytics 8.3.157でベンチマークを実施

NVIDIA Jetson Orin Nano Super Developer Kit

Jetson Orin Nano Superベンチマーク
Ultralytics 8.3.157でベンチマークを実施

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GBベンチマーク
Ultralytics 8.3.157でベンチマークを実施

詳細な比較表

以下の表は、5つの異なるモデル(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)について、10種類の異なる形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN)でのベンチマーク結果を示しています。各組み合わせについて、ステータス、サイズ、mAP50-95(B)メトリック、推論時間を提供します。

NVIDIA Jetson AGX Orin Developer Kit (64GB)

パフォーマンス

形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 5.4 0.5101 9.40
TorchScript 10.5 0.5083 11.00
ONNX 10.2 0.5077 48.32
OpenVINO 10.4 0.5058 27.24
TensorRT(FP32) 12.1 0.5085 3.93
TensorRT(FP16) 8.3 0.5063 2.55
TensorRT(INT8) 5.4 0.4719 2.18
TF SavedModel 25.9 0.5077 66.87
TF GraphDef 10.3 0.5077 65.68
TF Lite 10.3 0.5077 272.92
MNN 10.1 0.5059 36.33
NCNN 10.2 0.5031 28.51
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 18.4 0.5783 12.10
TorchScript 36.5 0.5782 11.01
ONNX 36.3 0.5782 107.54
OpenVINO 36.4 0.5810 55.03
TensorRT(FP32) 38.1 0.5781 6.52
TensorRT(FP16) 21.4 0.5803 3.65
TensorRT(INT8) 12.1 0.5735 2.81
TF SavedModel 91.0 0.5782 132.73
TF GraphDef 36.4 0.5782 134.96
TF Lite 36.3 0.5782 798.21
MNN 36.2 0.5777 82.35
NCNN 36.2 0.5784 56.07
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 38.8 0.6265 22.20
TorchScript 77.3 0.6307 21.47
ONNX 76.9 0.6307 270.89
OpenVINO 77.1 0.6284 129.10
TensorRT(FP32) 78.8 0.6306 12.53
TensorRT(FP16) 41.9 0.6305 6.25
TensorRT(INT8) 23.2 0.6291 4.69
TF SavedModel 192.7 0.6307 299.95
TF GraphDef 77.1 0.6307 310.58
TF Lite 77.0 0.6307 2400.54
MNN 76.8 0.6308 213.56
NCNN 76.8 0.6284 141.18
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 49.0 0.6364 27.70
TorchScript 97.6 0.6399 27.94
ONNX 97.0 0.6409 345.47
OpenVINO 97.3 0.6378 161.93
TensorRT(FP32) 99.1 0.6406 16.11
TensorRT(FP16) 52.6 0.6376 8.08
TensorRT(INT8) 30.8 0.6208 6.12
TF SavedModel 243.1 0.6409 390.78
TF GraphDef 97.2 0.6409 398.76
TF Lite 97.1 0.6409 3037.05
MNN 96.9 0.6372 265.46
NCNN 96.9 0.6364 179.68
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 109.3 0.7005 44.40
TorchScript 218.1 0.6898 47.49
ONNX 217.5 0.6900 682.98
OpenVINO 217.8 0.6876 298.15
TensorRT(FP32) 219.6 0.6904 28.50
TensorRT(FP16) 112.2 0.6887 13.55
TensorRT(INT8) 60.0 0.6574 9.40
TF SavedModel 544.3 0.6900 749.85
TF GraphDef 217.7 0.6900 753.86
TF Lite 217.6 0.6900 6603.27
MNN 217.3 0.6868 519.77
NCNN 217.3 0.6849 298.58

Ultralytics 8.3.157でベンチマークを実施

推論時間には、プリ/ポスト処理は含まれていません。

NVIDIA Jetson Orin Nano Super Developer Kit

パフォーマンス

形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 5.4 0.5101 13.70
TorchScript 10.5 0.5082 13.69
ONNX 10.2 0.5081 14.47
OpenVINO 10.4 0.5058 56.66
TensorRT(FP32) 12.0 0.5081 7.44
TensorRT(FP16) 8.2 0.5061 4.53
TensorRT(INT8) 5.4 0.4825 3.70
TF SavedModel 25.9 0.5077 116.23
TF GraphDef 10.3 0.5077 114.92
TF Lite 10.3 0.5077 340.75
MNN 10.1 0.5059 76.26
NCNN 10.2 0.5031 45.03
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 18.4 0.5790 20.90
TorchScript 36.5 0.5781 21.22
ONNX 36.3 0.5781 25.07
OpenVINO 36.4 0.5810 122.98
TensorRT(FP32) 37.9 0.5783 13.02
TensorRT(FP16) 21.8 0.5779 6.93
TensorRT(INT8) 12.2 0.5735 5.08
TF SavedModel 91.0 0.5782 250.65
TF GraphDef 36.4 0.5782 252.69
TF Lite 36.3 0.5782 998.68
MNN 36.2 0.5781 188.01
NCNN 36.2 0.5784 101.37
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 38.8 0.6266 46.50
TorchScript 77.3 0.6307 47.95
ONNX 76.9 0.6307 53.06
OpenVINO 77.1 0.6284 301.63
TensorRT(FP32) 78.8 0.6305 27.86
TensorRT(FP16) 41.7 0.6309 13.50
TensorRT(INT8) 23.2 0.6291 9.12
TF SavedModel 192.7 0.6307 622.24
TF GraphDef 77.1 0.6307 628.74
TF Lite 77.0 0.6307 2997.93
MNN 76.8 0.6299 509.96
NCNN 76.8 0.6284 292.99
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 49.0 0.6364 56.50
TorchScript 97.6 0.6409 62.51
ONNX 97.0 0.6399 68.35
OpenVINO 97.3 0.6378 376.03
TensorRT(FP32) 99.2 0.6396 35.59
TensorRT(FP16) 52.1 0.6361 17.48
TensorRT(INT8) 30.9 0.6207 11.87
TF SavedModel 243.1 0.6409 807.47
TF GraphDef 97.2 0.6409 822.88
TF Lite 97.1 0.6409 3792.23
MNN 96.9 0.6372 631.16
NCNN 96.9 0.6364 350.46
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 109.3 0.7005 90.00
TorchScript 218.1 0.6901 113.40
ONNX 217.5 0.6901 122.94
OpenVINO 217.8 0.6876 713.1
TensorRT(FP32) 219.5 0.6904 66.93
TensorRT(FP16) 112.2 0.6892 32.58
TensorRT(INT8) 61.5 0.6612 19.90
TF SavedModel 544.3 0.6900 1605.4
TF GraphDef 217.8 0.6900 2961.8
TF Lite 217.6 0.6900 8234.86
MNN 217.3 0.6893 1254.18
NCNN 217.3 0.6849 725.50

Ultralytics 8.3.157でベンチマークを実施

推論時間には、プリ/ポスト処理は含まれていません。

NVIDIA Jetson Orin NX 16GB

パフォーマンス

形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 5.4 0.5101 12.90
TorchScript 10.5 0.5082 13.17
ONNX 10.2 0.5081 15.43
OpenVINO 10.4 0.5058 39.80
TensorRT(FP32) 11.8 0.5081 7.94
TensorRT(FP16) 8.1 0.5085 4.73
TensorRT(INT8) 5.4 0.4786 3.90
TF SavedModel 25.9 0.5077 88.48
TF GraphDef 10.3 0.5077 86.67
TF Lite 10.3 0.5077 302.55
MNN 10.1 0.5059 52.73
NCNN 10.2 0.5031 32.04
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 18.4 0.5790 21.70
TorchScript 36.5 0.5781 22.71
ONNX 36.3 0.5781 26.49
OpenVINO 36.4 0.5810 84.73
TensorRT(FP32) 37.8 0.5783 13.77
TensorRT(FP16) 21.2 0.5796 7.31
TensorRT(INT8) 12.0 0.5735 5.33
TF SavedModel 91.0 0.5782 185.06
TF GraphDef 36.4 0.5782 186.45
TF Lite 36.3 0.5782 882.58
MNN 36.2 0.5775 126.36
NCNN 36.2 0.5784 66.73
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 38.8 0.6266 45.00
TorchScript 77.3 0.6307 51.87
ONNX 76.9 0.6307 56.00
OpenVINO 77.1 0.6284 202.69
TensorRT(FP32) 78.7 0.6305 30.38
TensorRT(FP16) 41.8 0.6302 14.48
TensorRT(INT8) 23.2 0.6291 9.74
TF SavedModel 192.7 0.6307 445.58
TF GraphDef 77.1 0.6307 460.94
TF Lite 77.0 0.6307 2653.65
MNN 76.8 0.6308 339.38
NCNN 76.8 0.6284 187.64
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 49.0 0.6364 56.60
TorchScript 97.6 0.6409 66.72
ONNX 97.0 0.6399 71.92
OpenVINO 97.3 0.6378 254.17
TensorRT(FP32) 99.2 0.6406 38.89
TensorRT(FP16) 51.9 0.6363 18.59
TensorRT(INT8) 30.9 0.6207 12.60
TF SavedModel 243.1 0.6409 575.98
TF GraphDef 97.2 0.6409 583.79
TF Lite 97.1 0.6409 3353.41
MNN 96.9 0.6367 421.33
NCNN 96.9 0.6364 228.26
形式 ステータス ディスク上のサイズ(MB) mAP50-95(B) 推論時間 (ms/im)
PyTorch 109.3 0.7005 98.50
TorchScript 218.1 0.6901 123.03
ONNX 217.5 0.6901 129.55
OpenVINO 217.8 0.6876 483.44
TensorRT(FP32) 219.6 0.6904 75.92
TensorRT(FP16) 112.1 0.6885 35.78
TensorRT(INT8) 61.6 0.6592 21.60
TF SavedModel 544.3 0.6900 1120.43
TF GraphDef 217.7 0.6900 1172.35
TF Lite 217.6 0.6900 7283.63
MNN 217.3 0.6877 840.16
NCNN 217.3 0.6849 474.41

Ultralytics 8.3.157でベンチマークを実施

推論時間には、プリ/ポスト処理は含まれていません。

Seeed Studioによるベンチマークの取り組みの詳細はこちらをご覧ください。さまざまなバージョンのNVIDIA Jetsonハードウェアで実行されています。

結果の再現

上記Ultralyticsのベンチマークをすべてのエクスポート形式で再現するには、次のコードを実行します:

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640

ベンチマークの結果は、システムの正確なハードウェアおよびソフトウェア構成、ベンチマーク実行時のシステムの現在のワークロードによって異なる可能性があることに注意してください。最も信頼性の高い結果を得るには、多数の画像を含むデータセット(例:)を使用してください。 data='coco.yaml' (5000の検証画像)。

NVIDIA Jetson 使用時のベストプラクティス

NVIDIA Jetsonを使用する場合、YOLO11を実行しているNVIDIA Jetsonで最大のパフォーマンスを有効にするために従うべきいくつかのベストプラクティスがあります。

  1. 最大電力モードを有効にする

    Jetsonで最大電力モードを有効にすると、すべてのCPU、GPUコアがオンになります。

    sudo nvpmodel -m 0
    
  2. Jetsonクロックを有効にする

    Jetsonクロックを有効にすると、すべてのCPU、GPUコアが最大周波数でクロックされるようになります。

    sudo jetson_clocks
    
  3. Jetson Statsアプリケーションのインストール

    jetson statsアプリケーションを使用して、システムコンポーネントの温度を監視し、CPU、GPU、RAMの使用率の表示、電力モードの変更、最大クロックの設定、JetPack情報などの他のシステム詳細を確認できます。

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
    

Jetson Stats

次のステップ

NVIDIA JetsonへのYOLO11のセットアップが完了しました。おめでとうございます!更なる学習とサポートについては、Ultralytics YOLO11 Docsでガイドをご覧ください。

よくある質問

NVIDIA JetsonデバイスにUltralytics YOLO11をデプロイするにはどうすればよいですか?

Ultralytics YOLO11 を NVIDIA Jetson デバイスにデプロイするのは簡単なプロセスです。まず、Jetson デバイスを NVIDIA JetPack SDK でフラッシュします。次に、すぐにセットアップできる構築済みの Docker イメージを使用するか、必要なパッケージを手動でインストールします。各アプローチの詳細な手順は、Docker でクイックスタート および ネイティブインストールで開始 のセクションにあります。

NVIDIA Jetson デバイス上の YOLO11 モデルから、どのような性能ベンチマークが期待できますか?

YOLO11モデルは、さまざまなNVIDIA Jetsonデバイスでベンチマークされており、パフォーマンスが大幅に向上しています。たとえば、TensorRT形式は最高の推論パフォーマンスを提供します。詳細比較表セクションの表には、さまざまなモデル形式でのmAP50-95や推論時間などのパフォーマンス指標の包括的なビューが示されています。

NVIDIA JetsonにYOLO11をデプロイするためにTensorRTを使用すべきなのはなぜですか?

TensorRTは、最適なパフォーマンスを実現するため、NVIDIA JetsonでYOLO11モデルをデプロイする際に強く推奨されます。JetsonのGPU機能を活用して推論を高速化し、効率と速度を最大化します。TensorRTへの変換方法と推論の実行方法の詳細については、NVIDIA JetsonでのTensorRTの使用セクションを参照してください。

NVIDIA JetsonにPyTorchとTorchvisionをインストールするにはどうすればよいですか?

NVIDIA JetsonにPyTorchとTorchvisionをインストールするには、まずpipでインストールされている既存のバージョンをアンインストールします。次に、JetsonのARM64アーキテクチャと互換性のあるPyTorchおよびTorchvisionバージョンを手動でインストールします。このプロセスの詳細な手順は、PyTorchとTorchvisionのインストールセクションに記載されています。

YOLO11を使用する際に、NVIDIA Jetsonでのパフォーマンスを最大化するためのベストプラクティスは何ですか?

YOLO11でNVIDIA Jetsonのパフォーマンスを最大化するには、次のベストプラクティスに従ってください:

  1. 最大電力モードを有効にして、すべてのCPUおよびGPUコアを利用します。
  2. Jetsonクロックを有効にして、すべてのコアを最大周波数で実行します。
  3. システムメトリクスを監視するために、Jetson Statsアプリケーションをインストールします。

コマンドと詳細については、NVIDIA Jetson使用時のベストプラクティスセクションを参照してください。



📅 1年前に作成 ✏️ 2か月前に更新

コメント