コンテンツへスキップ

クイックスタートガイドNVIDIA Jetson withUltralytics YOLO11

この包括的なガイドでは、NVIDIA Jetson デバイス上にUltralytics YOLO11 をデプロイするための詳細なウォークスルーを提供します。さらに、これらの小型で強力なデバイス上のYOLO11 の機能を実証するために、性能ベンチマークを紹介しています。

新製品サポート

本ガイドは、最新のNVIDIA JetsonOrin Nano Super Developer Kitで更新されました。このキットは、最大67TOPSのAI性能を実現し、前モデルの1.7倍に向上しており、最も人気のあるAIモデルをシームレスに実行することができます。



見るんだ: NVIDIA JETSONデバイスでUltralytics YOLO11 使用する方法

NVIDIA ジェットソン・エコシステム

このガイドは、最新の安定版 JetPack リリースJP6.2 を実行するNVIDIA Jetson AGX Orin Developer Kit (64GB)、JetPack リリースJP6.1 を実行するNVIDIA Jetson Orin Nano Super Developer Kitでテストされています。1、JetPackリリースJP6.0/JetPackリリースJP5.1.3を実行するNVIDIA Jetson Orin NX 16GBをベースとするSeeed Studio reComputer J4012、JetPackリリースJP4.6.1を実行するNVIDIA Jetson Nano 4GBをベースとするSeeed Studio reComputer J1020 v2。最新およびレガシーを含むすべてのNVIDIA Jetsonハードウェアラインアップで動作することが期待されます。

NVIDIA ジェットソンとは?

NVIDIA Jetsonは、エッジデバイスにAI(人工知能)コンピューティングの高速化をもたらすよう設計された一連の組み込みコンピューティングボードである。これらのコンパクトで強力なデバイスは、NVIDIA のGPU アーキテクチャを中心に構築されており、クラウド・コンピューティング・リソースに依存することなく、デバイス上で複雑なAIアルゴリズムやディープラーニング・モデルを直接実行することができる。Jetsonボードは、ロボット工学、自律走行車、産業オートメーション、およびAI推論を低レイテンシかつ高効率でローカルに実行する必要があるその他のアプリケーションでよく使用される。さらに、これらのボードはARM64アーキテクチャをベースとしており、従来のGPU コンピューティング・デバイスと比較して低消費電力で動作する。

NVIDIA ジェットソンシリーズ比較

Jetson Orinは、NVIDIA Jetsonファミリーの最新版で、NVIDIA Ampereアーキテクチャをベースとしており、前世代と比較してAI性能が飛躍的に向上している。下の表は、エコシステム内のJetsonデバイスのいくつかを比較したものである。

Jetson AGX Orin 64GB Jetson Orin NX 16GB ジェットソン・オリン・ナノ・スーパー ジェットソンAGXザビエル ジェットソン・ザビエルNX ジェットソン・ナノ
AIパフォーマンス 275 TOPS 100 TOPS 67のTOP 32 TOPS 21 トップス 472 GFLOPS
GPU 2048 コアNVIDIA アンペア・アーキテクチャGPU 64Tensor コア搭載 1024コアNVIDIA AmpereアーキテクチャGPU 32Tensor コア搭載 1024コアNVIDIA AmpereアーキテクチャGPU 32Tensor コア搭載 512コアNVIDIA VoltaアーキテクチャGPU 64Tensor コア搭載 384 コアNVIDIA Volta™ アーキテクチャGPU 48Tensor コア搭載 128コアNVIDIA Maxwell™アーキテクチャGPU
GPU 最大周波数 1.3 GHz 918 MHz 1020 MHz 1377MHz 1100 MHz 921MHz
CPU 12コアNVIDIA Arm® Cortex A78AE v8.2 64ビットCPU 3MB L2 + 6MB L3 8コアNVIDIA Arm® Cortex A78AE v8.2 64ビットCPU 2MB L2 + 4MB L3 6コア Arm® Cortex®-A78AE v8.2 64ビットCPU 1.5MB L2 + 4MB L3 8コアNVIDIA Carmel Arm®v8.2 64ビットCPU 8MB L2 + 4MB L3 6コアNVIDIA Carmel Arm®v8.2 64ビットCPU 6MB L2 + 4MB L3 クアッドコアArm® Cortex®-A57 MPCoreプロセッサ
CPU 最大周波数 2.2 GHz 2.0 GHz 1.7 GHz 2.2 GHz 1.9 GHz 1.43GHz
メモリー 64GB 256ビット LPDDR5 204.8GB/秒 16GB 128ビット LPDDR5 102.4GB/秒 8GB 128ビット LPDDR5 102GB/秒 32GB 256ビット LPDDR4x 136.5GB/秒 8GB 128ビット LPDDR4x 59.7GB/秒 4GB 64ビット LPDDR4 25.6GB/秒"

より詳細な比較表については、 NVIDIA Jetson公式ページの 技術仕様セクションをご覧ください。

NVIDIA JetPackとは?

Jetsonモジュールを駆動するNVIDIA JetPack SDKは、最も包括的なソリューションであり、エンドツーエンドの高速化AIアプリケーションを構築するための完全な開発環境を提供し、市場投入までの時間を短縮します。JetPackには、ブートローダ、Linuxカーネル、Ubuntuデスクトップ環境を備えたJetson Linuxと、GPU コンピューティング、マルチメディア、グラフィックス、コンピュータビジョンの高速化のためのライブラリ一式が含まれています。また、ホスト・コンピュータと開発者キットの両方に対応したサンプル、ドキュメント、開発者ツールも含まれており、ストリーミング・ビデオ解析用のDeepStream、ロボット工学用のIsaac、会話AI用のRivaなど、より高度なSDKもサポートしています。

NVIDIA JetsonへのFlash JetPack

NVIDIA Jetsonデバイスを手に入れた後の最初のステップは、NVIDIA JetPackをデバイスにフラッシュすることです。NVIDIA Jetsonデバイスをフラッシュする方法はいくつかあります。

  1. Jetson Orin Nano Developer Kitのような公式NVIDIA 開発キットをお持ちの場合は、イメージをダウンロードし、デバイスを起動するためにJetPackでSDカードを準備することができます。
  2. 他のNVIDIA 開発キットをお持ちの場合は、SDK Managerを使用してJetPackをデバイスにフラッシュすることができます。
  3. Seeed Studio reComputer J4012 デバイスをお持ちの場合、JetPack を付属の SSD にフラッシュすることができ、Seeed Studio reComputer J1020 v2 デバイスをお持ちの場合、JetPack を eMMC/ SSD にフラッシュすることができます。
  4. NVIDIA Jetsonモジュールで駆動する他のサードパーティ製デバイスを所有している場合は、コマンドラインのフラッシュに従うことを推奨する。

上記の3および4の方法については、システムをフラッシュしてデバイスを起動した後、デバイスのターミナルで "sudo apt update && sudo apt installnvidia-jetpack -y "を入力して、必要な残りのJetPackコンポーネントをすべてインストールしてください。

Jetsonデバイスに基づくJetPackサポート

以下の表は、NVIDIA JetPack のバージョンが、NVIDIA Jetson デバイスによってサポートされていることを示しています。

ジェットパック4 ジェットパック5 ジェットパック6
ジェットソン・ナノ
ジェットソンTX2
ジェットソン・ザビエルNX
ジェットソンAGXザビエル
ジェットソン AGX オーリン
ジェットソン・オリンNX
ジェットソン・オリン・ナノ

Dockerのクイック・スタート

NVIDIA Jetson 上でUltralytics YOLO11 を使い始める最速の方法は、Jetson 用にビルド済みの docker イメージを使って実行することです。上の表を参照し、所有している Jetson デバイスに応じて JetPack のバージョンを選択してください。

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

これが終わったら、 NVIDIA JetsonでTensorRT

ネイティブ・インストールから始める

Dockerを使用しないネイティブ・インストールについては、以下の手順を参照してください。

JetPack 6.1での実行

Ultralytics パッケージのインストール

ここでは、Ultralytics パッケージを Jetson にインストールします。 PyTorchをインストールします。TensorRT は Jetson デバイスの性能を最大限に引き出せるようにするため、主にNVIDIA TensorRT の エクスポートに焦点を当てます。

  1. パッケージリストの更新、pipのインストール、最新版へのアップグレード

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. インストール ultralytics pip パッケージと依存関係のあるオプション

    pip install ultralytics[export]
    
  3. デバイスを再起動する

    sudo reboot
    

PyTorch とトーチビジョンのインストール

上記のultralytics をインストールすると、Torch と Torchvision がインストールされます。しかし、pip経由でインストールされたこれら2つのパッケージは、ARM64アーキテクチャをベースとするJetsonプラットフォーム上で動作する互換性がない。そのため、ビルド済みのPyTorch pip wheelを手動でインストールし、ソースからTorchvisionをコンパイル/インストールする必要がある。

インストール torch 2.5.0 そして torchvision 0.20 JP6.1による

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

PyTorch for Jetsonのページで、異なるJetPackのバージョンに対応したPyTorch 。PyTorch, Torchvisionの互換性についての詳細なリストは、PyTorch and Torchvision compatibilityページをご覧ください。

インストール cuSPARSELt との依存関係の問題を修正した。 torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

インストール onnxruntime-gpu

について オンヌクスランタイムgpu PyPIでホストされているパッケージには aarch64 バイナリをインストールする必要がある。そのため、このパッケージを手動でインストールする必要がある。このパッケージはいくつかのエクスポートに必要です。

利用可能なすべての onnxruntime-gpu パッケージは、JetPack のバージョン、Python バージョン、その他の互換性の詳細によって整理されています。 Jetson ZooONNX ランタイム互換性マトリックス.ここでは、以下をダウンロードしてインストールします。 onnxruntime-gpu 1.20.0Python3.10 をサポートしている。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

onnxruntime-gpu は自動的にnumpyのバージョンを最新に戻します。そのため、numpyを再インストールする必要があります。 1.23.5 を実行して問題を解決する:

pip install numpy==1.23.5

JetPack 5.1.2での実行

Ultralytics パッケージのインストール

ここでは、Ultralytics パッケージを Jetson にインストールし、PyTorch モデルを他の異なるフォーマットにエクスポートできるように、オプションの依存関係を設定します。TensorRT はJetsonデバイスの性能を最大限に引き出せるようにするため、主にNVIDIA TensorRT の エクスポートに焦点を当てます。

  1. パッケージリストの更新、pipのインストール、最新版へのアップグレード

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. インストール ultralytics pip パッケージと依存関係のあるオプション

    pip install ultralytics[export]
    
  3. デバイスを再起動する

    sudo reboot
    

PyTorch とトーチビジョンのインストール

上記のultralytics をインストールすると、Torch と Torchvision がインストールされます。しかし、pip経由でインストールされたこれら2つのパッケージは、ARM64アーキテクチャをベースとするJetsonプラットフォーム上で動作する互換性がない。そのため、ビルド済みのPyTorch pip wheelを手動でインストールし、ソースからTorchvisionをコンパイル/インストールする必要がある。

  1. 現在インストールされているPyTorch と Torchvision をアンインストールする。

    pip uninstall torch torchvision
    
  2. インストール torch 2.2.0 そして torchvision 0.17.2 JP5.1.2による

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl
    

PyTorch for Jetsonのページで、異なるJetPackのバージョンに対応したPyTorch 。PyTorch, Torchvisionの互換性についての詳細なリストは、PyTorch and Torchvision compatibilityページをご覧ください。

インストール onnxruntime-gpu

について オンヌクスランタイムgpu PyPIでホストされているパッケージには aarch64 バイナリをインストールする必要がある。そのため、このパッケージを手動でインストールする必要がある。このパッケージはいくつかのエクスポートに必要です。

利用可能なすべての onnxruntime-gpu パッケージは、JetPack のバージョン、Python バージョン、その他の互換性の詳細によって整理されています。 Jetson ZooONNX ランタイム互換性マトリックス.ここでは、以下をダウンロードしてインストールします。 onnxruntime-gpu 1.17.0Python3.8 をサポートしている。

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

onnxruntime-gpu は自動的にnumpyのバージョンを最新に戻します。そのため、numpyを再インストールする必要があります。 1.23.5 を実行して問題を解決する:

pip install numpy==1.23.5

NVIDIA JetsonでTensorRT 。

Ultralyticsサポートするすべてのモデルエクスポートフォーマットの中で、TensorRT NVIDIA Jetsonデバイス上で最高の推論パフォーマンスを提供します。セットアップ手順と高度な使用方法については、専用のTensorRT 統合ガイドを参照してください。

モデルをTensorRT に変換し、推論を実行する。

PyTorch 形式のYOLO11nモデルは、エクスポートされたモデルで推論を実行するためにTensorRT 。

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

モデルを異なるモデル形式にエクスポートする際の追加引数については、エクスポートページをご覧ください。

NVIDIA ディープラーニングアクセラレータ(DLA)を使用する。

NVIDIA ディープラーニング・アクセラレータ(DLA)は、NVIDIA Jetsonデバイスに組み込まれた専用ハードウェア・コンポーネントで、エネルギー効率とパフォーマンスのためにディープラーニング推論を最適化する。DLAは、GPU からタスクをオフロードする(より集中的な処理のために解放する)ことで、組み込みシステムやリアルタイムAIアプリケーションに理想的な高いスループットを維持しながら、低消費電力でモデルを実行することを可能にします。

以下のJetsonデバイスはDLAハードウェアを搭載しています:

ジェットソン・デバイス DLAコア DLA 最大周波数
ジェットソンAGXオリンシリーズ 2 1.6 GHz
Jetson Orin NX 16GB 2 614 MHz
Jetson Orin NX 8GB 1 614 MHz
ジェットソン AGX ザビエル・シリーズ 2 1.4 GHz
ジェットソン・ザビエルNXシリーズ 2 1.1 GHz

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

DLAエクスポートを使用する場合、一部のレイヤーはDLA上での実行がサポートされず、実行のためにGPU 。このフォールバックは、追加の待ち時間を発生させ、全体的な推論パフォーマンスに影響を与える可能性があります。したがって、DLA は、GPU 上で完全に実行されるTensorRT と比較して、推論の待ち時間を短縮することを主目的として設計されていません。その代わり、スループットを向上させ、エネルギー効率を改善することを主な目的としています。

NVIDIA Jetson OrinYOLO11 ベンチマーク

YOLO11 ベンチマークは、Ultralytics チームによって、スピードと精度を測定する10種類のモデルフォーマットで実行されました:PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN。ベンチマークは、NVIDIA Jetson AGX Orin Developer Kit (64GB)、NVIDIA Jetson Orin Nano Super Developer Kit、およびJetson Orin NX 16GBデバイスを搭載したSeeed Studio reComputer J4012で、FP32の精度で、デフォルトの入力画像サイズ640で実行しました。

比較チャート

すべての輸出モデルがNVIDIA Jetsonで動作しているにもかかわらず、以下の比較表にはPyTorch 、 TorchScript 、 TensorRT のみを掲載しました。なぜなら、これらはJetsonのGPU を利用しており、最良の結果が得られることが保証されているからです。他のすべてのエクスポートはCPU を利用するだけであり、パフォーマンスは上記の3つほど良くありません。このグラフの後のセクションで、すべてのエクスポートのベンチマークを見ることができます。

NVIDIA Jetson AGX Orinデベロッパーキット (64GB)

Jetson AGX Orinベンチマーク
Ultralytics 8.3.157によるベンチマーク

NVIDIA Jetson Orin Nanoスーパー現像キット

Jetson Orin Nanoスーパーベンチマーク
Ultralytics 8.3.157によるベンチマーク

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GBベンチマーク
Ultralytics 8.3.157によるベンチマーク

詳細比較表

下の表は、5つの異なるモデル(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)の10種類のフォーマットPyTorch,TorchScript,ONNX,OpenVINO,TensorRT,TF SavedModel,TF GraphDef,TF Lite, MNN,NCNN)に対するベンチマーク結果であり、各組み合わせのステータス、サイズ、mAP50-95(B)メトリック、推論時間を示しています。

NVIDIA Jetson AGX Orinデベロッパーキット (64GB)

パフォーマンス

フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 5.4 0.5101 9.40
TorchScript 10.5 0.5083 11.00
ONNX 10.2 0.5077 48.32
OpenVINO 10.4 0.5058 27.24
TensorRT (FP32) 12.1 0.5085 3.93
TensorRT (FP16) 8.3 0.5063 2.55
TensorRT (INT8) 5.4 0.4719 2.18
TF SavedModel 25.9 0.5077 66.87
TF GraphDef 10.3 0.5077 65.68
TF ライト 10.3 0.5077 272.92
MNN 10.1 0.5059 36.33
NCNN 10.2 0.5031 28.51
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 18.4 0.5783 12.10
TorchScript 36.5 0.5782 11.01
ONNX 36.3 0.5782 107.54
OpenVINO 36.4 0.5810 55.03
TensorRT (FP32) 38.1 0.5781 6.52
TensorRT (FP16) 21.4 0.5803 3.65
TensorRT (INT8) 12.1 0.5735 2.81
TF SavedModel 91.0 0.5782 132.73
TF GraphDef 36.4 0.5782 134.96
TF ライト 36.3 0.5782 798.21
MNN 36.2 0.5777 82.35
NCNN 36.2 0.5784 56.07
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 38.8 0.6265 22.20
TorchScript 77.3 0.6307 21.47
ONNX 76.9 0.6307 270.89
OpenVINO 77.1 0.6284 129.10
TensorRT (FP32) 78.8 0.6306 12.53
TensorRT (FP16) 41.9 0.6305 6.25
TensorRT (INT8) 23.2 0.6291 4.69
TF SavedModel 192.7 0.6307 299.95
TF GraphDef 77.1 0.6307 310.58
TF ライト 77.0 0.6307 2400.54
MNN 76.8 0.6308 213.56
NCNN 76.8 0.6284 141.18
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 49.0 0.6364 27.70
TorchScript 97.6 0.6399 27.94
ONNX 97.0 0.6409 345.47
OpenVINO 97.3 0.6378 161.93
TensorRT (FP32) 99.1 0.6406 16.11
TensorRT (FP16) 52.6 0.6376 8.08
TensorRT (INT8) 30.8 0.6208 6.12
TF SavedModel 243.1 0.6409 390.78
TF GraphDef 97.2 0.6409 398.76
TF ライト 97.1 0.6409 3037.05
MNN 96.9 0.6372 265.46
NCNN 96.9 0.6364 179.68
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 109.3 0.7005 44.40
TorchScript 218.1 0.6898 47.49
ONNX 217.5 0.6900 682.98
OpenVINO 217.8 0.6876 298.15
TensorRT (FP32) 219.6 0.6904 28.50
TensorRT (FP16) 112.2 0.6887 13.55
TensorRT (INT8) 60.0 0.6574 9.40
TF SavedModel 544.3 0.6900 749.85
TF GraphDef 217.7 0.6900 753.86
TF ライト 217.6 0.6900 6603.27
MNN 217.3 0.6868 519.77
NCNN 217.3 0.6849 298.58

Ultralytics 8.3.157によるベンチマーク

推論時間には前処理・後処理は含まれない。

NVIDIA Jetson Orin Nanoスーパー現像キット

パフォーマンス

フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 5.4 0.5101 13.70
TorchScript 10.5 0.5082 13.69
ONNX 10.2 0.5081 14.47
OpenVINO 10.4 0.5058 56.66
TensorRT (FP32) 12.0 0.5081 7.44
TensorRT (FP16) 8.2 0.5061 4.53
TensorRT (INT8) 5.4 0.4825 3.70
TF SavedModel 25.9 0.5077 116.23
TF GraphDef 10.3 0.5077 114.92
TF ライト 10.3 0.5077 340.75
MNN 10.1 0.5059 76.26
NCNN 10.2 0.5031 45.03
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 18.4 0.5790 20.90
TorchScript 36.5 0.5781 21.22
ONNX 36.3 0.5781 25.07
OpenVINO 36.4 0.5810 122.98
TensorRT (FP32) 37.9 0.5783 13.02
TensorRT (FP16) 21.8 0.5779 6.93
TensorRT (INT8) 12.2 0.5735 5.08
TF SavedModel 91.0 0.5782 250.65
TF GraphDef 36.4 0.5782 252.69
TF ライト 36.3 0.5782 998.68
MNN 36.2 0.5781 188.01
NCNN 36.2 0.5784 101.37
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 38.8 0.6266 46.50
TorchScript 77.3 0.6307 47.95
ONNX 76.9 0.6307 53.06
OpenVINO 77.1 0.6284 301.63
TensorRT (FP32) 78.8 0.6305 27.86
TensorRT (FP16) 41.7 0.6309 13.50
TensorRT (INT8) 23.2 0.6291 9.12
TF SavedModel 192.7 0.6307 622.24
TF GraphDef 77.1 0.6307 628.74
TF ライト 77.0 0.6307 2997.93
MNN 76.8 0.6299 509.96
NCNN 76.8 0.6284 292.99
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 49.0 0.6364 56.50
TorchScript 97.6 0.6409 62.51
ONNX 97.0 0.6399 68.35
OpenVINO 97.3 0.6378 376.03
TensorRT (FP32) 99.2 0.6396 35.59
TensorRT (FP16) 52.1 0.6361 17.48
TensorRT (INT8) 30.9 0.6207 11.87
TF SavedModel 243.1 0.6409 807.47
TF GraphDef 97.2 0.6409 822.88
TF ライト 97.1 0.6409 3792.23
MNN 96.9 0.6372 631.16
NCNN 96.9 0.6364 350.46
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 109.3 0.7005 90.00
TorchScript 218.1 0.6901 113.40
ONNX 217.5 0.6901 122.94
OpenVINO 217.8 0.6876 713.1
TensorRT (FP32) 219.5 0.6904 66.93
TensorRT (FP16) 112.2 0.6892 32.58
TensorRT (INT8) 61.5 0.6612 19.90
TF SavedModel 544.3 0.6900 1605.4
TF GraphDef 217.8 0.6900 2961.8
TF ライト 217.6 0.6900 8234.86
MNN 217.3 0.6893 1254.18
NCNN 217.3 0.6849 725.50

Ultralytics 8.3.157によるベンチマーク

推論時間には前処理・後処理は含まれない。

NVIDIA Jetson Orin NX 16GB

パフォーマンス

フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 5.4 0.5101 12.90
TorchScript 10.5 0.5082 13.17
ONNX 10.2 0.5081 15.43
OpenVINO 10.4 0.5058 39.80
TensorRT (FP32) 11.8 0.5081 7.94
TensorRT (FP16) 8.1 0.5085 4.73
TensorRT (INT8) 5.4 0.4786 3.90
TF SavedModel 25.9 0.5077 88.48
TF GraphDef 10.3 0.5077 86.67
TF ライト 10.3 0.5077 302.55
MNN 10.1 0.5059 52.73
NCNN 10.2 0.5031 32.04
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 18.4 0.5790 21.70
TorchScript 36.5 0.5781 22.71
ONNX 36.3 0.5781 26.49
OpenVINO 36.4 0.5810 84.73
TensorRT (FP32) 37.8 0.5783 13.77
TensorRT (FP16) 21.2 0.5796 7.31
TensorRT (INT8) 12.0 0.5735 5.33
TF SavedModel 91.0 0.5782 185.06
TF GraphDef 36.4 0.5782 186.45
TF ライト 36.3 0.5782 882.58
MNN 36.2 0.5775 126.36
NCNN 36.2 0.5784 66.73
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 38.8 0.6266 45.00
TorchScript 77.3 0.6307 51.87
ONNX 76.9 0.6307 56.00
OpenVINO 77.1 0.6284 202.69
TensorRT (FP32) 78.7 0.6305 30.38
TensorRT (FP16) 41.8 0.6302 14.48
TensorRT (INT8) 23.2 0.6291 9.74
TF SavedModel 192.7 0.6307 445.58
TF GraphDef 77.1 0.6307 460.94
TF ライト 77.0 0.6307 2653.65
MNN 76.8 0.6308 339.38
NCNN 76.8 0.6284 187.64
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 49.0 0.6364 56.60
TorchScript 97.6 0.6409 66.72
ONNX 97.0 0.6399 71.92
OpenVINO 97.3 0.6378 254.17
TensorRT (FP32) 99.2 0.6406 38.89
TensorRT (FP16) 51.9 0.6363 18.59
TensorRT (INT8) 30.9 0.6207 12.60
TF SavedModel 243.1 0.6409 575.98
TF GraphDef 97.2 0.6409 583.79
TF ライト 97.1 0.6409 3353.41
MNN 96.9 0.6367 421.33
NCNN 96.9 0.6364 228.26
フォーマット ステータス ディスク上のサイズ (MB) mAP50-95(B) 推論時間(ms/im)
PyTorch 109.3 0.7005 98.50
TorchScript 218.1 0.6901 123.03
ONNX 217.5 0.6901 129.55
OpenVINO 217.8 0.6876 483.44
TensorRT (FP32) 219.6 0.6904 75.92
TensorRT (FP16) 112.1 0.6885 35.78
TensorRT (INT8) 61.6 0.6592 21.60
TF SavedModel 544.3 0.6900 1120.43
TF GraphDef 217.7 0.6900 1172.35
TF ライト 217.6 0.6900 7283.63
MNN 217.3 0.6877 840.16
NCNN 217.3 0.6849 474.41

Ultralytics 8.3.157によるベンチマーク

推論時間には前処理・後処理は含まれない。

NVIDIA Jetsonハードウェアのさまざまなバージョンで実行されるSeeed Studioによる、より多くのベンチマークの取り組みをご覧ください。

結果を再現する

上記のUltralytics のベンチマークをすべてのエクスポートフォーマットで再現するには、以下のコードを実行してください:

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640

ベンチマークの結果は、システムの正確なハードウェアとソフトウェアの構成、およびベンチマークの実行時のシステムの現在の作業負荷によって異なる可能性があることに注意してください。最も信頼性の高い結果を得るには、画像数の多いデータセットを使用します。 data='coco.yaml' (5000バル画像)。

NVIDIA Jetsonを使用する際のベストプラクティス

NVIDIA Jetson を使用する場合、YOLO11 を実行するNVIDIA Jetson で最大限のパフォーマンスを発揮するために、従うべきベストプラクティスがいくつかある。

  1. MAXパワーモードを有効にする

    JetsonでMAX Power Modeを有効にすると、すべてのCPU 、GPU コアがオンになります。

    sudo nvpmodel -m 0
    
  2. ジェットソン・クロックを有効にする

    Jetson Clocksを有効にすると、すべてのCPU,GPU コアが最大周波数でクロックされるようになります。

    sudo jetson_clocks
    
  3. Jetson Statsアプリケーションのインストール

    jetson statsアプリケーションを使用して、システムコンポーネントの温度を監視し、CPU 、GPU 、RAM使用率の表示、電源モードの変更、最大クロックへの設定、JetPack情報のチェックなど、その他のシステム詳細をチェックすることができます。

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
    

ジェットソンのスタッツ

次のステップ

NVIDIA Jetson でYOLO11 のセットアップに成功し、おめでとうございます!さらなる学習とサポートについては、Ultralytics YOLO11 Docsのガイドをご覧ください!

よくあるご質問

NVIDIA Jetson デバイスにUltralytics YOLO11 をデプロイするには?

NVIDIA JetsonデバイスにUltralytics YOLO11 をデプロイするのは簡単なプロセスです。まず、NVIDIA JetPack SDKでJetsonデバイスをフラッシュする。次に、ビルド済みのDockerイメージを使用して素早くセットアップするか、必要なパッケージを手動でインストールします。各アプローチの詳細な手順は、「Dockerでクイック・スタート」と「ネイティブ・インストールでスタート」のセクションにあります。

NVIDIA Jetsonデバイス上のYOLO11 モデルから期待できるパフォーマンスベンチマークは?

YOLO11 モデルを様々なNVIDIA Jetsonデバイスでベンチマークしたところ、大幅な性能向上が見られた。例えば、TensorRT フォーマットは最高の推論性能を発揮します。詳細比較表」セクションの表では、さまざまなモデル・フォーマットにおけるmAP50-95や推論時間などのパフォーマンス指標を包括的に示しています。

NVIDIA JetsonにYOLO11 をデプロイするのに、なぜTensorRT を使う必要があるのですか?

TensorRT は、NVIDIA Jetson 上でYOLO11 モデルを展開する際に、その最適なパフォーマンスにより強く推奨されます。Jetson のGPU 機能を活用することで推論を加速し、最大限の効率とスピードを保証します。TensorRT に変換して推論を実行する方法については、 NVIDIA Jetson上でTensorRT を使用するセクションを参照してください。

NVIDIA JetsonにPyTorch 、Torchvisionをインストールするには?

NVIDIA JetsonにPyTorch 、Torchvisionをインストールするには、まずpip経由でインストールされた既存のバージョンをアンインストールしてください。次に、JetsonのARM64アーキテクチャに対応するPyTorch とTorchvisionのバージョンを手動でインストールします。このプロセスの詳細な手順は、 PyTorch と Torchvision のインストールのセクションに記載されています。

NVIDIA JetsonでYOLO11 、パフォーマンスを最大化するためのベストプラクティスは?

YOLO11 でNVIDIA Jetson のパフォーマンスを最大化するには、以下のベストプラクティスに従ってください:

  1. MAXパワーモードを有効にして、すべてのCPU 、GPU コアを利用する。
  2. Jetson Clocksを有効にして、すべてのコアを最大周波数で動作させる。
  3. システム・メトリクスを監視するためのJetson Statsアプリケーションをインストールします。

コマンドやその他の詳細については、 NVIDIA Jetsonを使用する際のベストプラクティスのセクションを参照してください。



📅作成:1年前 ✏️更新しました 19日前

コメント