クイックスタートガイド: Ultralytics YOLO11とNVIDIA Jetson
この包括的なガイドでは、NVIDIA JetsonデバイスへのUltralytics YOLO11のデプロイについて詳しく説明します。さらに、これらの小型で強力なデバイス上でのYOLO11の性能を示すパフォーマンスベンチマークを紹介します。
新製品のサポート
このガイドを最新のNVIDIA Jetson Orin Nano Super Developer Kitで更新しました。これにより、最大67 TOPSのAIパフォーマンスが実現し、前モデルより1.7倍向上し、最も人気のあるAIモデルをシームレスに実行できます。
見る: NVIDIA JETSONデバイスでUltralytics YOLO11を使用する方法
注
このガイドは、最新の安定版JetPackリリースであるJP6.2を実行しているNVIDIA Jetson AGX Orin Developer Kit (64GB)、JetPackリリースJP6.1を実行しているNVIDIA Jetson Orin Nano Super Developer Kit、JetPackリリースJP6.0/JP5.1.3を実行しているNVIDIA Jetson Orin NX 16GBベースのSeeed Studio reComputer J4012、およびJetPackリリースJP4.6.1を実行しているNVIDIA Jetson Nano 4GBベースのSeeed Studio reComputer J1020 v2でテストされています。最新およびレガシーを含むすべてのNVIDIA Jetsonハードウェアラインナップで動作することが期待されます。
NVIDIA Jetsonとは何ですか?
NVIDIA Jetsonは、エッジデバイスに高速化されたAI(人工知能)コンピューティングをもたらすように設計された一連の組み込みコンピューティングボードです。これらのコンパクトで強力なデバイスは、NVIDIAのGPUアーキテクチャを基盤として構築されており、クラウドコンピューティングリソースに頼ることなく、複雑なAIアルゴリズムと深層学習モデルをデバイス上で直接実行できます。Jetsonボードは、ロボット工学、自動運転車、産業オートメーション、および低遅延と高効率でローカルにAI推論を実行する必要があるその他のアプリケーションでよく使用されます。さらに、これらのボードはARM64アーキテクチャに基づいており、従来のGPUコンピューティングデバイスと比較して低電力で動作します。
NVIDIA Jetsonシリーズ比較
Jetson Orinは、NVIDIA Ampereアーキテクチャに基づくNVIDIA Jetsonファミリの最新のイテレーションであり、以前の世代と比較してAIパフォーマンスが大幅に向上しています。以下の表は、エコシステム内のいくつかのJetsonデバイスを比較したものです。
Jetson AGX Orin 64GB | Jetson Orin NX 16GB | Jetson Orin Nano Super | Jetson AGX Xavier | Jetson Xavier NX | Jetson Nano | |
---|---|---|---|---|---|---|
AIパフォーマンス | 275 TOPS | 100 TOPS | 67 TOPs | 32 TOPS | 21 TOPS | 472 GFLOPS |
GPU | 64 Tensor Coreを搭載した2048コアのNVIDIA AmpereアーキテクチャGPU | 1024-core NVIDIA Ampere アーキテクチャ GPU (32 Tensor Cores 搭載) | 1024-core NVIDIA Ampere アーキテクチャ GPU (32 Tensor Cores 搭載) | 64のTensor Coreを搭載した512-core NVIDIA Voltaアーキテクチャ GPU | 48 Tensor Coreを搭載した384コアのNVIDIA Volta™アーキテクチャGPU | 128コア NVIDIA Maxwell™アーキテクチャ GPU |
GPU 最大周波数 | 1.3 GHz | 918 MHz | 1020 MHz | 1377 MHz | 1100 MHz | 921MHz |
CPU | 12コア NVIDIA Arm® Cortex A78AE v8.2 64ビット CPU 3MB L2 + 6MB L3 | 8コア NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 2MB L2 + 4MB L3 | 6-core Arm® Cortex®-A78AE v8.2 64-bit CPU 1.5MB L2 + 4MB L3 | 8コア NVIDIA Carmel Arm®v8.2 64-bit CPU 8MB L2 + 4MB L3 | 6-core NVIDIA Carmel Arm®v8.2 64-bit CPU 6MB L2 + 4MB L3 | クアッドコア Arm® Cortex®-A57 MPCoreプロセッサ |
CPU 最大周波数 | 2.2 GHz | 2.0 GHz | 1.7 GHz | 2.2 GHz | 1.9 GHz | 1.43GHz |
メモリ | 64GB 256-bit LPDDR5 204.8GB/秒 | 16GB 128ビット LPDDR5 102.4GB/秒 | 8GB 128-bit LPDDR5 102 GB/秒 | 32GB 256-bit LPDDR4x 136.5GB/秒 | 8GB 128-bit LPDDR4x 59.7GB/秒 | 4GB 64-bit LPDDR4 25.6GB/s |
より詳細な比較表については、NVIDIA Jetsonの公式ページの技術仕様セクションをご覧ください。
NVIDIA JetPackとは何ですか?
Jetsonモジュールを強化するNVIDIA JetPack SDKは、最も包括的なソリューションであり、エンドツーエンドの高速化されたAIアプリケーションを構築するための完全な開発環境を提供し、市場投入までの時間を短縮します。JetPackには、ブートローダー、Linuxカーネル、Ubuntuデスクトップ環境、およびGPUコンピューティング、マルチメディア、グラフィックス、コンピュータビジョンの高速化のための完全なライブラリセットを備えたJetson Linuxが含まれています。また、ホストコンピュータと開発キットの両方に対応したサンプル、ドキュメント、および開発者ツールも含まれており、ストリーミングビデオ分析用のDeepStream、ロボティクス用のIsaac、会話型AI用のRivaなどの高レベルSDKをサポートしています。
NVIDIA JetsonへのJetPackのフラッシュ
NVIDIA Jetsonデバイスを入手した後の最初のステップは、NVIDIA JetPackをデバイスに書き込むことです。NVIDIA Jetsonデバイスを書き込むには、いくつかの異なる方法があります。
- Jetson Orin Nano Developer Kit などの NVIDIA 公式開発キットをお持ちの場合は、イメージをダウンロードし、JetPack を使用してデバイスを起動するための SD カードを準備することができます。
- その他の NVIDIA 開発キットをお持ちの場合は、SDK Manager を使用して JetPack をデバイスに書き込むことができます。
- Seeed Studio reComputer J4012 デバイスをお持ちの場合は、JetPack を付属の SSD に書き込むことができます。また、Seeed Studio reComputer J1020 v2 デバイスをお持ちの場合は、JetPack を eMMC/SSD に書き込むことができます。
- NVIDIA Jetson モジュールを搭載したその他のサードパーティ製デバイスをお持ちの場合は、コマンドラインでの書き込みに従うことをお勧めします。
注
上記の方法3および4については、システムをフラッシュしてデバイスを起動した後、デバイスのターミナルで「sudo apt update && sudo apt install nvidia-jetpack -y」と入力して、必要な残りのJetPackコンポーネントをすべてインストールしてください。
Jetsonデバイスに基づくJetPackのサポート
以下の表は、さまざまなNVIDIA JetsonデバイスでサポートされているNVIDIA JetPackのバージョンをまとめたものです。
JetPack 4 | JetPack 5 | JetPack 6 | |
---|---|---|---|
Jetson Nano | ✅ | ❌ | ❌ |
Jetson TX2 | ✅ | ❌ | ❌ |
Jetson Xavier NX | ✅ | ✅ | ❌ |
Jetson AGX Xavier | ✅ | ✅ | ❌ |
Jetson AGX Orin | ❌ | ✅ | ✅ |
Jetson Orin NX | ❌ | ✅ | ✅ |
Jetson Orin Nano | ❌ | ✅ | ✅ |
Dockerを使ったクイックスタート
NVIDIA JetsonでUltralytics YOLO11を始める最も速い方法は、Jetson用の構築済みDockerイメージで実行することです。上記の表を参照して、お持ちのJetsonデバイスに応じてJetPackバージョンを選択してください。
t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
完了したら、NVIDIA JetsonでTensorRTを使用するセクションに進んでください。
ネイティブインストールから開始
Dockerを使用しないネイティブインストールについては、以下の手順を参照してください。
JetPack 6.1 で実行
Ultralyticsパッケージのインストール
ここでは、PyTorchモデルを他のさまざまな形式でエクスポートできるように、オプションの依存関係とともにUltralyticsパッケージをJetsonにインストールします。ここでは主にNVIDIA TensorRTエクスポートに焦点を当てます。これは、TensorRTがJetsonデバイスから最大限のパフォーマンスを引き出すことを保証するためです。
-
パッケージリストの更新、pipのインストール、および最新バージョンへのアップグレード
sudo apt update sudo apt install python3-pip -y pip install -U pip
-
インストール
ultralytics
オプションの依存関係を含む pip パッケージpip install ultralytics[export]
-
デバイスを再起動
sudo reboot
PyTorchとTorchvisionのインストール
上記のUltralyticsのインストールでは、TorchとTorchvisionがインストールされます。ただし、pip経由でインストールされたこれらの2つのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームでの実行には対応していません。したがって、事前に構築されたPyTorch pip wheelを手動でインストールし、ソースからTorchvisionをコンパイル/インストールする必要があります。
インストール torch 2.5.0
および torchvision 0.20
JP6.1に準拠
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl
注
JetPackのバージョンに対応したさまざまなバージョンのPyTorchにアクセスするには、Jetson用PyTorchのページをご覧ください。PyTorch、Torchvisionの互換性に関するより詳細なリストについては、PyTorchとTorchvisionの互換性ページをご覧ください。
インストール cuSPARSELt
の依存関係の問題を修正するには、 torch 2.5.0
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev
インストール onnxruntime-gpu
The onnxruntime-gpu PyPIでホストされているパッケージには、 aarch64
Jetson用のバイナリ。したがって、このパッケージを手動でインストールする必要があります。このパッケージは、一部のエクスポートに必要です。
利用可能なすべての onnxruntime-gpu
JetPackバージョン、Pythonバージョン、およびその他の互換性の詳細ごとに整理されたパッケージを Jetson Zoo ONNX Runtime 互換性マトリックス。ここでは、をダウンロードしてインストールします。 onnxruntime-gpu 1.20.0
with Python3.10
サポート。
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl
注
onnxruntime-gpu
numpyのバージョンが自動的に最新版に戻ります。そのため、numpyを再インストールする必要があります。 1.23.5
問題を修正するには、以下を実行します。
pip install numpy==1.23.5
JetPack 5.1.2 で実行
Ultralyticsパッケージのインストール
ここでは、PyTorchモデルを他のさまざまな形式でエクスポートできるように、オプションの依存関係とともにUltralyticsパッケージをJetsonにインストールします。ここでは主にNVIDIA TensorRTエクスポートに焦点を当てます。これは、TensorRTがJetsonデバイスから最大限のパフォーマンスを引き出すことを保証するためです。
-
パッケージリストの更新、pipのインストール、および最新バージョンへのアップグレード
sudo apt update sudo apt install python3-pip -y pip install -U pip
-
インストール
ultralytics
オプションの依存関係を含む pip パッケージpip install ultralytics[export]
-
デバイスを再起動
sudo reboot
PyTorchとTorchvisionのインストール
上記のUltralyticsのインストールでは、TorchとTorchvisionがインストールされます。ただし、pip経由でインストールされたこれらの2つのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームでの実行には対応していません。したがって、事前に構築されたPyTorch pip wheelを手動でインストールし、ソースからTorchvisionをコンパイル/インストールする必要があります。
-
現在インストールされているPyTorchおよびTorchvisionをアンインストールする
pip uninstall torch torchvision
-
インストール
torch 2.2.0
およびtorchvision 0.17.2
JP5.1.2に準拠pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl
注
JetPackのバージョンに対応したさまざまなバージョンのPyTorchにアクセスするには、Jetson用PyTorchのページをご覧ください。PyTorch、Torchvisionの互換性に関するより詳細なリストについては、PyTorchとTorchvisionの互換性ページをご覧ください。
インストール onnxruntime-gpu
The onnxruntime-gpu PyPIでホストされているパッケージには、 aarch64
Jetson用のバイナリ。したがって、このパッケージを手動でインストールする必要があります。このパッケージは、一部のエクスポートに必要です。
利用可能なすべての onnxruntime-gpu
JetPackバージョン、Pythonバージョン、およびその他の互換性の詳細ごとに整理されたパッケージを Jetson Zoo ONNX Runtime 互換性マトリックス。ここでは、をダウンロードしてインストールします。 onnxruntime-gpu 1.17.0
with Python3.8
サポート。
wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
注
onnxruntime-gpu
numpyのバージョンが自動的に最新版に戻ります。そのため、numpyを再インストールする必要があります。 1.23.5
問題を修正するには、以下を実行します。
pip install numpy==1.23.5
NVIDIA JetsonでTensorRTを使用する
Ultralyticsがサポートするすべてのモデルエクスポート形式の中で、TensorRTはNVIDIA Jetsonデバイスで最高の推論パフォーマンスを提供するため、Jetsonデプロイメントに最適な推奨事項です。セットアップ手順と高度な使用法については、専用のTensorRT統合ガイドを参照してください。
モデルをTensorRTに変換して推論を実行
PyTorch形式のYOLO11nモデルは、エクスポートされたモデルで推論を実行するためにTensorRTに変換されます。
例
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Export the model to TensorRT
model.export(format="engine") # creates 'yolo11n.engine'
# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'
# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'
注
モデルを異なる形式でエクスポートする際の追加引数にアクセスするには、エクスポートページをご覧ください。
NVIDIA Deep Learning Accelerator (DLA) を使用する
NVIDIA Deep Learning Accelerator (DLA)は、NVIDIA Jetsonデバイスに組み込まれた特殊なハードウェアコンポーネントであり、エネルギー効率とパフォーマンスのために深層学習推論を最適化します。GPUからタスクをオフロードすることにより(より集中的なプロセスのためにGPUを解放します)、DLAは、組み込みシステムおよびリアルタイムAIアプリケーションに最適な、高いスループットを維持しながら、より低い消費電力でモデルを実行できるようにします。
以下のJetsonデバイスには、DLAハードウェアが搭載されています。
Jetsonデバイス | DLAコア | DLA最大周波数 |
---|---|---|
Jetson AGX Orinシリーズ | 2 | 1.6 GHz |
Jetson Orin NX 16GB | 2 | 614 MHz |
Jetson Orin NX 8GB | 1 | 614 MHz |
Jetson AGX Xavierシリーズ | 2 | 1.4 GHz |
Jetson Xavier NXシリーズ | 2 | 1.1 GHz |
例
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True) # dla:0 or dla:1 corresponds to the DLA cores
# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores
# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'
注
DLAエクスポートを使用する場合、一部のレイヤーはDLAでの実行がサポートされず、GPUにフォールバックすることがあります。このフォールバックにより、追加のレイテンシが発生し、全体的な推論パフォーマンスに影響を与える可能性があります。したがって、DLAは主に、GPUで完全に実行されるTensorRTと比較して、推論レイテンシを削減するように設計されていません。代わりに、その主な目的は、スループットを向上させ、エネルギー効率を改善することです。
NVIDIA Jetson Orin YOLO11ベンチマーク
YOLO11のベンチマークは、Ultralyticsチームによって、速度と精度を測定するために10種類のモデル形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN)で実行されました。ベンチマークは、NVIDIA Jetson AGX Orin Developer Kit (64GB)、NVIDIA Jetson Orin Nano Super Developer Kit、およびJetson Orin NX 16GBデバイスを搭載したSeeed Studio reComputer J4012上で、FP32 精度、デフォルトの入力画像サイズ640で実行されました。
比較チャート
すべてのモデルのエクスポートは NVIDIA Jetson で動作しますが、Jetson の GPU を利用し、最高の結果を保証する PyTorch、TorchScript、TensorRT のみを以下の比較チャートに含めました。他のすべてのエクスポートは CPU のみを利用するため、上記の 3 つほどパフォーマンスは高くありません。すべてのエクスポートのベンチマークは、このチャートの後のセクションにあります。
NVIDIA Jetson AGX Orin Developer Kit (64GB)

NVIDIA Jetson Orin Nano Super Developer Kit

NVIDIA Jetson Orin NX 16GB

詳細な比較表
以下の表は、5つの異なるモデル(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)について、10種類の異なる形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN)でのベンチマーク結果を示しています。各組み合わせについて、ステータス、サイズ、mAP50-95(B)メトリック、推論時間を提供します。
NVIDIA Jetson AGX Orin Developer Kit (64GB)
パフォーマンス
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 5.4 | 0.5101 | 9.40 |
TorchScript | ✅ | 10.5 | 0.5083 | 11.00 |
ONNX | ✅ | 10.2 | 0.5077 | 48.32 |
OpenVINO | ✅ | 10.4 | 0.5058 | 27.24 |
TensorRT(FP32) | ✅ | 12.1 | 0.5085 | 3.93 |
TensorRT(FP16) | ✅ | 8.3 | 0.5063 | 2.55 |
TensorRT(INT8) | ✅ | 5.4 | 0.4719 | 2.18 |
TF SavedModel | ✅ | 25.9 | 0.5077 | 66.87 |
TF GraphDef | ✅ | 10.3 | 0.5077 | 65.68 |
TF Lite | ✅ | 10.3 | 0.5077 | 272.92 |
MNN | ✅ | 10.1 | 0.5059 | 36.33 |
NCNN | ✅ | 10.2 | 0.5031 | 28.51 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 18.4 | 0.5783 | 12.10 |
TorchScript | ✅ | 36.5 | 0.5782 | 11.01 |
ONNX | ✅ | 36.3 | 0.5782 | 107.54 |
OpenVINO | ✅ | 36.4 | 0.5810 | 55.03 |
TensorRT(FP32) | ✅ | 38.1 | 0.5781 | 6.52 |
TensorRT(FP16) | ✅ | 21.4 | 0.5803 | 3.65 |
TensorRT(INT8) | ✅ | 12.1 | 0.5735 | 2.81 |
TF SavedModel | ✅ | 91.0 | 0.5782 | 132.73 |
TF GraphDef | ✅ | 36.4 | 0.5782 | 134.96 |
TF Lite | ✅ | 36.3 | 0.5782 | 798.21 |
MNN | ✅ | 36.2 | 0.5777 | 82.35 |
NCNN | ✅ | 36.2 | 0.5784 | 56.07 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 38.8 | 0.6265 | 22.20 |
TorchScript | ✅ | 77.3 | 0.6307 | 21.47 |
ONNX | ✅ | 76.9 | 0.6307 | 270.89 |
OpenVINO | ✅ | 77.1 | 0.6284 | 129.10 |
TensorRT(FP32) | ✅ | 78.8 | 0.6306 | 12.53 |
TensorRT(FP16) | ✅ | 41.9 | 0.6305 | 6.25 |
TensorRT(INT8) | ✅ | 23.2 | 0.6291 | 4.69 |
TF SavedModel | ✅ | 192.7 | 0.6307 | 299.95 |
TF GraphDef | ✅ | 77.1 | 0.6307 | 310.58 |
TF Lite | ✅ | 77.0 | 0.6307 | 2400.54 |
MNN | ✅ | 76.8 | 0.6308 | 213.56 |
NCNN | ✅ | 76.8 | 0.6284 | 141.18 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 49.0 | 0.6364 | 27.70 |
TorchScript | ✅ | 97.6 | 0.6399 | 27.94 |
ONNX | ✅ | 97.0 | 0.6409 | 345.47 |
OpenVINO | ✅ | 97.3 | 0.6378 | 161.93 |
TensorRT(FP32) | ✅ | 99.1 | 0.6406 | 16.11 |
TensorRT(FP16) | ✅ | 52.6 | 0.6376 | 8.08 |
TensorRT(INT8) | ✅ | 30.8 | 0.6208 | 6.12 |
TF SavedModel | ✅ | 243.1 | 0.6409 | 390.78 |
TF GraphDef | ✅ | 97.2 | 0.6409 | 398.76 |
TF Lite | ✅ | 97.1 | 0.6409 | 3037.05 |
MNN | ✅ | 96.9 | 0.6372 | 265.46 |
NCNN | ✅ | 96.9 | 0.6364 | 179.68 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 109.3 | 0.7005 | 44.40 |
TorchScript | ✅ | 218.1 | 0.6898 | 47.49 |
ONNX | ✅ | 217.5 | 0.6900 | 682.98 |
OpenVINO | ✅ | 217.8 | 0.6876 | 298.15 |
TensorRT(FP32) | ✅ | 219.6 | 0.6904 | 28.50 |
TensorRT(FP16) | ✅ | 112.2 | 0.6887 | 13.55 |
TensorRT(INT8) | ✅ | 60.0 | 0.6574 | 9.40 |
TF SavedModel | ✅ | 544.3 | 0.6900 | 749.85 |
TF GraphDef | ✅ | 217.7 | 0.6900 | 753.86 |
TF Lite | ✅ | 217.6 | 0.6900 | 6603.27 |
MNN | ✅ | 217.3 | 0.6868 | 519.77 |
NCNN | ✅ | 217.3 | 0.6849 | 298.58 |
Ultralytics 8.3.157でベンチマークを実施
注
推論時間には、プリ/ポスト処理は含まれていません。
NVIDIA Jetson Orin Nano Super Developer Kit
パフォーマンス
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 5.4 | 0.5101 | 13.70 |
TorchScript | ✅ | 10.5 | 0.5082 | 13.69 |
ONNX | ✅ | 10.2 | 0.5081 | 14.47 |
OpenVINO | ✅ | 10.4 | 0.5058 | 56.66 |
TensorRT(FP32) | ✅ | 12.0 | 0.5081 | 7.44 |
TensorRT(FP16) | ✅ | 8.2 | 0.5061 | 4.53 |
TensorRT(INT8) | ✅ | 5.4 | 0.4825 | 3.70 |
TF SavedModel | ✅ | 25.9 | 0.5077 | 116.23 |
TF GraphDef | ✅ | 10.3 | 0.5077 | 114.92 |
TF Lite | ✅ | 10.3 | 0.5077 | 340.75 |
MNN | ✅ | 10.1 | 0.5059 | 76.26 |
NCNN | ✅ | 10.2 | 0.5031 | 45.03 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 18.4 | 0.5790 | 20.90 |
TorchScript | ✅ | 36.5 | 0.5781 | 21.22 |
ONNX | ✅ | 36.3 | 0.5781 | 25.07 |
OpenVINO | ✅ | 36.4 | 0.5810 | 122.98 |
TensorRT(FP32) | ✅ | 37.9 | 0.5783 | 13.02 |
TensorRT(FP16) | ✅ | 21.8 | 0.5779 | 6.93 |
TensorRT(INT8) | ✅ | 12.2 | 0.5735 | 5.08 |
TF SavedModel | ✅ | 91.0 | 0.5782 | 250.65 |
TF GraphDef | ✅ | 36.4 | 0.5782 | 252.69 |
TF Lite | ✅ | 36.3 | 0.5782 | 998.68 |
MNN | ✅ | 36.2 | 0.5781 | 188.01 |
NCNN | ✅ | 36.2 | 0.5784 | 101.37 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 38.8 | 0.6266 | 46.50 |
TorchScript | ✅ | 77.3 | 0.6307 | 47.95 |
ONNX | ✅ | 76.9 | 0.6307 | 53.06 |
OpenVINO | ✅ | 77.1 | 0.6284 | 301.63 |
TensorRT(FP32) | ✅ | 78.8 | 0.6305 | 27.86 |
TensorRT(FP16) | ✅ | 41.7 | 0.6309 | 13.50 |
TensorRT(INT8) | ✅ | 23.2 | 0.6291 | 9.12 |
TF SavedModel | ✅ | 192.7 | 0.6307 | 622.24 |
TF GraphDef | ✅ | 77.1 | 0.6307 | 628.74 |
TF Lite | ✅ | 77.0 | 0.6307 | 2997.93 |
MNN | ✅ | 76.8 | 0.6299 | 509.96 |
NCNN | ✅ | 76.8 | 0.6284 | 292.99 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 49.0 | 0.6364 | 56.50 |
TorchScript | ✅ | 97.6 | 0.6409 | 62.51 |
ONNX | ✅ | 97.0 | 0.6399 | 68.35 |
OpenVINO | ✅ | 97.3 | 0.6378 | 376.03 |
TensorRT(FP32) | ✅ | 99.2 | 0.6396 | 35.59 |
TensorRT(FP16) | ✅ | 52.1 | 0.6361 | 17.48 |
TensorRT(INT8) | ✅ | 30.9 | 0.6207 | 11.87 |
TF SavedModel | ✅ | 243.1 | 0.6409 | 807.47 |
TF GraphDef | ✅ | 97.2 | 0.6409 | 822.88 |
TF Lite | ✅ | 97.1 | 0.6409 | 3792.23 |
MNN | ✅ | 96.9 | 0.6372 | 631.16 |
NCNN | ✅ | 96.9 | 0.6364 | 350.46 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 109.3 | 0.7005 | 90.00 |
TorchScript | ✅ | 218.1 | 0.6901 | 113.40 |
ONNX | ✅ | 217.5 | 0.6901 | 122.94 |
OpenVINO | ✅ | 217.8 | 0.6876 | 713.1 |
TensorRT(FP32) | ✅ | 219.5 | 0.6904 | 66.93 |
TensorRT(FP16) | ✅ | 112.2 | 0.6892 | 32.58 |
TensorRT(INT8) | ✅ | 61.5 | 0.6612 | 19.90 |
TF SavedModel | ✅ | 544.3 | 0.6900 | 1605.4 |
TF GraphDef | ✅ | 217.8 | 0.6900 | 2961.8 |
TF Lite | ✅ | 217.6 | 0.6900 | 8234.86 |
MNN | ✅ | 217.3 | 0.6893 | 1254.18 |
NCNN | ✅ | 217.3 | 0.6849 | 725.50 |
Ultralytics 8.3.157でベンチマークを実施
注
推論時間には、プリ/ポスト処理は含まれていません。
NVIDIA Jetson Orin NX 16GB
パフォーマンス
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 5.4 | 0.5101 | 12.90 |
TorchScript | ✅ | 10.5 | 0.5082 | 13.17 |
ONNX | ✅ | 10.2 | 0.5081 | 15.43 |
OpenVINO | ✅ | 10.4 | 0.5058 | 39.80 |
TensorRT(FP32) | ✅ | 11.8 | 0.5081 | 7.94 |
TensorRT(FP16) | ✅ | 8.1 | 0.5085 | 4.73 |
TensorRT(INT8) | ✅ | 5.4 | 0.4786 | 3.90 |
TF SavedModel | ✅ | 25.9 | 0.5077 | 88.48 |
TF GraphDef | ✅ | 10.3 | 0.5077 | 86.67 |
TF Lite | ✅ | 10.3 | 0.5077 | 302.55 |
MNN | ✅ | 10.1 | 0.5059 | 52.73 |
NCNN | ✅ | 10.2 | 0.5031 | 32.04 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 18.4 | 0.5790 | 21.70 |
TorchScript | ✅ | 36.5 | 0.5781 | 22.71 |
ONNX | ✅ | 36.3 | 0.5781 | 26.49 |
OpenVINO | ✅ | 36.4 | 0.5810 | 84.73 |
TensorRT(FP32) | ✅ | 37.8 | 0.5783 | 13.77 |
TensorRT(FP16) | ✅ | 21.2 | 0.5796 | 7.31 |
TensorRT(INT8) | ✅ | 12.0 | 0.5735 | 5.33 |
TF SavedModel | ✅ | 91.0 | 0.5782 | 185.06 |
TF GraphDef | ✅ | 36.4 | 0.5782 | 186.45 |
TF Lite | ✅ | 36.3 | 0.5782 | 882.58 |
MNN | ✅ | 36.2 | 0.5775 | 126.36 |
NCNN | ✅ | 36.2 | 0.5784 | 66.73 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 38.8 | 0.6266 | 45.00 |
TorchScript | ✅ | 77.3 | 0.6307 | 51.87 |
ONNX | ✅ | 76.9 | 0.6307 | 56.00 |
OpenVINO | ✅ | 77.1 | 0.6284 | 202.69 |
TensorRT(FP32) | ✅ | 78.7 | 0.6305 | 30.38 |
TensorRT(FP16) | ✅ | 41.8 | 0.6302 | 14.48 |
TensorRT(INT8) | ✅ | 23.2 | 0.6291 | 9.74 |
TF SavedModel | ✅ | 192.7 | 0.6307 | 445.58 |
TF GraphDef | ✅ | 77.1 | 0.6307 | 460.94 |
TF Lite | ✅ | 77.0 | 0.6307 | 2653.65 |
MNN | ✅ | 76.8 | 0.6308 | 339.38 |
NCNN | ✅ | 76.8 | 0.6284 | 187.64 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 49.0 | 0.6364 | 56.60 |
TorchScript | ✅ | 97.6 | 0.6409 | 66.72 |
ONNX | ✅ | 97.0 | 0.6399 | 71.92 |
OpenVINO | ✅ | 97.3 | 0.6378 | 254.17 |
TensorRT(FP32) | ✅ | 99.2 | 0.6406 | 38.89 |
TensorRT(FP16) | ✅ | 51.9 | 0.6363 | 18.59 |
TensorRT(INT8) | ✅ | 30.9 | 0.6207 | 12.60 |
TF SavedModel | ✅ | 243.1 | 0.6409 | 575.98 |
TF GraphDef | ✅ | 97.2 | 0.6409 | 583.79 |
TF Lite | ✅ | 97.1 | 0.6409 | 3353.41 |
MNN | ✅ | 96.9 | 0.6367 | 421.33 |
NCNN | ✅ | 96.9 | 0.6364 | 228.26 |
形式 | ステータス | ディスク上のサイズ(MB) | mAP50-95(B) | 推論時間 (ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 109.3 | 0.7005 | 98.50 |
TorchScript | ✅ | 218.1 | 0.6901 | 123.03 |
ONNX | ✅ | 217.5 | 0.6901 | 129.55 |
OpenVINO | ✅ | 217.8 | 0.6876 | 483.44 |
TensorRT(FP32) | ✅ | 219.6 | 0.6904 | 75.92 |
TensorRT(FP16) | ✅ | 112.1 | 0.6885 | 35.78 |
TensorRT(INT8) | ✅ | 61.6 | 0.6592 | 21.60 |
TF SavedModel | ✅ | 544.3 | 0.6900 | 1120.43 |
TF GraphDef | ✅ | 217.7 | 0.6900 | 1172.35 |
TF Lite | ✅ | 217.6 | 0.6900 | 7283.63 |
MNN | ✅ | 217.3 | 0.6877 | 840.16 |
NCNN | ✅ | 217.3 | 0.6849 | 474.41 |
Ultralytics 8.3.157でベンチマークを実施
注
推論時間には、プリ/ポスト処理は含まれていません。
Seeed Studioによるベンチマークの取り組みの詳細はこちらをご覧ください。さまざまなバージョンのNVIDIA Jetsonハードウェアで実行されています。
結果の再現
上記Ultralyticsのベンチマークをすべてのエクスポート形式で再現するには、次のコードを実行します:
例
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640
ベンチマークの結果は、システムの正確なハードウェアおよびソフトウェア構成、ベンチマーク実行時のシステムの現在のワークロードによって異なる可能性があることに注意してください。最も信頼性の高い結果を得るには、多数の画像を含むデータセット(例:)を使用してください。 data='coco.yaml'
(5000の検証画像)。
NVIDIA Jetson 使用時のベストプラクティス
NVIDIA Jetsonを使用する場合、YOLO11を実行しているNVIDIA Jetsonで最大のパフォーマンスを有効にするために従うべきいくつかのベストプラクティスがあります。
-
最大電力モードを有効にする
Jetsonで最大電力モードを有効にすると、すべてのCPU、GPUコアがオンになります。
sudo nvpmodel -m 0
-
Jetsonクロックを有効にする
Jetsonクロックを有効にすると、すべてのCPU、GPUコアが最大周波数でクロックされるようになります。
sudo jetson_clocks
-
Jetson Statsアプリケーションのインストール
jetson statsアプリケーションを使用して、システムコンポーネントの温度を監視し、CPU、GPU、RAMの使用率の表示、電力モードの変更、最大クロックの設定、JetPack情報などの他のシステム詳細を確認できます。
sudo apt update sudo pip install jetson-stats sudo reboot jtop
次のステップ
NVIDIA JetsonへのYOLO11のセットアップが完了しました。おめでとうございます!更なる学習とサポートについては、Ultralytics YOLO11 Docsでガイドをご覧ください。
よくある質問
NVIDIA JetsonデバイスにUltralytics YOLO11をデプロイするにはどうすればよいですか?
Ultralytics YOLO11 を NVIDIA Jetson デバイスにデプロイするのは簡単なプロセスです。まず、Jetson デバイスを NVIDIA JetPack SDK でフラッシュします。次に、すぐにセットアップできる構築済みの Docker イメージを使用するか、必要なパッケージを手動でインストールします。各アプローチの詳細な手順は、Docker でクイックスタート および ネイティブインストールで開始 のセクションにあります。
NVIDIA Jetson デバイス上の YOLO11 モデルから、どのような性能ベンチマークが期待できますか?
YOLO11モデルは、さまざまなNVIDIA Jetsonデバイスでベンチマークされており、パフォーマンスが大幅に向上しています。たとえば、TensorRT形式は最高の推論パフォーマンスを提供します。詳細比較表セクションの表には、さまざまなモデル形式でのmAP50-95や推論時間などのパフォーマンス指標の包括的なビューが示されています。
NVIDIA JetsonにYOLO11をデプロイするためにTensorRTを使用すべきなのはなぜですか?
TensorRTは、最適なパフォーマンスを実現するため、NVIDIA JetsonでYOLO11モデルをデプロイする際に強く推奨されます。JetsonのGPU機能を活用して推論を高速化し、効率と速度を最大化します。TensorRTへの変換方法と推論の実行方法の詳細については、NVIDIA JetsonでのTensorRTの使用セクションを参照してください。
NVIDIA JetsonにPyTorchとTorchvisionをインストールするにはどうすればよいですか?
NVIDIA JetsonにPyTorchとTorchvisionをインストールするには、まずpipでインストールされている既存のバージョンをアンインストールします。次に、JetsonのARM64アーキテクチャと互換性のあるPyTorchおよびTorchvisionバージョンを手動でインストールします。このプロセスの詳細な手順は、PyTorchとTorchvisionのインストールセクションに記載されています。
YOLO11を使用する際に、NVIDIA Jetsonでのパフォーマンスを最大化するためのベストプラクティスは何ですか?
YOLO11でNVIDIA Jetsonのパフォーマンスを最大化するには、次のベストプラクティスに従ってください:
- 最大電力モードを有効にして、すべてのCPUおよびGPUコアを利用します。
- Jetsonクロックを有効にして、すべてのコアを最大周波数で実行します。
- システムメトリクスを監視するために、Jetson Statsアプリケーションをインストールします。
コマンドと詳細については、NVIDIA Jetson使用時のベストプラクティスセクションを参照してください。