クイックスタートガイドNVIDIA Jetson withUltralytics YOLO11
この包括的なガイドでは、NVIDIA Jetson デバイス上にUltralytics YOLO11 をデプロイするための詳細なウォークスルーを提供します。さらに、これらの小型で強力なデバイス上のYOLO11 の機能を実証するために、性能ベンチマークを紹介しています。
新製品サポート
本ガイドは、最新のNVIDIA JetsonOrin Nano Super Developer Kitで更新されました。このキットは、最大67TOPSのAI性能を実現し、前モデルの1.7倍に向上しており、最も人気のあるAIモデルをシームレスに実行することができます。
見るんだ: NVIDIA JETSONデバイスでUltralytics YOLO11 使用する方法
注
このガイドは、最新の安定版 JetPack リリースJP6.2 を実行するNVIDIA Jetson AGX Orin Developer Kit (64GB)、JetPack リリースJP6.1 を実行するNVIDIA Jetson Orin Nano Super Developer Kitでテストされています。1、JetPackリリースJP6.0/JetPackリリースJP5.1.3を実行するNVIDIA Jetson Orin NX 16GBをベースとするSeeed Studio reComputer J4012、JetPackリリースJP4.6.1を実行するNVIDIA Jetson Nano 4GBをベースとするSeeed Studio reComputer J1020 v2。最新およびレガシーを含むすべてのNVIDIA Jetsonハードウェアラインアップで動作することが期待されます。
NVIDIA ジェットソンとは?
NVIDIA Jetsonは、エッジデバイスにAI(人工知能)コンピューティングの高速化をもたらすよう設計された一連の組み込みコンピューティングボードである。これらのコンパクトで強力なデバイスは、NVIDIA のGPU アーキテクチャを中心に構築されており、クラウド・コンピューティング・リソースに依存することなく、デバイス上で複雑なAIアルゴリズムやディープラーニング・モデルを直接実行することができる。Jetsonボードは、ロボット工学、自律走行車、産業オートメーション、およびAI推論を低レイテンシかつ高効率でローカルに実行する必要があるその他のアプリケーションでよく使用される。さらに、これらのボードはARM64アーキテクチャをベースとしており、従来のGPU コンピューティング・デバイスと比較して低消費電力で動作する。
NVIDIA ジェットソンシリーズ比較
Jetson Orinは、NVIDIA Jetsonファミリーの最新版で、NVIDIA Ampereアーキテクチャをベースとしており、前世代と比較してAI性能が飛躍的に向上している。下の表は、エコシステム内のJetsonデバイスのいくつかを比較したものである。
Jetson AGX Orin 64GB | Jetson Orin NX 16GB | ジェットソン・オリン・ナノ・スーパー | ジェットソンAGXザビエル | ジェットソン・ザビエルNX | ジェットソン・ナノ | |
---|---|---|---|---|---|---|
AIパフォーマンス | 275 TOPS | 100 TOPS | 67のTOP | 32 TOPS | 21 トップス | 472 GFLOPS |
GPU | 2048 コアNVIDIA アンペア・アーキテクチャGPU 64Tensor コア搭載 | 1024コアNVIDIA AmpereアーキテクチャGPU 32Tensor コア搭載 | 1024コアNVIDIA AmpereアーキテクチャGPU 32Tensor コア搭載 | 512コアNVIDIA VoltaアーキテクチャGPU 64Tensor コア搭載 | 384 コアNVIDIA Volta™ アーキテクチャGPU 48Tensor コア搭載 | 128コアNVIDIA Maxwell™アーキテクチャGPU |
GPU 最大周波数 | 1.3 GHz | 918 MHz | 1020 MHz | 1377MHz | 1100 MHz | 921MHz |
CPU | 12コアNVIDIA Arm® Cortex A78AE v8.2 64ビットCPU 3MB L2 + 6MB L3 | 8コアNVIDIA Arm® Cortex A78AE v8.2 64ビットCPU 2MB L2 + 4MB L3 | 6コア Arm® Cortex®-A78AE v8.2 64ビットCPU 1.5MB L2 + 4MB L3 | 8コアNVIDIA Carmel Arm®v8.2 64ビットCPU 8MB L2 + 4MB L3 | 6コアNVIDIA Carmel Arm®v8.2 64ビットCPU 6MB L2 + 4MB L3 | クアッドコアArm® Cortex®-A57 MPCoreプロセッサ |
CPU 最大周波数 | 2.2 GHz | 2.0 GHz | 1.7 GHz | 2.2 GHz | 1.9 GHz | 1.43GHz |
メモリー | 64GB 256ビット LPDDR5 204.8GB/秒 | 16GB 128ビット LPDDR5 102.4GB/秒 | 8GB 128ビット LPDDR5 102GB/秒 | 32GB 256ビット LPDDR4x 136.5GB/秒 | 8GB 128ビット LPDDR4x 59.7GB/秒 | 4GB 64ビット LPDDR4 25.6GB/秒" |
より詳細な比較表については、 NVIDIA Jetson公式ページの 技術仕様セクションをご覧ください。
NVIDIA JetPackとは?
Jetsonモジュールを駆動するNVIDIA JetPack SDKは、最も包括的なソリューションであり、エンドツーエンドの高速化AIアプリケーションを構築するための完全な開発環境を提供し、市場投入までの時間を短縮します。JetPackには、ブートローダ、Linuxカーネル、Ubuntuデスクトップ環境を備えたJetson Linuxと、GPU コンピューティング、マルチメディア、グラフィックス、コンピュータビジョンの高速化のためのライブラリ一式が含まれています。また、ホスト・コンピュータと開発者キットの両方に対応したサンプル、ドキュメント、開発者ツールも含まれており、ストリーミング・ビデオ解析用のDeepStream、ロボット工学用のIsaac、会話AI用のRivaなど、より高度なSDKもサポートしています。
NVIDIA JetsonへのFlash JetPack
NVIDIA Jetsonデバイスを手に入れた後の最初のステップは、NVIDIA JetPackをデバイスにフラッシュすることです。NVIDIA Jetsonデバイスをフラッシュする方法はいくつかあります。
- Jetson Orin Nano Developer Kitのような公式NVIDIA 開発キットをお持ちの場合は、イメージをダウンロードし、デバイスを起動するためにJetPackでSDカードを準備することができます。
- 他のNVIDIA 開発キットをお持ちの場合は、SDK Managerを使用してJetPackをデバイスにフラッシュすることができます。
- Seeed Studio reComputer J4012 デバイスをお持ちの場合、JetPack を付属の SSD にフラッシュすることができ、Seeed Studio reComputer J1020 v2 デバイスをお持ちの場合、JetPack を eMMC/ SSD にフラッシュすることができます。
- NVIDIA Jetsonモジュールで駆動する他のサードパーティ製デバイスを所有している場合は、コマンドラインのフラッシュに従うことを推奨する。
注
上記の3および4の方法については、システムをフラッシュしてデバイスを起動した後、デバイスのターミナルで "sudo apt update && sudo apt installnvidia-jetpack -y "を入力して、必要な残りのJetPackコンポーネントをすべてインストールしてください。
Jetsonデバイスに基づくJetPackサポート
以下の表は、NVIDIA JetPack のバージョンが、NVIDIA Jetson デバイスによってサポートされていることを示しています。
ジェットパック4 | ジェットパック5 | ジェットパック6 | |
---|---|---|---|
ジェットソン・ナノ | ✅ | ❌ | ❌ |
ジェットソンTX2 | ✅ | ❌ | ❌ |
ジェットソン・ザビエルNX | ✅ | ✅ | ❌ |
ジェットソンAGXザビエル | ✅ | ✅ | ❌ |
ジェットソン AGX オーリン | ❌ | ✅ | ✅ |
ジェットソン・オリンNX | ❌ | ✅ | ✅ |
ジェットソン・オリン・ナノ | ❌ | ✅ | ✅ |
Dockerのクイック・スタート
NVIDIA Jetson 上でUltralytics YOLO11 を使い始める最速の方法は、Jetson 用にビルド済みの docker イメージを使って実行することです。上の表を参照し、所有している Jetson デバイスに応じて JetPack のバージョンを選択してください。
t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
これが終わったら、 NVIDIA JetsonでTensorRT 。
ネイティブ・インストールから始める
Dockerを使用しないネイティブ・インストールについては、以下の手順を参照してください。
JetPack 6.1での実行
Ultralytics パッケージのインストール
ここでは、Ultralytics パッケージを Jetson にインストールします。 PyTorchをインストールします。TensorRT は Jetson デバイスの性能を最大限に引き出せるようにするため、主にNVIDIA TensorRT の エクスポートに焦点を当てます。
-
パッケージリストの更新、pipのインストール、最新版へのアップグレード
sudo apt update sudo apt install python3-pip -y pip install -U pip
-
インストール
ultralytics
pip パッケージと依存関係のあるオプションpip install ultralytics[export]
-
デバイスを再起動する
sudo reboot
PyTorch とトーチビジョンのインストール
上記のultralytics をインストールすると、Torch と Torchvision がインストールされます。しかし、pip経由でインストールされたこれら2つのパッケージは、ARM64アーキテクチャをベースとするJetsonプラットフォーム上で動作する互換性がない。そのため、ビルド済みのPyTorch pip wheelを手動でインストールし、ソースからTorchvisionをコンパイル/インストールする必要がある。
インストール torch 2.5.0
そして torchvision 0.20
JP6.1による
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl
注
PyTorch for Jetsonのページで、異なるJetPackのバージョンに対応したPyTorch 。PyTorch, Torchvisionの互換性についての詳細なリストは、PyTorch and Torchvision compatibilityページをご覧ください。
インストール cuSPARSELt
との依存関係の問題を修正した。 torch 2.5.0
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev
インストール onnxruntime-gpu
について オンヌクスランタイムgpu PyPIでホストされているパッケージには aarch64
バイナリをインストールする必要がある。そのため、このパッケージを手動でインストールする必要がある。このパッケージはいくつかのエクスポートに必要です。
利用可能なすべての onnxruntime-gpu
パッケージは、JetPack のバージョン、Python バージョン、その他の互換性の詳細によって整理されています。 Jetson ZooONNX ランタイム互換性マトリックス.ここでは、以下をダウンロードしてインストールします。 onnxruntime-gpu 1.20.0
と Python3.10
をサポートしている。
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl
注
onnxruntime-gpu
は自動的にnumpyのバージョンを最新に戻します。そのため、numpyを再インストールする必要があります。 1.23.5
を実行して問題を解決する:
pip install numpy==1.23.5
JetPack 5.1.2での実行
Ultralytics パッケージのインストール
ここでは、Ultralytics パッケージを Jetson にインストールし、PyTorch モデルを他の異なるフォーマットにエクスポートできるように、オプションの依存関係を設定します。TensorRT はJetsonデバイスの性能を最大限に引き出せるようにするため、主にNVIDIA TensorRT の エクスポートに焦点を当てます。
-
パッケージリストの更新、pipのインストール、最新版へのアップグレード
sudo apt update sudo apt install python3-pip -y pip install -U pip
-
インストール
ultralytics
pip パッケージと依存関係のあるオプションpip install ultralytics[export]
-
デバイスを再起動する
sudo reboot
PyTorch とトーチビジョンのインストール
上記のultralytics をインストールすると、Torch と Torchvision がインストールされます。しかし、pip経由でインストールされたこれら2つのパッケージは、ARM64アーキテクチャをベースとするJetsonプラットフォーム上で動作する互換性がない。そのため、ビルド済みのPyTorch pip wheelを手動でインストールし、ソースからTorchvisionをコンパイル/インストールする必要がある。
-
現在インストールされているPyTorch と Torchvision をアンインストールする。
pip uninstall torch torchvision
-
インストール
torch 2.2.0
そしてtorchvision 0.17.2
JP5.1.2によるpip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl
注
PyTorch for Jetsonのページで、異なるJetPackのバージョンに対応したPyTorch 。PyTorch, Torchvisionの互換性についての詳細なリストは、PyTorch and Torchvision compatibilityページをご覧ください。
インストール onnxruntime-gpu
について オンヌクスランタイムgpu PyPIでホストされているパッケージには aarch64
バイナリをインストールする必要がある。そのため、このパッケージを手動でインストールする必要がある。このパッケージはいくつかのエクスポートに必要です。
利用可能なすべての onnxruntime-gpu
パッケージは、JetPack のバージョン、Python バージョン、その他の互換性の詳細によって整理されています。 Jetson ZooONNX ランタイム互換性マトリックス.ここでは、以下をダウンロードしてインストールします。 onnxruntime-gpu 1.17.0
と Python3.8
をサポートしている。
wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
注
onnxruntime-gpu
は自動的にnumpyのバージョンを最新に戻します。そのため、numpyを再インストールする必要があります。 1.23.5
を実行して問題を解決する:
pip install numpy==1.23.5
NVIDIA JetsonでTensorRT 。
Ultralyticsサポートするすべてのモデルエクスポートフォーマットの中で、TensorRT NVIDIA Jetsonデバイス上で最高の推論パフォーマンスを提供します。セットアップ手順と高度な使用方法については、専用のTensorRT 統合ガイドを参照してください。
モデルをTensorRT に変換し、推論を実行する。
PyTorch 形式のYOLO11nモデルは、エクスポートされたモデルで推論を実行するためにTensorRT 。
例
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Export the model to TensorRT
model.export(format="engine") # creates 'yolo11n.engine'
# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'
# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'
注
モデルを異なるモデル形式にエクスポートする際の追加引数については、エクスポートページをご覧ください。
NVIDIA ディープラーニングアクセラレータ(DLA)を使用する。
NVIDIA ディープラーニング・アクセラレータ(DLA)は、NVIDIA Jetsonデバイスに組み込まれた専用ハードウェア・コンポーネントで、エネルギー効率とパフォーマンスのためにディープラーニング推論を最適化する。DLAは、GPU からタスクをオフロードする(より集中的な処理のために解放する)ことで、組み込みシステムやリアルタイムAIアプリケーションに理想的な高いスループットを維持しながら、低消費電力でモデルを実行することを可能にします。
以下のJetsonデバイスはDLAハードウェアを搭載しています:
ジェットソン・デバイス | DLAコア | DLA 最大周波数 |
---|---|---|
ジェットソンAGXオリンシリーズ | 2 | 1.6 GHz |
Jetson Orin NX 16GB | 2 | 614 MHz |
Jetson Orin NX 8GB | 1 | 614 MHz |
ジェットソン AGX ザビエル・シリーズ | 2 | 1.4 GHz |
ジェットソン・ザビエルNXシリーズ | 2 | 1.1 GHz |
例
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True) # dla:0 or dla:1 corresponds to the DLA cores
# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores
# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'
注
DLAエクスポートを使用する場合、一部のレイヤーはDLA上での実行がサポートされず、実行のためにGPU 。このフォールバックは、追加の待ち時間を発生させ、全体的な推論パフォーマンスに影響を与える可能性があります。したがって、DLA は、GPU 上で完全に実行されるTensorRT と比較して、推論の待ち時間を短縮することを主目的として設計されていません。その代わり、スループットを向上させ、エネルギー効率を改善することを主な目的としています。
NVIDIA Jetson OrinYOLO11 ベンチマーク
YOLO11 ベンチマークは、Ultralytics チームによって、スピードと精度を測定する10種類のモデルフォーマットで実行されました:PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN。ベンチマークは、NVIDIA Jetson AGX Orin Developer Kit (64GB)、NVIDIA Jetson Orin Nano Super Developer Kit、およびJetson Orin NX 16GBデバイスを搭載したSeeed Studio reComputer J4012で、FP32の精度で、デフォルトの入力画像サイズ640で実行しました。
比較チャート
すべての輸出モデルがNVIDIA Jetsonで動作しているにもかかわらず、以下の比較表にはPyTorch 、 TorchScript 、 TensorRT のみを掲載しました。なぜなら、これらはJetsonのGPU を利用しており、最良の結果が得られることが保証されているからです。他のすべてのエクスポートはCPU を利用するだけであり、パフォーマンスは上記の3つほど良くありません。このグラフの後のセクションで、すべてのエクスポートのベンチマークを見ることができます。
NVIDIA Jetson AGX Orinデベロッパーキット (64GB)

NVIDIA Jetson Orin Nanoスーパー現像キット

NVIDIA Jetson Orin NX 16GB

詳細比較表
下の表は、5つの異なるモデル(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)の10種類のフォーマットPyTorch,TorchScript,ONNX,OpenVINO,TensorRT,TF SavedModel,TF GraphDef,TF Lite, MNN,NCNN)に対するベンチマーク結果であり、各組み合わせのステータス、サイズ、mAP50-95(B)メトリック、推論時間を示しています。
NVIDIA Jetson AGX Orinデベロッパーキット (64GB)
パフォーマンス
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 5.4 | 0.5101 | 9.40 |
TorchScript | ✅ | 10.5 | 0.5083 | 11.00 |
ONNX | ✅ | 10.2 | 0.5077 | 48.32 |
OpenVINO | ✅ | 10.4 | 0.5058 | 27.24 |
TensorRT (FP32) | ✅ | 12.1 | 0.5085 | 3.93 |
TensorRT (FP16) | ✅ | 8.3 | 0.5063 | 2.55 |
TensorRT (INT8) | ✅ | 5.4 | 0.4719 | 2.18 |
TF SavedModel | ✅ | 25.9 | 0.5077 | 66.87 |
TF GraphDef | ✅ | 10.3 | 0.5077 | 65.68 |
TF ライト | ✅ | 10.3 | 0.5077 | 272.92 |
MNN | ✅ | 10.1 | 0.5059 | 36.33 |
NCNN | ✅ | 10.2 | 0.5031 | 28.51 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 18.4 | 0.5783 | 12.10 |
TorchScript | ✅ | 36.5 | 0.5782 | 11.01 |
ONNX | ✅ | 36.3 | 0.5782 | 107.54 |
OpenVINO | ✅ | 36.4 | 0.5810 | 55.03 |
TensorRT (FP32) | ✅ | 38.1 | 0.5781 | 6.52 |
TensorRT (FP16) | ✅ | 21.4 | 0.5803 | 3.65 |
TensorRT (INT8) | ✅ | 12.1 | 0.5735 | 2.81 |
TF SavedModel | ✅ | 91.0 | 0.5782 | 132.73 |
TF GraphDef | ✅ | 36.4 | 0.5782 | 134.96 |
TF ライト | ✅ | 36.3 | 0.5782 | 798.21 |
MNN | ✅ | 36.2 | 0.5777 | 82.35 |
NCNN | ✅ | 36.2 | 0.5784 | 56.07 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 38.8 | 0.6265 | 22.20 |
TorchScript | ✅ | 77.3 | 0.6307 | 21.47 |
ONNX | ✅ | 76.9 | 0.6307 | 270.89 |
OpenVINO | ✅ | 77.1 | 0.6284 | 129.10 |
TensorRT (FP32) | ✅ | 78.8 | 0.6306 | 12.53 |
TensorRT (FP16) | ✅ | 41.9 | 0.6305 | 6.25 |
TensorRT (INT8) | ✅ | 23.2 | 0.6291 | 4.69 |
TF SavedModel | ✅ | 192.7 | 0.6307 | 299.95 |
TF GraphDef | ✅ | 77.1 | 0.6307 | 310.58 |
TF ライト | ✅ | 77.0 | 0.6307 | 2400.54 |
MNN | ✅ | 76.8 | 0.6308 | 213.56 |
NCNN | ✅ | 76.8 | 0.6284 | 141.18 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 49.0 | 0.6364 | 27.70 |
TorchScript | ✅ | 97.6 | 0.6399 | 27.94 |
ONNX | ✅ | 97.0 | 0.6409 | 345.47 |
OpenVINO | ✅ | 97.3 | 0.6378 | 161.93 |
TensorRT (FP32) | ✅ | 99.1 | 0.6406 | 16.11 |
TensorRT (FP16) | ✅ | 52.6 | 0.6376 | 8.08 |
TensorRT (INT8) | ✅ | 30.8 | 0.6208 | 6.12 |
TF SavedModel | ✅ | 243.1 | 0.6409 | 390.78 |
TF GraphDef | ✅ | 97.2 | 0.6409 | 398.76 |
TF ライト | ✅ | 97.1 | 0.6409 | 3037.05 |
MNN | ✅ | 96.9 | 0.6372 | 265.46 |
NCNN | ✅ | 96.9 | 0.6364 | 179.68 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 109.3 | 0.7005 | 44.40 |
TorchScript | ✅ | 218.1 | 0.6898 | 47.49 |
ONNX | ✅ | 217.5 | 0.6900 | 682.98 |
OpenVINO | ✅ | 217.8 | 0.6876 | 298.15 |
TensorRT (FP32) | ✅ | 219.6 | 0.6904 | 28.50 |
TensorRT (FP16) | ✅ | 112.2 | 0.6887 | 13.55 |
TensorRT (INT8) | ✅ | 60.0 | 0.6574 | 9.40 |
TF SavedModel | ✅ | 544.3 | 0.6900 | 749.85 |
TF GraphDef | ✅ | 217.7 | 0.6900 | 753.86 |
TF ライト | ✅ | 217.6 | 0.6900 | 6603.27 |
MNN | ✅ | 217.3 | 0.6868 | 519.77 |
NCNN | ✅ | 217.3 | 0.6849 | 298.58 |
Ultralytics 8.3.157によるベンチマーク
注
推論時間には前処理・後処理は含まれない。
NVIDIA Jetson Orin Nanoスーパー現像キット
パフォーマンス
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 5.4 | 0.5101 | 13.70 |
TorchScript | ✅ | 10.5 | 0.5082 | 13.69 |
ONNX | ✅ | 10.2 | 0.5081 | 14.47 |
OpenVINO | ✅ | 10.4 | 0.5058 | 56.66 |
TensorRT (FP32) | ✅ | 12.0 | 0.5081 | 7.44 |
TensorRT (FP16) | ✅ | 8.2 | 0.5061 | 4.53 |
TensorRT (INT8) | ✅ | 5.4 | 0.4825 | 3.70 |
TF SavedModel | ✅ | 25.9 | 0.5077 | 116.23 |
TF GraphDef | ✅ | 10.3 | 0.5077 | 114.92 |
TF ライト | ✅ | 10.3 | 0.5077 | 340.75 |
MNN | ✅ | 10.1 | 0.5059 | 76.26 |
NCNN | ✅ | 10.2 | 0.5031 | 45.03 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 18.4 | 0.5790 | 20.90 |
TorchScript | ✅ | 36.5 | 0.5781 | 21.22 |
ONNX | ✅ | 36.3 | 0.5781 | 25.07 |
OpenVINO | ✅ | 36.4 | 0.5810 | 122.98 |
TensorRT (FP32) | ✅ | 37.9 | 0.5783 | 13.02 |
TensorRT (FP16) | ✅ | 21.8 | 0.5779 | 6.93 |
TensorRT (INT8) | ✅ | 12.2 | 0.5735 | 5.08 |
TF SavedModel | ✅ | 91.0 | 0.5782 | 250.65 |
TF GraphDef | ✅ | 36.4 | 0.5782 | 252.69 |
TF ライト | ✅ | 36.3 | 0.5782 | 998.68 |
MNN | ✅ | 36.2 | 0.5781 | 188.01 |
NCNN | ✅ | 36.2 | 0.5784 | 101.37 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 38.8 | 0.6266 | 46.50 |
TorchScript | ✅ | 77.3 | 0.6307 | 47.95 |
ONNX | ✅ | 76.9 | 0.6307 | 53.06 |
OpenVINO | ✅ | 77.1 | 0.6284 | 301.63 |
TensorRT (FP32) | ✅ | 78.8 | 0.6305 | 27.86 |
TensorRT (FP16) | ✅ | 41.7 | 0.6309 | 13.50 |
TensorRT (INT8) | ✅ | 23.2 | 0.6291 | 9.12 |
TF SavedModel | ✅ | 192.7 | 0.6307 | 622.24 |
TF GraphDef | ✅ | 77.1 | 0.6307 | 628.74 |
TF ライト | ✅ | 77.0 | 0.6307 | 2997.93 |
MNN | ✅ | 76.8 | 0.6299 | 509.96 |
NCNN | ✅ | 76.8 | 0.6284 | 292.99 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 49.0 | 0.6364 | 56.50 |
TorchScript | ✅ | 97.6 | 0.6409 | 62.51 |
ONNX | ✅ | 97.0 | 0.6399 | 68.35 |
OpenVINO | ✅ | 97.3 | 0.6378 | 376.03 |
TensorRT (FP32) | ✅ | 99.2 | 0.6396 | 35.59 |
TensorRT (FP16) | ✅ | 52.1 | 0.6361 | 17.48 |
TensorRT (INT8) | ✅ | 30.9 | 0.6207 | 11.87 |
TF SavedModel | ✅ | 243.1 | 0.6409 | 807.47 |
TF GraphDef | ✅ | 97.2 | 0.6409 | 822.88 |
TF ライト | ✅ | 97.1 | 0.6409 | 3792.23 |
MNN | ✅ | 96.9 | 0.6372 | 631.16 |
NCNN | ✅ | 96.9 | 0.6364 | 350.46 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 109.3 | 0.7005 | 90.00 |
TorchScript | ✅ | 218.1 | 0.6901 | 113.40 |
ONNX | ✅ | 217.5 | 0.6901 | 122.94 |
OpenVINO | ✅ | 217.8 | 0.6876 | 713.1 |
TensorRT (FP32) | ✅ | 219.5 | 0.6904 | 66.93 |
TensorRT (FP16) | ✅ | 112.2 | 0.6892 | 32.58 |
TensorRT (INT8) | ✅ | 61.5 | 0.6612 | 19.90 |
TF SavedModel | ✅ | 544.3 | 0.6900 | 1605.4 |
TF GraphDef | ✅ | 217.8 | 0.6900 | 2961.8 |
TF ライト | ✅ | 217.6 | 0.6900 | 8234.86 |
MNN | ✅ | 217.3 | 0.6893 | 1254.18 |
NCNN | ✅ | 217.3 | 0.6849 | 725.50 |
Ultralytics 8.3.157によるベンチマーク
注
推論時間には前処理・後処理は含まれない。
NVIDIA Jetson Orin NX 16GB
パフォーマンス
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 5.4 | 0.5101 | 12.90 |
TorchScript | ✅ | 10.5 | 0.5082 | 13.17 |
ONNX | ✅ | 10.2 | 0.5081 | 15.43 |
OpenVINO | ✅ | 10.4 | 0.5058 | 39.80 |
TensorRT (FP32) | ✅ | 11.8 | 0.5081 | 7.94 |
TensorRT (FP16) | ✅ | 8.1 | 0.5085 | 4.73 |
TensorRT (INT8) | ✅ | 5.4 | 0.4786 | 3.90 |
TF SavedModel | ✅ | 25.9 | 0.5077 | 88.48 |
TF GraphDef | ✅ | 10.3 | 0.5077 | 86.67 |
TF ライト | ✅ | 10.3 | 0.5077 | 302.55 |
MNN | ✅ | 10.1 | 0.5059 | 52.73 |
NCNN | ✅ | 10.2 | 0.5031 | 32.04 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 18.4 | 0.5790 | 21.70 |
TorchScript | ✅ | 36.5 | 0.5781 | 22.71 |
ONNX | ✅ | 36.3 | 0.5781 | 26.49 |
OpenVINO | ✅ | 36.4 | 0.5810 | 84.73 |
TensorRT (FP32) | ✅ | 37.8 | 0.5783 | 13.77 |
TensorRT (FP16) | ✅ | 21.2 | 0.5796 | 7.31 |
TensorRT (INT8) | ✅ | 12.0 | 0.5735 | 5.33 |
TF SavedModel | ✅ | 91.0 | 0.5782 | 185.06 |
TF GraphDef | ✅ | 36.4 | 0.5782 | 186.45 |
TF ライト | ✅ | 36.3 | 0.5782 | 882.58 |
MNN | ✅ | 36.2 | 0.5775 | 126.36 |
NCNN | ✅ | 36.2 | 0.5784 | 66.73 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 38.8 | 0.6266 | 45.00 |
TorchScript | ✅ | 77.3 | 0.6307 | 51.87 |
ONNX | ✅ | 76.9 | 0.6307 | 56.00 |
OpenVINO | ✅ | 77.1 | 0.6284 | 202.69 |
TensorRT (FP32) | ✅ | 78.7 | 0.6305 | 30.38 |
TensorRT (FP16) | ✅ | 41.8 | 0.6302 | 14.48 |
TensorRT (INT8) | ✅ | 23.2 | 0.6291 | 9.74 |
TF SavedModel | ✅ | 192.7 | 0.6307 | 445.58 |
TF GraphDef | ✅ | 77.1 | 0.6307 | 460.94 |
TF ライト | ✅ | 77.0 | 0.6307 | 2653.65 |
MNN | ✅ | 76.8 | 0.6308 | 339.38 |
NCNN | ✅ | 76.8 | 0.6284 | 187.64 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 49.0 | 0.6364 | 56.60 |
TorchScript | ✅ | 97.6 | 0.6409 | 66.72 |
ONNX | ✅ | 97.0 | 0.6399 | 71.92 |
OpenVINO | ✅ | 97.3 | 0.6378 | 254.17 |
TensorRT (FP32) | ✅ | 99.2 | 0.6406 | 38.89 |
TensorRT (FP16) | ✅ | 51.9 | 0.6363 | 18.59 |
TensorRT (INT8) | ✅ | 30.9 | 0.6207 | 12.60 |
TF SavedModel | ✅ | 243.1 | 0.6409 | 575.98 |
TF GraphDef | ✅ | 97.2 | 0.6409 | 583.79 |
TF ライト | ✅ | 97.1 | 0.6409 | 3353.41 |
MNN | ✅ | 96.9 | 0.6367 | 421.33 |
NCNN | ✅ | 96.9 | 0.6364 | 228.26 |
フォーマット | ステータス | ディスク上のサイズ (MB) | mAP50-95(B) | 推論時間(ms/im) |
---|---|---|---|---|
PyTorch | ✅ | 109.3 | 0.7005 | 98.50 |
TorchScript | ✅ | 218.1 | 0.6901 | 123.03 |
ONNX | ✅ | 217.5 | 0.6901 | 129.55 |
OpenVINO | ✅ | 217.8 | 0.6876 | 483.44 |
TensorRT (FP32) | ✅ | 219.6 | 0.6904 | 75.92 |
TensorRT (FP16) | ✅ | 112.1 | 0.6885 | 35.78 |
TensorRT (INT8) | ✅ | 61.6 | 0.6592 | 21.60 |
TF SavedModel | ✅ | 544.3 | 0.6900 | 1120.43 |
TF GraphDef | ✅ | 217.7 | 0.6900 | 1172.35 |
TF ライト | ✅ | 217.6 | 0.6900 | 7283.63 |
MNN | ✅ | 217.3 | 0.6877 | 840.16 |
NCNN | ✅ | 217.3 | 0.6849 | 474.41 |
Ultralytics 8.3.157によるベンチマーク
注
推論時間には前処理・後処理は含まれない。
NVIDIA Jetsonハードウェアのさまざまなバージョンで実行されるSeeed Studioによる、より多くのベンチマークの取り組みをご覧ください。
結果を再現する
上記のUltralytics のベンチマークをすべてのエクスポートフォーマットで再現するには、以下のコードを実行してください:
例
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640
ベンチマークの結果は、システムの正確なハードウェアとソフトウェアの構成、およびベンチマークの実行時のシステムの現在の作業負荷によって異なる可能性があることに注意してください。最も信頼性の高い結果を得るには、画像数の多いデータセットを使用します。 data='coco.yaml'
(5000バル画像)。
NVIDIA Jetsonを使用する際のベストプラクティス
NVIDIA Jetson を使用する場合、YOLO11 を実行するNVIDIA Jetson で最大限のパフォーマンスを発揮するために、従うべきベストプラクティスがいくつかある。
-
MAXパワーモードを有効にする
JetsonでMAX Power Modeを有効にすると、すべてのCPU 、GPU コアがオンになります。
sudo nvpmodel -m 0
-
ジェットソン・クロックを有効にする
Jetson Clocksを有効にすると、すべてのCPU,GPU コアが最大周波数でクロックされるようになります。
sudo jetson_clocks
-
Jetson Statsアプリケーションのインストール
jetson statsアプリケーションを使用して、システムコンポーネントの温度を監視し、CPU 、GPU 、RAM使用率の表示、電源モードの変更、最大クロックへの設定、JetPack情報のチェックなど、その他のシステム詳細をチェックすることができます。
sudo apt update sudo pip install jetson-stats sudo reboot jtop
次のステップ
NVIDIA Jetson でYOLO11 のセットアップに成功し、おめでとうございます!さらなる学習とサポートについては、Ultralytics YOLO11 Docsのガイドをご覧ください!
よくあるご質問
NVIDIA Jetson デバイスにUltralytics YOLO11 をデプロイするには?
NVIDIA JetsonデバイスにUltralytics YOLO11 をデプロイするのは簡単なプロセスです。まず、NVIDIA JetPack SDKでJetsonデバイスをフラッシュする。次に、ビルド済みのDockerイメージを使用して素早くセットアップするか、必要なパッケージを手動でインストールします。各アプローチの詳細な手順は、「Dockerでクイック・スタート」と「ネイティブ・インストールでスタート」のセクションにあります。
NVIDIA Jetsonデバイス上のYOLO11 モデルから期待できるパフォーマンスベンチマークは?
YOLO11 モデルを様々なNVIDIA Jetsonデバイスでベンチマークしたところ、大幅な性能向上が見られた。例えば、TensorRT フォーマットは最高の推論性能を発揮します。詳細比較表」セクションの表では、さまざまなモデル・フォーマットにおけるmAP50-95や推論時間などのパフォーマンス指標を包括的に示しています。
NVIDIA JetsonにYOLO11 をデプロイするのに、なぜTensorRT を使う必要があるのですか?
TensorRT は、NVIDIA Jetson 上でYOLO11 モデルを展開する際に、その最適なパフォーマンスにより強く推奨されます。Jetson のGPU 機能を活用することで推論を加速し、最大限の効率とスピードを保証します。TensorRT に変換して推論を実行する方法については、 NVIDIA Jetson上でTensorRT を使用するセクションを参照してください。
NVIDIA JetsonにPyTorch 、Torchvisionをインストールするには?
NVIDIA JetsonにPyTorch 、Torchvisionをインストールするには、まずpip経由でインストールされた既存のバージョンをアンインストールしてください。次に、JetsonのARM64アーキテクチャに対応するPyTorch とTorchvisionのバージョンを手動でインストールします。このプロセスの詳細な手順は、 PyTorch と Torchvision のインストールのセクションに記載されています。
NVIDIA JetsonでYOLO11 、パフォーマンスを最大化するためのベストプラクティスは?
YOLO11 でNVIDIA Jetson のパフォーマンスを最大化するには、以下のベストプラクティスに従ってください:
- MAXパワーモードを有効にして、すべてのCPU 、GPU コアを利用する。
- Jetson Clocksを有効にして、すべてのコアを最大周波数で動作させる。
- システム・メトリクスを監視するためのJetson Statsアプリケーションをインストールします。
コマンドやその他の詳細については、 NVIDIA Jetsonを使用する際のベストプラクティスのセクションを参照してください。