Link to this sectionクイックスタートガイド: NVIDIA JetsonとUltralytics YOLO26#
この包括的なガイドでは、NVIDIA Jetsonデバイス上でUltralytics YOLO26を展開するための詳細な手順を説明します。さらに、これらの小型で強力なデバイスにおけるYOLO26の能力を実証するために、パフォーマンスベンチマークを紹介します。
本ガイドは、最大2070 FP4 TFLOPSのAI演算能力と128 GBのメモリを備え、40 Wから130 Wの間で電力を構成可能な最新のNVIDIA Jetson AGX Thor Developer Kitに対応して更新されました。NVIDIA Jetson AGX Orinと比較して7.5倍以上のAI演算能力を提供し、エネルギー効率を3.5倍向上させることで、最も人気のあるAIモデルをシームレスに実行できます。
Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices

This guide has been tested with NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) running the latest stable JetPack release of JP7.0, NVIDIA Jetson AGX Orin Developer Kit (64GB) running JetPack release of JP6.2, NVIDIA Jetson Orin Nano Super Developer Kit running JetPack release of JP6.1, Seeed Studio reComputer J4012 which is based on NVIDIA Jetson Orin NX 16GB running JetPack release of JP6.0/ JetPack release of JP5.1.3 and Seeed Studio reComputer J1020 v2 which is based on NVIDIA Jetson Nano 4GB running JetPack release of JP4.6.1. It is expected to work across all the NVIDIA Jetson hardware lineup, including the latest and legacy devices.
Link to this sectionNVIDIA Jetsonとは#
NVIDIA Jetson is a series of embedded computing boards designed to bring accelerated AI (artificial intelligence) computing to edge devices. These compact and powerful devices are built around NVIDIA's GPU architecture and can run complex AI algorithms and deep learning models directly on the device, without relying on cloud computing resources. Jetson boards are often used in robotics, autonomous vehicles, industrial automation, and other applications where AI inference needs to be performed locally with low latency and high efficiency. Additionally, these boards are based on the ARM64 architecture and run at lower power compared to traditional GPU computing devices.
Link to this sectionNVIDIA Jetsonシリーズの比較#
NVIDIA Jetson AGX Thorは、NVIDIA BlackwellアーキテクチャをベースとしたNVIDIA Jetsonファミリーの最新版であり、前世代と比較して劇的に向上したAIパフォーマンスを実現します。以下の表は、エコシステム内のいくつかのJetsonデバイスを比較したものです。
| Jetson AGX Thor(T5000) | Jetson AGX Orin 64GB | Jetson Orin NX 16GB | Jetson Orin Nano Super | Jetson AGX Xavier | Jetson Xavier NX | Jetson Nano | |
|---|---|---|---|---|---|---|---|
| AIパフォーマンス | 2070 TFLOPS | 275 TOPS | 100 TOPS | 67 TOPS | 32 TOPS | 21 TOPS | 472 GFLOPS |
| GPU | 96 Tensorコア搭載 2560コア NVIDIA BlackwellアーキテクチャGPU | 64 Tensorコア搭載 2048コア NVIDIA AmpereアーキテクチャGPU | 32 Tensorコア搭載 1024コア NVIDIA AmpereアーキテクチャGPU | 32 Tensorコア搭載 1024コア NVIDIA AmpereアーキテクチャGPU | 64 Tensorコア搭載 512コア NVIDIA VoltaアーキテクチャGPU | 48 Tensorコア搭載 384コア NVIDIA Volta™アーキテクチャGPU | 128コア NVIDIA Maxwell™アーキテクチャGPU |
| GPU最大周波数 | 1.57 GHz | 1.3 GHz | 918 MHz | 1020 MHz | 1377 MHz | 1100 MHz | 921MHz |
| CPU | 14コア Arm® Neoverse®-V3AE 64ビット CPU 1MB L2 + 16MB L3 | 12コア NVIDIA Arm® Cortex A78AE v8.2 64ビット CPU 3MB L2 + 6MB L3 | 8コア NVIDIA Arm® Cortex A78AE v8.2 64ビット CPU 2MB L2 + 4MB L3 | 6コア Arm® Cortex®-A78AE v8.2 64ビット CPU 1.5MB L2 + 4MB L3 | 8コア NVIDIA Carmel Arm®v8.2 64ビット CPU 8MB L2 + 4MB L3 | 6コア NVIDIA Carmel Arm®v8.2 64ビット CPU 6MB L2 + 4MB L3 | クアッドコア Arm® Cortex®-A57 MPCoreプロセッサ |
| CPU最大周波数 | 2.6 GHz | 2.2 GHz | 2.0 GHz | 1.7 GHz | 2.2 GHz | 1.9 GHz | 1.43GHz |
| メモリ | 128GB 256ビット LPDDR5X 273GB/s | 64GB 256ビット LPDDR5 204.8GB/s | 16GB 128ビット LPDDR5 102.4GB/s | 8GB 128ビット LPDDR5 102 GB/s | 32GB 256ビット LPDDR4x 136.5GB/s | 8GB 128ビット LPDDR4x 59.7GB/s | 4GB 64ビット LPDDR4 25.6GB/s |
より詳細な比較表については、NVIDIA Jetson公式サイトの「仕様の比較 (Compare Specifications)」セクションをご覧ください。
Link to this sectionNVIDIA JetPackとは#
Jetsonモジュールを駆動するNVIDIA JetPack SDKは、最も包括的なソリューションであり、エンドツーエンドのアクセラレーテッドAIアプリケーションを構築するための完全な開発環境を提供し、市場投入までの時間を短縮します。JetPackには、ブートローダー、Linuxカーネル、Ubuntuデスクトップ環境を含むJetson Linuxと、GPUコンピューティング、マルチメディア、グラフィックス、およびコンピュータビジョンを高速化するための完全なライブラリセットが含まれています。また、ホストコンピュータと開発キットの両方にサンプル、ドキュメント、開発者向けツールが含まれており、ストリーミング動画解析用のDeepStream、ロボティクス用のIsaac、会話型AI用のRivaなどの上位SDKもサポートしています。
Link to this sectionJetPackをNVIDIA Jetsonにフラッシュする#
NVIDIA Jetsonデバイスを入手した後の最初のステップは、NVIDIA JetPackをデバイスにフラッシュすることです。NVIDIA Jetsonデバイスをフラッシュするには、いくつかの異なる方法があります。
- Jetson AGX Thor Developer Kitのような公式のNVIDIA開発キットをお持ちの場合は、イメージをダウンロードして、同梱されているSSDにJetPackをフラッシュするための起動可能なUSBスティックを準備できます。
- Jetson Orin Nano Developer Kitのような公式のNVIDIA開発キットをお持ちの場合は、イメージをダウンロードして、デバイスを起動するためのJetPack入りSDカードを準備できます。
- その他のNVIDIA開発キットをお持ちの場合は、SDK Managerを使用してデバイスにJetPackをフラッシュできます。
- Seeed Studio reComputer J4012デバイスをお持ちの場合は、同梱されているSSDにJetPackをフラッシュでき、Seeed Studio reComputer J1020 v2デバイスをお持ちの場合は、eMMC/SSDにJetPackをフラッシュできます。
- NVIDIA Jetsonモジュールを搭載したその他のサードパーティデバイスをお持ちの場合は、コマンドラインでのフラッシュを実行することをお勧めします。
上記のメソッド1、4、および5の場合、システムをフラッシュしてデバイスを起動した後、デバイスのターミナルで「sudo apt update && sudo apt install nvidia-jetpack -y」を入力し、必要な残りのJetPackコンポーネントすべてをインストールしてください。
Link to this sectionJetsonデバイス別のJetPackサポート#
下の表は、異なるNVIDIA JetsonデバイスでサポートされているNVIDIA JetPackバージョンを強調しています。
| JetPack 4 | JetPack 5 | JetPack 6 | JetPack 7 | |
|---|---|---|---|---|
| Jetson Nano | ✅ | ❌ | ❌ | ❌ |
| Jetson TX2 | ✅ | ❌ | ❌ | ❌ |
| Jetson Xavier NX | ✅ | ✅ | ❌ | ❌ |
| Jetson AGX Xavier | ✅ | ✅ | ❌ | ❌ |
| Jetson AGX Orin | ❌ | ✅ | ✅ | ❌ |
| Jetson Orin NX | ❌ | ✅ | ✅ | ❌ |
| Jetson Orin Nano | ❌ | ✅ | ✅ | ❌ |
| Jetson AGX Thor | ❌ | ❌ | ❌ | ✅ |
Link to this sectionDockerでのクイックスタート#
NVIDIA JetsonでUltralytics YOLO26を使い始める最も速い方法は、Jetson用ビルド済みDockerイメージを実行することです。上記の表を参照し、お使いのJetsonデバイスに合わせてJetPackバージョンを選択してください。
t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t完了したら、NVIDIA JetsonでTensorRTを使用するセクションに進んでください。
Link to this sectionネイティブインストールで開始する#
Dockerを使用しないネイティブインストールについては、以下の手順を参照してください。
Link to this sectionJetPack 7.0で実行する#
Link to this sectionUltralyticsパッケージをインストールする#
ここでは、PyTorchモデルを他の様々なフォーマットにエクスポートできるように、Jetson上にオプションの依存関係を含めてUltralyticsパッケージをインストールします。Jetsonデバイスから最大限のパフォーマンスを引き出すために、主にNVIDIA TensorRTエクスポートに焦点を当てます。
-
パッケージリストを更新し、pipをインストールして最新版にアップグレードする
sudo apt update sudo apt install python3-pip -y pip install -U pip -
オプションの依存関係を含む
ultralyticspipパッケージをインストールするpip install ultralytics[export] -
デバイスを再起動する
sudo reboot
Link to this sectionPyTorchとTorchvisionをインストールする#
上記のultralyticsのインストールでは、TorchとTorchvisionがインストールされます。しかし、pipでインストールされたこれら2つのパッケージは、JetPack 7.0とCUDA 13を搭載したJetson AGX Thorでは実行できず互換性がありません。そのため、手動でインストールする必要があります。
JP7.0に合わせてtorchとtorchvisionをインストールする
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130Link to this sectiononnxruntime-gpuをインストールする#
PyPIでホストされているonnxruntime-gpuパッケージには、Jetson用のaarch64バイナリが含まれていません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。
Here we will download and install onnxruntime-gpu 1.24.0 with Python3.12 support.
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whlLink to this sectionJetPack 6.1上で実行#
Link to this sectionUltralyticsパッケージをインストールする#
ここでは、PyTorchモデルを他の様々なフォーマットにエクスポートできるように、Jetson上にオプションの依存関係を含めてUltralyticsパッケージをインストールします。Jetsonデバイスから最大限のパフォーマンスを引き出すために、主にNVIDIA TensorRTエクスポートに焦点を当てます。
-
パッケージリストを更新し、pipをインストールして最新版にアップグレードする
sudo apt update sudo apt install python3-pip -y pip install -U pip -
オプションの依存関係を含む
ultralyticspipパッケージをインストールするpip install ultralytics[export] -
デバイスを再起動する
sudo reboot
Link to this sectionPyTorchとTorchvisionをインストールする#
上記のUltralyticsのインストールにより、TorchとTorchvisionがインストールされます。しかし、pip経由でインストールされるこれらのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームと互換性がありません。そのため、手動でビルド済みのPyTorch pip wheelをインストールし、ソースからTorchvisionをコンパイルまたはインストールする必要があります。
JP6.1に従ってtorch 2.10.0およびtorchvision 0.25.0をインストールします。
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whl異なるJetPackバージョンに対応するすべてのPyTorchバージョンにアクセスするには、PyTorch for Jetsonページにアクセスしてください。PyTorchとTorchvisionの互換性に関する詳細なリストについては、PyTorch and Torchvision compatibilityページをご覧ください。
Install cuDSS to fix a dependency issue with torch 2.10.0
wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudssLink to this sectiononnxruntime-gpuをインストールする#
PyPIでホストされているonnxruntime-gpuパッケージには、Jetson用のaarch64バイナリが含まれていません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。
JetPackバージョン、Pythonバージョン、およびその他の互換性の詳細別に整理された、利用可能なすべてのonnxruntime-gpuパッケージは、Jetson Zoo ONNX Runtime compatibility matrixで確認できます。
Python 3.10をサポートするJetPack 6の場合、onnxruntime-gpu 1.23.0をインストールできます。
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whlあるいは、onnxruntime-gpu 1.20.0の場合は以下となります。
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whlLink to this sectionJetPack 5.1.2上で実行#
Link to this sectionUltralyticsパッケージをインストールする#
ここでは、PyTorchモデルを他のさまざまなフォーマットにエクスポートできるように、オプションの依存関係を含めてJetson上にUltralyticsパッケージをインストールします。TensorRTはJetsonデバイスから最大限のパフォーマンスを引き出すことを保証するため、主にNVIDIA TensorRTエクスポートに焦点を当てます。
-
パッケージリストを更新し、pipをインストールして最新版にアップグレードする
sudo apt update sudo apt install python3-pip -y pip install -U pip -
オプションの依存関係を含む
ultralyticspipパッケージをインストールするpip install ultralytics[export] -
デバイスを再起動する
sudo reboot
Link to this sectionPyTorchとTorchvisionをインストールする#
上記のUltralyticsのインストールにより、TorchとTorchvisionがインストールされます。しかし、pip経由でインストールされるこれらのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームと互換性がありません。そのため、手動でビルド済みのPyTorch pip wheelをインストールし、ソースからTorchvisionをコンパイルまたはインストールする必要があります。
-
現在インストールされているPyTorchとTorchvisionをアンインストールします。
pip uninstall torch torchvision -
JP5.1.2に従って
torch 2.1.0およびtorchvision 0.16.2をインストールします。pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
異なるJetPackバージョンに対応するすべてのPyTorchバージョンにアクセスするには、PyTorch for Jetsonページにアクセスしてください。PyTorchとTorchvisionの互換性に関する詳細なリストについては、PyTorch and Torchvision compatibilityページをご覧ください。
Link to this sectiononnxruntime-gpuをインストールする#
PyPIでホストされているonnxruntime-gpuパッケージには、Jetson用のaarch64バイナリが含まれていません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。
You can find all available onnxruntime-gpu packages—organized by JetPack version, Python version, and other compatibility details—in the Jetson Zoo ONNX Runtime compatibility matrix. Here we will download and install onnxruntime-gpu 1.17.0 with Python3.8 support.
wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whlonnxruntime-gpuは、自動的にNumPyのバージョンを最新版に戻してしまいます。そのため、以下のコマンドを実行してNumPyを1.23.5に再インストールし、問題を修正する必要があります。
pip install numpy==1.23.5
Link to this sectionNVIDIA JetsonでTensorRTを使用する#
Ultralyticsがサポートするすべてのモデルエクスポート形式の中で、TensorRTはNVIDIA Jetsonデバイス上で最高の推論パフォーマンスを提供するため、Jetson環境へのデプロイにおいて最も推奨されます。セットアップ手順や高度な使用方法については、専用のTensorRT統合ガイドを参照してください。
Link to this sectionモデルをTensorRTに変換し、推論を実行する#
PyTorch形式のYOLO26nモデルをTensorRTに変換し、エクスポートされたモデルで推論を実行します。
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT
model.export(format="engine") # creates 'yolo26n.engine'
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")異なるモデル形式へモデルをエクスポートする際に追加の引数にアクセスするには、エクスポートページにアクセスしてください。
Link to this sectionNVIDIA Deep Learning Accelerator (DLA) を使用する#
NVIDIA Deep Learning Accelerator (DLA)は、NVIDIA Jetsonデバイスに組み込まれた特殊なハードウェアコンポーネントであり、エネルギー効率とパフォーマンスを最適化してディープラーニング推論を実行します。GPUからタスクをオフロード(より集中的なプロセスのためにGPUを解放)することで、DLAは高いスループットを維持しながら低消費電力でモデルを実行可能にし、組み込みシステムやリアルタイムAIアプリケーションに最適です。
以下のJetsonデバイスにはDLAハードウェアが搭載されています。
| Jetsonデバイス | DLAコア | DLA最大周波数 |
|---|---|---|
| Jetson AGX Orinシリーズ | 2 | 1.6 GHz |
| Jetson Orin NX 16GB | 2 | 614 MHz |
| Jetson Orin NX 8GB | 1 | 614 MHz |
| Jetson AGX Xavierシリーズ | 2 | 1.4 GHz |
| Jetson Xavier NXシリーズ | 2 | 1.1 GHz |
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True) # dla:0 or dla:1 corresponds to the DLA cores
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")DLAエクスポートを使用する場合、一部のレイヤーはDLAでの実行がサポートされておらず、実行のためにGPUへフォールバックする可能性があります。このフォールバックにより、追加の遅延が発生し、全体の推論パフォーマンスに影響を与える可能性があります。したがって、DLAは、GPUで完全に実行されるTensorRTと比較して推論の遅延を短縮することを主目的として設計されているわけではありません。その代わり、スループットを高め、エネルギー効率を向上させることが主な目的です。
Link to this sectionNVIDIA Jetson YOLO11 / YOLO26 ベンチマーク#
YOLO11 / YOLO26のベンチマークは、Ultralyticsチームによって11種類のモデル形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch)で実行され、速度と精度が測定されました。ベンチマークは、FP32精度、デフォルトの入力画像サイズ640で、NVIDIA Jetson AGX Thor Developer Kit、NVIDIA Jetson AGX Orin Developer Kit (64GB)、NVIDIA Jetson Orin Nano Super Developer Kit、およびJetson Orin NX 16GBデバイスを搭載したSeeed Studio reComputer J4012で実行されました。
Link to this section比較チャート#
すべてのモデルエクスポートがNVIDIA Jetsonで動作しますが、以下の比較チャートにはPyTorch、TorchScript、TensorRTのみを含めています。これらはJetson上のGPUを活用し、最良の結果を出すことが保証されているためです。その他のエクスポートはすべてCPUのみを利用するため、上記3つほどのパフォーマンスは得られません。すべてのエクスポートのベンチマークは、このチャートの後のセクションで確認できます。
Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#
Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#
Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#
Link to this sectionNVIDIA Jetson Orin NX 16GB#
Link to this section詳細な比較表#
以下の表は、11種類の形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch)にわたる5つの異なるモデル(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)のベンチマーク結果を示しており、各組み合わせのステータス、サイズ、mAP50-95(B)指標、および推論時間を提供します。
Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#
| 形式 | ステータス | ディスクサイズ (MB) | mAP50-95(B) | 推論時間 (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4798 | 7.39 |
| TorchScript | ✅ | 9.8 | 0.4789 | 4.21 |
| ONNX | ✅ | 9.5 | 0.4767 | 6.58 |
| OpenVINO | ✅ | 10.1 | 0.4794 | 17.50 |
| TensorRT (FP32) | ✅ | 13.9 | 0.4791 | 1.90 |
| TensorRT (FP16) | ✅ | 7.6 | 0.4797 | 1.39 |
| TensorRT (INT8) | ✅ | 6.5 | 0.4273 | 1.52 |
| TF SavedModel | ✅ | 25.7 | 0.4764 | 47.24 |
| TF GraphDef | ✅ | 9.5 | 0.4764 | 45.98 |
| TF Lite | ✅ | 9.9 | 0.4764 | 182.04 |
| MNN | ✅ | 9.4 | 0.4784 | 21.83 |
Ultralytics 8.4.7 でベンチマークを実施
推論時間には前処理・後処理は含まれていません。
Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#
| 形式 | ステータス | ディスクサイズ (MB) | mAP50-95(B) | 推論時間 (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4790 | 11.58 |
| TorchScript | ✅ | 9.8 | 0.4770 | 4.60 |
| ONNX | ✅ | 9.5 | 0.4770 | 9.87 |
| OpenVINO | ✅ | 9.6 | 0.4820 | 28.80 |
| TensorRT (FP32) | ✅ | 11.5 | 0.0450 | 4.18 |
| TensorRT (FP16) | ✅ | 7.9 | 0.0450 | 2.62 |
| TensorRT (INT8) | ✅ | 5.4 | 0.4640 | 2.30 |
| TF SavedModel | ✅ | 24.6 | 0.4760 | 71.10 |
| TF GraphDef | ✅ | 9.5 | 0.4760 | 70.02 |
| TF Lite | ✅ | 9.9 | 0.4760 | 227.94 |
| MNN | ✅ | 9.4 | 0.4760 | 32.46 |
| NCNN | ✅ | 9.3 | 0.4810 | 29.93 |
Ultralytics 8.4.32 でベンチマークを実施
推論時間には前処理・後処理は含まれていません。
Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#
| 形式 | ステータス | ディスクサイズ (MB) | mAP50-95(B) | 推論時間 (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4790 | 15.60 |
| TorchScript | ✅ | 9.8 | 0.4770 | 12.60 |
| ONNX | ✅ | 9.5 | 0.4760 | 15.76 |
| OpenVINO | ✅ | 9.6 | 0.4820 | 56.23 |
| TensorRT (FP32) | ✅ | 11.3 | 0.4770 | 7.53 |
| TensorRT (FP16) | ✅ | 8.1 | 0.4800 | 4.57 |
| TensorRT (INT8) | ✅ | 5.3 | 0.4490 | 3.80 |
| TF SavedModel | ✅ | 24.6 | 0.4760 | 118.33 |
| TF GraphDef | ✅ | 9.5 | 0.4760 | 116.30 |
| TF Lite | ✅ | 9.9 | 0.4760 | 286.00 |
| MNN | ✅ | 9.4 | 0.4760 | 68.77 |
| NCNN | ✅ | 9.3 | 0.4810 | 47.50 |
Ultralytics 8.4.33でベンチマークを実施
推論時間には前処理・後処理は含まれていません。
Link to this sectionNVIDIA Jetson Orin NX 16GB#
| 形式 | ステータス | ディスクサイズ (MB) | mAP50-95(B) | 推論時間 (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4799 | 13.90 |
| TorchScript | ✅ | 9.8 | 0.4787 | 11.60 |
| ONNX | ✅ | 9.5 | 0.4763 | 14.18 |
| OpenVINO | ✅ | 9.6 | 0.4819 | 40.19 |
| TensorRT (FP32) | ✅ | 11.4 | 0.4770 | 7.01 |
| TensorRT (FP16) | ✅ | 8.0 | 0.4789 | 4.13 |
| TensorRT (INT8) | ✅ | 5.5 | 0.4489 | 3.49 |
| TF SavedModel | ✅ | 24.6 | 0.4764 | 92.34 |
| TF GraphDef | ✅ | 9.5 | 0.4764 | 92.06 |
| TF Lite | ✅ | 9.9 | 0.4764 | 254.43 |
| MNN | ✅ | 9.4 | 0.4760 | 48.55 |
| NCNN | ✅ | 9.3 | 0.4805 | 34.31 |
Ultralytics 8.4.33でベンチマークを実施
推論時間には前処理・後処理は含まれていません。
さまざまなNVIDIA Jetsonハードウェアで動作するSeeed Studioによるその他のベンチマークの取り組みをご覧ください。
Link to this section結果の再現#
上記のUltralyticsベンチマークをすべてのエクスポートフォーマットで再現するには、次のコードを実行します。
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)ベンチマーク結果は、システムの正確なハードウェアやソフトウェア構成、および実行時のシステム負荷に応じて異なる可能性があることに注意してください。より信頼性の高い結果を得るには、data='coco.yaml'(5000枚の検証画像)のような画像数の多いデータセットを使用してください。
Link to this sectionNVIDIA Jetson使用時のベストプラクティス#
NVIDIA Jetsonを使用する際、YOLO26を実行するNVIDIA Jetsonで最大限のパフォーマンスを引き出すために守るべきベストプラクティスがいくつかあります。
-
MAXパワーモードを有効にする
JetsonでMAXパワーモードを有効にすることで、すべてのCPUおよびGPUコアが確実にオンになります。
sudo nvpmodel -m 0 -
Jetsonクロックを有効にする
Jetsonクロックを有効にすることで、すべてのCPUおよびGPUコアが最大周波数で動作するようになります。
sudo jetson_clocks -
jetson-statsアプリケーションのインストール
jetson-statsアプリケーションを使用すると、システムコンポーネントの温度監視、CPU・GPU・RAM使用率の確認、パワーモードの変更、最大クロックの設定、JetPack情報の確認など、その他のシステム詳細を確認できます。
sudo apt update sudo pip install jetson-stats sudo reboot jtop
Link to this sectionNVIDIA Jetsonのメモリ最適化のヒント#
Jetsonデバイス、特にJetson Orin Nano (8 GB)やOrin NX 8 GBのようなメモリ容量の少ないモデルでは、利用可能なメモリが制限要因となることがよくあります。以下のヒントは、実用的でリスクの低い変更であり、これらを組み合わせることで数百MBを解放し、より大きなYOLOモデルを実行したり、追加の並列ワークロードをサポートしたりできるようになります。包括的な手法については、NVIDIAによるJetsonでのメモリ効率を最大化するブログを参照してください。
Link to this sectionヘッドレス(GUIなし)ブートへの切り替え#
JetsonをSSH経由で接続している場合、またはディスプレイを接続せずに製品用アプライアンスとして実行している場合、デスクトップ環境とディスプレイサーバーを削除することで、最大865 MBのRAMを回復できます。
sudo systemctl set-default multi-user.target
sudo reboot後でデスクトップを復元するには:
sudo systemctl set-default graphical.target
sudo rebootLink to this section使用されていないシステムサービスの無効化#
不要なバックグラウンドサービス(Bluetooth、接続マネージャー、使用されていないハードウェアデーモン)は、合計で約32 MBを消費します。アクティブなサービスをリストアップし、デプロイメントに不要なものを無効にしてください。
# List running services
systemctl list-units --type=service --state=running
# Disable a service
sudo systemctl disable SERVICE_NAMELink to this sectionメモリ使用量のプロファイリング#
最適化する前に、実際にRAMを消費しているプロセスを特定します。procrankはPSS(Proportional Set Size)によってプロセスをソートします。これは、他のプロセスと共有されるページを含む、プロセスによってマッピングされた物理RAMページの合計であるRSS(Resident Set Size)よりも、プロセスごとの真のメモリフットプリントを正確に反映します。
git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrankプロセスごとのGPUおよびNvMap(CUDA/ビデオパイプライン)割り当てを確認するには:
sudo cat /sys/kernel/debug/nvmap/iovmm/clientsLink to this section本番環境でのディスプレイなしの推論実行#
ライブプレビューを必要としない推論パイプラインの場合、ディスプレイ関連のコンポーネント(Tiler、OSD、DisplaySink)を無効にすることで、パイプライン単体で200 MB以上を節約できます。Ultralytics YOLOを使用する場合は、ビューアを抑制し、代わりに結果をディスクに書き込んでください。
from ultralytics import YOLO
model = YOLO("yolo11n.engine")
# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)Link to this section累積的な影響#
| 最適化 | 節約される概算メモリ |
|---|---|
| デスクトップGUIの無効化 | ~865 MB |
| 未使用のOSサービスの無効化 | ~32 MB |
| ヘッドレス推論パイプライン(ディスプレイなし) | ~200+ MB |
| 合計(簡単に達成可能) | ~1 GB+ |
これらの変更を組み合わせることは、メモリ制限のあるデバイスでTensorRT INT8モデルをターゲットにする場合に特に有効です。これにより、より大きなモデルバリアントをメモリに収められるかどうかの差が生まれます。
Link to this section次のステップ#
詳細な学習やサポートについては、Ultralytics YOLO26 Docsを参照してください。
Link to this sectionよくある質問 (FAQ)#
Link to this sectionNVIDIA JetsonデバイスにUltralytics YOLO26をデプロイするにはどうすればよいですか?#
NVIDIA JetsonデバイスへのUltralytics YOLO26のデプロイは簡単なプロセスです。まず、JetsonデバイスにNVIDIA JetPack SDKをフラッシュします。その後、素早いセットアップのために事前構築済みのDockerイメージを使用するか、必要なパッケージを手動でインストールします。各アプローチの詳細な手順は、Quick Start with DockerおよびStart with Native Installationのセクションで確認できます。
Link to this sectionNVIDIA JetsonデバイスでYOLO11モデルからどのようなパフォーマンスベンチマークが期待できますか?#
YOLO11モデルは、さまざまなNVIDIA Jetsonデバイスでベンチマークされており、大幅なパフォーマンスの向上が示されています。例えば、TensorRTフォーマットは最高の推論パフォーマンスを提供します。Detailed Comparison Tablesセクションの表では、さまざまなモデルフォーマットにわたるmAP50-95や推論時間などのパフォーマンス指標を包括的に確認できます。
Link to this sectionNVIDIA JetsonでYOLO26をデプロイする際にTensorRTを使用すべき理由は何ですか?#
TensorRTは、その最適なパフォーマンスにより、NVIDIA JetsonでYOLO26モデルをデプロイするために強く推奨されます。JetsonのGPU機能を活用することで推論を高速化し、最大限の効率と速度を保証します。TensorRTへの変換と推論の実行方法については、Use TensorRT on NVIDIA Jetsonセクションで詳細を学んでください。
Link to this sectionNVIDIA JetsonにPyTorchとTorchvisionをインストールするにはどうすればよいですか?#
NVIDIA JetsonにPyTorchとTorchvisionをインストールするには、まずpip経由でインストールされている可能性のある既存のバージョンをアンインストールします。次に、JetsonのARM64アーキテクチャと互換性のあるPyTorchとTorchvisionのバージョンを手動でインストールします。このプロセスの詳細な手順は、Install PyTorch and Torchvisionセクションで提供されています。
Link to this sectionYOLO26を使用してNVIDIA Jetsonでパフォーマンスを最大化するためのベストプラクティスは何ですか?#
NVIDIA JetsonでYOLO26のパフォーマンスを最大化するには、以下のベストプラクティスに従ってください:
- MAX Power Modeを有効にして、すべてのCPUおよびGPUコアを活用します。
- Jetson Clocksを有効にして、すべてのコアを最大周波数で実行します。
- システムメトリクスを監視するためにJetson Statsアプリケーションをインストールします。
コマンドや詳細については、Best Practices when using NVIDIA Jetsonセクションを参照してください。
Link to this sectionより大きなYOLOモデルを実行するためにNVIDIA Jetsonのメモリを解放するにはどうすればよいですか?#
メモリ容量が少ないJetsonデバイスでは、利用可能なRAMがボトルネックになることがよくあります。合計で1 GB以上を回復できる、3つの簡単な改善策があります:
- ヘッドレスブートへの切り替え(
sudo systemctl set-default multi-user.target)を行い、デスクトップGUIを排除します(約865 MBの節約)。 - 未使用のサービスを無効化します。例えば、Bluetoothや接続マネージャーなどです(約32 MBの節約)。
- Run inference without a display by setting
show=Falsein your YOLOpredictcall, which avoids allocating display pipeline memory (~200+ MB saved).
procrankを使用してプロセスごとのRAM使用量をプロファイルし、sudo cat /sys/kernel/debug/nvmap/iovmm/clientsを使用してGPU割り当てを検査します。詳細については、Memory Optimization Tipsセクションを参照してください。
Link to this sectionJetPack 6でTensorRT INT8エクスポートを行うと、なぜend2endが無効になるのですか?#
JetPack 6に付属しているTensorRT 10.3.0には、end2end=Trueが有効な場合にINT8エンジンが構築できないという既知の問題があります。Ultralyticsがこの組み合わせを検出すると、エクスポートを確実に成功させるためにend2endブランチが自動的に無効化されます。
end2endのINT8エクスポートを復元するには、TensorRTを新しいバージョン(例:10.7.0以降)にアップグレードしてください:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrtアップグレード後、エクスポートを再実行してください。詳細については、GitHub issue #23841を参照してください。