クイックスタートガイド: NVIDIA JetsonとUltralytics YOLO26

この包括的なガイドでは、NVIDIA Jetsonデバイス上でUltralytics YOLO26をデプロイするための詳細な手順を説明します。さらに、これらの小型で強力なデバイスにおけるYOLO26の性能を実証するためのパフォーマンスベンチマークも紹介します。

新製品のサポート

本ガイドを更新し、最新のNVIDIA Jetson AGX Thor Developer Kitに対応させました。これは最大2070 FP4 TFLOPSのAI演算能力と128 GBのメモリを提供し、電力は40 Wから130 Wの間で構成可能です。NVIDIA Jetson AGX Orinと比較して7.5倍以上のAI演算能力と3.5倍のエネルギー効率を実現し、最も人気のあるAIモデルをシームレスに実行できます。



Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices
NVIDIA Jetson Ecosystem
注意

This guide has been tested with NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) running the latest stable JetPack release of JP7.0, NVIDIA Jetson AGX Orin Developer Kit (64GB) running JetPack release of JP6.2, NVIDIA Jetson Orin Nano Super Developer Kit running JetPack release of JP6.1, Seeed Studio reComputer J4012 which is based on NVIDIA Jetson Orin NX 16GB running JetPack release of JP6.0/ JetPack release of JP5.1.3 and Seeed Studio reComputer J1020 v2 which is based on NVIDIA Jetson Nano 4GB running JetPack release of JP4.6.1. It is expected to work across all the NVIDIA Jetson hardware lineup, including the latest and legacy devices.

NVIDIA Jetsonとは何ですか?

NVIDIA Jetson is a series of embedded computing boards designed to bring accelerated AI (artificial intelligence) computing to edge devices. These compact and powerful devices are built around NVIDIA's GPU architecture and can run complex AI algorithms and deep learning models directly on the device, without relying on cloud computing resources. Jetson boards are often used in robotics, autonomous vehicles, industrial automation, and other applications where AI inference needs to be performed locally with low latency and high efficiency. Additionally, these boards are based on the ARM64 architecture and run at lower power compared to traditional GPU computing devices.

NVIDIA Jetsonシリーズの比較

NVIDIA Jetson AGX Thorは、NVIDIA Blackwellアーキテクチャに基づくNVIDIA Jetsonファミリーの最新のイテレーションであり、前世代と比較してAI性能が大幅に向上しています。以下の表は、エコシステム内のいくつかのJetsonデバイスを比較したものです。

Jetson AGX Thor(T5000)Jetson AGX Orin 64GBJetson Orin NX 16GBJetson Orin Nano SuperJetson AGX XavierJetson Xavier NXJetson Nano
AI性能2070 TFLOPS275 TOPS100 TOPS67 TOPS32 TOPS21 TOPS472 GFLOPS
GPU2560コア NVIDIA Blackwellアーキテクチャ GPU(96 Tensor Core搭載)2048コア NVIDIA Ampereアーキテクチャ GPU(64 Tensor Core搭載)1024コア NVIDIA Ampereアーキテクチャ GPU(32 Tensor Core搭載)1024コア NVIDIA Ampereアーキテクチャ GPU(32 Tensor Core搭載)512コア NVIDIA Voltaアーキテクチャ GPU(64 Tensor Core搭載)384コア NVIDIA Volta™アーキテクチャ GPU(48 Tensor Core搭載)128コア NVIDIA Maxwell™アーキテクチャ GPU
GPU最大周波数1.57 GHz1.3 GHz918 MHz1020 MHz1377 MHz1100 MHz921 MHz
CPU14コア Arm® Neoverse®-V3AE 64ビット CPU 1MB L2 + 16MB L312コア NVIDIA Arm® Cortex A78AE v8.2 64ビット CPU 3MB L2 + 6MB L38コア NVIDIA Arm® Cortex A78AE v8.2 64ビット CPU 2MB L2 + 4MB L36コア Arm® Cortex®-A78AE v8.2 64ビット CPU 1.5MB L2 + 4MB L38コア NVIDIA Carmel Arm®v8.2 64ビット CPU 8MB L2 + 4MB L36コア NVIDIA Carmel Arm®v8.2 64ビット CPU 6MB L2 + 4MB L3クアッドコア Arm® Cortex®-A57 MPCoreプロセッサ
CPU最大周波数2.6 GHz2.2 GHz2.0 GHz1.7 GHz2.2 GHz1.9 GHz1.43 GHz
メモリ128GB 256ビット LPDDR5X 273GB/s64GB 256ビット LPDDR5 204.8GB/s16GB 128ビット LPDDR5 102.4GB/s8GB 128ビット LPDDR5 102 GB/s32GB 256ビット LPDDR4x 136.5GB/s8GB 128ビット LPDDR4x 59.7GB/s4GB 64ビット LPDDR4 25.6GB/s

より詳細な比較表については、NVIDIA Jetson公式ページの「仕様の比較(Compare Specifications)」セクションをご覧ください。

NVIDIA JetPackとは何ですか?

NVIDIA JetPack SDKは、Jetsonモジュールを駆動する最も包括的なソリューションであり、エンドツーエンドのアクセラレーションAIアプリケーションを構築するための完全な開発環境を提供し、市場投入までの時間を短縮します。JetPackには、ブートローダー、Linuxカーネル、Ubuntuデスクトップ環境を含むJetson Linuxと、GPUコンピューティング、マルチメディア、グラフィックス、コンピュータビジョンの高速化のための完全なライブラリセットが含まれています。また、ホストコンピュータと開発キットの両方にサンプル、ドキュメント、開発者ツールが含まれており、ストリーミングビデオ分析用のDeepStream、ロボティクス用のIsaac、会話型AI用のRivaといった上位SDKをサポートしています。

JetPackをNVIDIA Jetsonにフラッシュする

NVIDIA Jetsonデバイスを入手した後の最初のステップは、デバイスにNVIDIA JetPackをフラッシュすることです。NVIDIA Jetsonデバイスをフラッシュする方法はいくつかあります。

  1. Jetson AGX Thor Developer Kitのような公式のNVIDIA開発キットをお持ちの場合は、イメージをダウンロードして、起動可能なUSBスティックを準備し、付属のSSDにJetPackをフラッシュすることができます。
  2. Jetson Orin Nano Developer Kitのような公式のNVIDIA開発キットをお持ちの場合は、イメージをダウンロードして、デバイス起動用のJetPack入りSDカードを準備することができます。
  3. その他のNVIDIA開発キットをお持ちの場合は、SDK Managerを使用してデバイスにJetPackをフラッシュすることができます。
  4. Seeed Studio reComputer J4012デバイスをお持ちの場合は付属のSSDにJetPackをフラッシュでき、Seeed Studio reComputer J1020 v2デバイスをお持ちの場合はeMMC/SSDにJetPackをフラッシュできます。
  5. NVIDIA Jetsonモジュールを搭載したその他のサードパーティ製デバイスをお持ちの場合は、コマンドラインでのフラッシュに従うことをお勧めします。
注意

上記のメソッド1、4、5については、システムをフラッシュしてデバイスを起動した後、デバイスのターミナルで「sudo apt update && sudo apt install nvidia-jetpack -y」と入力し、必要な残りのJetPackコンポーネントをすべてインストールしてください。

Jetsonデバイス別のJetPackサポート

以下の表は、各NVIDIA JetsonデバイスでサポートされているNVIDIA JetPackのバージョンをまとめたものです。

JetPack 4JetPack 5JetPack 6JetPack 7
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Thor

Dockerによるクイックスタート

NVIDIA JetsonでUltralytics YOLO26を使い始める最も早い方法は、Jetson用ビルド済みDockerイメージを実行することです。上記の表を参照し、お持ちのJetsonデバイスに合わせてJetPackバージョンを選択してください。

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

完了したら、NVIDIA JetsonでTensorRTを使用するセクションに進んでください。

ネイティブインストールから開始

Dockerを使用しないネイティブインストールについては、以下の手順を参照してください。

JetPack 7.0で実行する

Ultralyticsパッケージのインストール

ここでは、PyTorchモデルを他のさまざまな形式にエクスポートできるように、オプションの依存関係を含めてJetsonにUltralyticsパッケージをインストールします。Jetsonデバイスから最大限のパフォーマンスを引き出すために、NVIDIA TensorRTエクスポートに重点を置きます。

  1. パッケージリストを更新し、pipをインストールして最新版にアップグレードします

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. オプションの依存関係を含むultralytics pipパッケージをインストールします

    pip install ultralytics[export]
  3. デバイスを再起動します

    sudo reboot

PyTorchとTorchvisionのインストール

上記のUltralyticsのインストールにより、TorchとTorchvisionがインストールされます。しかし、pip経由でインストールされたこれら2つのパッケージは、JetPack 7.0とCUDA 13を搭載したJetson AGX Thorでは実行できません。したがって、手動でインストールする必要があります。

JP7.0に合わせて torch および torchvision をインストールする

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

onnxruntime-gpuのインストール

PyPIでホストされているonnxruntime-gpuパッケージには、Jetson用の aarch64 バイナリがありません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。

Here we will download and install onnxruntime-gpu 1.24.0 with Python3.12 support.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

JetPack 6.1で実行する

Ultralyticsパッケージのインストール

ここでは、PyTorchモデルを他のさまざまな形式にエクスポートできるように、オプションの依存関係を含めてJetsonにUltralyticsパッケージをインストールします。Jetsonデバイスから最大限のパフォーマンスを引き出すために、NVIDIA TensorRTエクスポートに重点を置きます。

  1. パッケージリストを更新し、pipをインストールして最新版にアップグレードします

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. オプションの依存関係を含むultralytics pipパッケージをインストールします

    pip install ultralytics[export]
  3. デバイスを再起動します

    sudo reboot

PyTorchとTorchvisionのインストール

上記のUltralyticsのインストールにより、TorchとTorchvisionがインストールされます。しかし、pip経由でインストールされたこれら2つのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームと互換性がありません。したがって、ビルド済みのPyTorch pipホイールを手動でインストールし、Torchvisionをソースからコンパイルまたはインストールする必要があります。

JP6.1に合わせて torch 2.10.0 および torchvision 0.25.0 をインストールする

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whl
注意

PyTorch for Jetsonページにアクセスして、各JetPackバージョン用のさまざまなバージョンのPyTorchを入手してください。PyTorchとTorchvisionの互換性に関する詳細なリストについては、PyTorch and Torchvision compatibilityページをご覧ください。

Install cuDSS to fix a dependency issue with torch 2.10.0

wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudss

onnxruntime-gpuのインストール

PyPIでホストされているonnxruntime-gpuパッケージには、Jetson用の aarch64 バイナリがありません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。

JetPackバージョン、Pythonバージョン、その他の互換性の詳細別に整理された、利用可能なすべての onnxruntime-gpu パッケージは、Jetson Zoo ONNX Runtime互換性マトリックスで確認できます。

Python 3.10 をサポートする JetPack 6 の場合は、onnxruntime-gpu 1.23.0 をインストールできます:

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whl

または、onnxruntime-gpu 1.20.0 の場合:

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

JetPack 5.1.2で実行する

Ultralyticsパッケージのインストール

ここでは、PyTorchモデルを他のさまざまな形式にエクスポートできるように、オプションの依存関係を含めてJetsonにUltralyticsパッケージをインストールします。Jetsonデバイスから最大限のパフォーマンスを引き出すために、NVIDIA TensorRTエクスポートに重点を置きます。

  1. パッケージリストを更新し、pipをインストールして最新版にアップグレードします

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. オプションの依存関係を含むultralytics pipパッケージをインストールします

    pip install ultralytics[export]
  3. デバイスを再起動します

    sudo reboot

PyTorchとTorchvisionのインストール

上記のUltralyticsのインストールにより、TorchとTorchvisionがインストールされます。しかし、pip経由でインストールされたこれら2つのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームと互換性がありません。したがって、ビルド済みのPyTorch pipホイールを手動でインストールし、Torchvisionをソースからコンパイルまたはインストールする必要があります。

  1. 現在インストールされているPyTorchとTorchvisionをアンインストールする

    pip uninstall torch torchvision
  2. JP5.1.2に合わせて torch 2.1.0 および torchvision 0.16.2 をインストールする

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
注意

PyTorch for Jetsonページにアクセスして、各JetPackバージョン用のさまざまなバージョンのPyTorchを入手してください。PyTorchとTorchvisionの互換性に関する詳細なリストについては、PyTorch and Torchvision compatibilityページをご覧ください。

onnxruntime-gpuのインストール

PyPIでホストされているonnxruntime-gpuパッケージには、Jetson用の aarch64 バイナリがありません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。

You can find all available onnxruntime-gpu packages—organized by JetPack version, Python version, and other compatibility details—in the Jetson Zoo ONNX Runtime compatibility matrix. Here we will download and install onnxruntime-gpu 1.17.0 with Python3.8 support.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
注意

onnxruntime-gpu は自動的にNumPyバージョンを最新のものに戻してしまいます。そのため、問題を修正するために以下のコマンドを実行してNumPyを 1.23.5 に再インストールする必要があります。

pip install numpy==1.23.5

NVIDIA JetsonでTensorRTを使用する

Ultralyticsがサポートするすべてのモデルエクスポート形式の中で、TensorRTはNVIDIA Jetsonデバイス上で最高の推論パフォーマンスを提供します。そのため、JetsonへのデプロイメントにはTensorRTを強く推奨します。セットアップ手順や高度な使用方法については、専用のTensorRT統合ガイド を参照してください。

モデルのTensorRTへの変換と推論の実行

PyTorchフォーマットのYOLO26nモデルをTensorRTに変換し、エクスポートしたモデルで推論を実行します。

from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo26n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
注意

モデルを異なるフォーマットへエクスポートする際の追加引数については、Exportページにアクセスしてください。

NVIDIA Deep Learning Accelerator (DLA) を使用する

NVIDIA Deep Learning Accelerator (DLA) は、NVIDIA Jetsonデバイスに組み込まれた専用ハードウェアコンポーネントであり、エネルギー効率とパフォーマンスのためにディープラーニング推論を最適化します。GPUからタスクをオフロードし(より集中的なプロセスのためにGPUを解放し)、DLAはモデルをより低い消費電力で実行しながら高いスループットを維持できるため、組み込みシステムやリアルタイムAIアプリケーションに最適です。

以下のJetsonデバイスにはDLAハードウェアが搭載されています。

JetsonデバイスDLAコアDLA最大周波数
Jetson AGX Orin シリーズ21.6 GHz
Jetson Orin NX 16GB2614 MHz
Jetson Orin NX 8GB1614 MHz
Jetson AGX Xavier シリーズ21.4 GHz
Jetson Xavier NX シリーズ21.1 GHz
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
注意

DLAエクスポートを使用する場合、一部のレイヤーがDLAでの実行に対応しておらず、GPUによる実行にフォールバックする可能性があります。このフォールバックにより追加のレイテンシが発生し、全体的な推論パフォーマンスに影響を与える場合があります。そのため、DLAは主にGPUで完全に実行されるTensorRTと比較して推論レイテンシを短縮するために設計されたものではありません。その主な目的は、スループットの向上とエネルギー効率の改善にあります。

NVIDIA Jetson YOLO11/ YOLO26 ベンチマーク

YOLO11/ YOLO26のベンチマークは、Ultralyticsチームが11種類のモデル形式について速度と精度を測定したものです。対象形式は、PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorchです。ベンチマークは、NVIDIA Jetson AGX Thor Developer Kit、NVIDIA Jetson AGX Orin Developer Kit (64GB)、NVIDIA Jetson Orin Nano Super Developer Kit、およびJetson Orin NX 16GBを搭載したSeeed Studio reComputer J4012上で、デフォルトの入力画像サイズ640のFP32精度にて実行されました。

比較チャート

すべてのモデルエクスポートはNVIDIA Jetsonで動作しますが、以下の比較チャートには PyTorch、TorchScript、TensorRT のみを含めています。これらはJetsonのGPUを活用し、最高の結果を出すことが保証されているためです。その他のエクスポートはCPUのみを利用するため、上記3つと比較してパフォーマンスは劣ります。すべてのエクスポートに関するベンチマークは、このチャートの後のセクションで確認できます。

NVIDIA Jetson AGX Thor Developer Kit

Jetson AGX Thor Benchmarks
Benchmarked with Ultralytics 8.3.226

NVIDIA Jetson AGX Orin Developer Kit (64GB)

Jetson AGX Orin Benchmarks
Benchmarked with Ultralytics 8.4.32

NVIDIA Jetson Orin Nano Super Developer Kit

Jetson Orin Nano Super Benchmarks
Benchmarked with Ultralytics 8.4.33

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GB Benchmarks
Benchmarked with Ultralytics 8.4.33

詳細な比較表

以下の表は、5つのモデル(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)を11種類の形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch)で測定したベンチマーク結果を示しています。各組み合わせのステータス、サイズ、mAP50-95(B) メトリクス、推論時間が示されています。

NVIDIA Jetson AGX Thor Developer Kit

性能
形式ステータスディスク上のサイズ (MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.30.47987.39
TorchScript9.80.47894.21
ONNX9.50.47676.58
OpenVINO10.10.479417.50
TensorRT (FP32)13.90.47911.90
TensorRT (FP16)7.60.47971.39
TensorRT (INT8)6.50.42731.52
TF SavedModel25.70.476447.24
TF GraphDef9.50.476445.98
TF Lite9.90.4764182.04
MNN9.40.478421.83

Ultralytics 8.4.7でベンチマーク済みです。

注意

推論時間には前処理および後処理は含まれていません。

NVIDIA Jetson AGX Orin Developer Kit (64GB)

性能
形式ステータスディスク上のサイズ (MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.30.479011.58
TorchScript9.80.47704.60
ONNX9.50.47709.87
OpenVINO9.60.482028.80
TensorRT (FP32)11.50.04504.18
TensorRT (FP16)7.90.04502.62
TensorRT (INT8)5.40.46402.30
TF SavedModel24.60.476071.10
TF GraphDef9.50.476070.02
TF Lite9.90.4760227.94
MNN9.40.476032.46
NCNN9.30.481029.93

Ultralytics 8.4.32 でベンチマークを実行しました

注意

推論時間には前処理および後処理は含まれていません。

NVIDIA Jetson Orin Nano Super Developer Kit

性能
形式ステータスディスク上のサイズ (MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.30.479015.60
TorchScript9.80.477012.60
ONNX9.50.476015.76
OpenVINO9.60.482056.23
TensorRT (FP32)11.30.47707.53
TensorRT (FP16)8.10.48004.57
TensorRT (INT8)5.30.44903.80
TF SavedModel24.60.4760118.33
TF GraphDef9.50.4760116.30
TF Lite9.90.4760286.00
MNN9.40.476068.77
NCNN9.30.481047.50

Ultralytics 8.4.33 でベンチマークを実施

注意

推論時間には前処理および後処理は含まれていません。

NVIDIA Jetson Orin NX 16GB

性能
形式ステータスディスク上のサイズ (MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.30.479913.90
TorchScript9.80.478711.60
ONNX9.50.476314.18
OpenVINO9.60.481940.19
TensorRT (FP32)11.40.47707.01
TensorRT (FP16)8.00.47894.13
TensorRT (INT8)5.50.44893.49
TF SavedModel24.60.476492.34
TF GraphDef9.50.476492.06
TF Lite9.90.4764254.43
MNN9.40.476048.55
NCNN9.30.480534.31

Ultralytics 8.4.33 でベンチマークを実施

注意

推論時間には前処理および後処理は含まれていません。

さまざまなNVIDIA Jetsonハードウェアで実行されるSeeed Studioによるその他のベンチマークの取り組みをご覧ください。

結果の再現

上記のUltralyticsベンチマークをすべてのエクスポートフォーマットで再現するには、以下のコードを実行してください:

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)

ベンチマークの結果は、システムの正確なハードウェアおよびソフトウェアの構成、ならびにベンチマーク実行時のシステムの負荷状況によって異なる場合があることに注意してください。より信頼性の高い結果を得るには、data='coco.yaml'(5000枚の検証画像)のような大量の画像を含むデータセットを使用してください。

NVIDIA Jetson使用時のベストプラクティス

NVIDIA Jetsonを使用する際は、YOLO26を実行するNVIDIA Jetsonのパフォーマンスを最大限に引き出すために、いくつかのベストプラクティスに従う必要があります。

  1. MAX Powerモードの有効化

    JetsonでMAX Powerモードを有効にすると、すべてのCPUおよびGPUコアが確実にオンになります。

    sudo nvpmodel -m 0
  2. Jetson Clocksの有効化

    Jetson Clocksを有効にすると、すべてのCPUおよびGPUコアが最大周波数で動作するようになります。

    sudo jetson_clocks
  3. Jetson Statsアプリケーションのインストール

    jetson statsアプリケーションを使用すると、システムコンポーネントの温度を監視したり、CPU、GPU、RAMの使用状況を確認したり、パワーモードの変更、最大クロックの設定、JetPack情報の確認など、その他のシステム詳細を確認したりできます。

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
Jetson Stats

NVIDIA Jetsonのためのメモリ最適化のヒント

Jetsonデバイス、特にJetson Orin Nano (8 GB)やOrin NX 8 GBのようなメモリの少ないモデルでは、利用可能なメモリが制限要因となることがよくあります。以下のヒントは、実用的かつリスクの低い変更であり、これらを組み合わせることで数百メガバイトを解放し、より大規模なYOLOモデルの実行や、並列ワークロードの追加サポートを可能にします。包括的な詳細については、NVIDIAによるJetsonでのメモリ効率の最大化に関するブログを参照してください。

ヘッドレス(GUIなし)ブートへの切り替え

JetsonがSSH経由で接続されている場合や、ディスプレイを接続せずに本番環境のアプライアンスとして実行している場合、デスクトップ環境とディスプレイサーバーを排除することで、最大865 MBのRAMを回復できます:

sudo systemctl set-default multi-user.target
sudo reboot

後でデスクトップを復元するには:

sudo systemctl set-default graphical.target
sudo reboot

未使用のシステムサービスの無効化

必須ではないバックグラウンドサービス(Bluetooth、コネクティビティマネージャー、未使用のハードウェアデーモンなど)は、合計で約32 MBを消費します。アクティブなサービスをリストアップし、デプロイメントに不要なものはすべて無効にしてください:

# List running services
systemctl list-units --type=service --state=running

# Disable a service
sudo systemctl disable <service-name>

メモリ使用量のプロファイル

最適化を行う前に、実際にRAMを消費しているプロセスを特定してください。procrankはPSS(Proportional Set Size)によってプロセスをソートします。これは、RSS(Resident Set Size、他のプロセスと共有されているページを含むプロセスによってマップされた物理RAMページの合計)よりも正確に、プロセスごとの真のメモリフットプリントを反映します:

git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrank

プロセスごとのGPUおよびNvMap(CUDA/ビデオパイプライン)の割り当てを確認するには:

sudo cat /sys/kernel/debug/nvmap/iovmm/clients

本番環境でのディスプレイなしでの推論実行

ライブプレビューを必要としない推論パイプラインの場合、ディスプレイ関連のコンポーネント(Tiler、OSD、DisplaySink)を無効にすることで、パイプラインだけで200 MB以上を節約できます。Ultralytics YOLOを使用する場合は、ビューアを抑制し、代わりに結果をディスクに書き込んでください:

from ultralytics import YOLO

model = YOLO("yolo11n.engine")

# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)

累積的な効果

最適化節約できるメモリ量(概算)
デスクトップGUIの無効化~865 MB
未使用のOSサービスの無効化~32 MB
ヘッドレス推論パイプライン(ディスプレイなし)~200+ MB
合計(容易な改善点)~1 GB+

メモリ制限のあるデバイスでTensorRT INT8モデルをターゲットにする場合、これらの変更を組み合わせることは特に価値があります。これは、より大きなモデルバリアントをメモリに収めることができるかどうかの分かれ目になる可能性があります。

次のステップ

さらなる学習やサポートについては、Ultralytics YOLO26のドキュメントを参照してください。

FAQ

NVIDIA JetsonデバイスにUltralytics YOLO26をデプロイするにはどうすればよいですか?

NVIDIA JetsonデバイスへのUltralytics YOLO26のデプロイは簡単な手順です。まず、NVIDIA JetPack SDKでJetsonデバイスをフラッシュします。次に、素早くセットアップするために構築済みのDockerイメージを使用するか、必要なパッケージを手動でインストールします。それぞれのアプローチの詳しい手順は、「Dockerによるクイックスタート」および「ネイティブインストールから始める」セクションに記載されています。

NVIDIA JetsonデバイスでYOLO11モデルからどのようなパフォーマンスベンチマークを期待できますか?

YOLO11モデルは、さまざまなNVIDIA Jetsonデバイスでベンチマークされており、大幅なパフォーマンスの向上が示されています。例えば、TensorRTフォーマットは最高の推論パフォーマンスを提供します。詳細比較テーブルセクションの表には、さまざまなモデルフォーマット間でのmAP50-95や推論時間などのパフォーマンス指標が包括的に示されています。

NVIDIA JetsonでYOLO26をデプロイするためにTensorRTを使用すべき理由は何ですか?

TensorRTは、その最適なパフォーマンスにより、NVIDIA JetsonへのYOLO26モデルのデプロイに強く推奨されます。これはJetsonのGPU機能を活用して推論を加速させ、最大の効率と速度を確保します。TensorRTへの変換方法と推論の実行方法については、「NVIDIA JetsonでTensorRTを使用する」セクションで詳しく解説しています。

NVIDIA JetsonにPyTorchとTorchvisionをインストールするにはどうすればよいですか?

NVIDIA JetsonにPyTorchとTorchvisionをインストールするには、まずpip経由でインストールされている可能性のある既存のバージョンをアンインストールしてください。次に、JetsonのARM64アーキテクチャと互換性のあるPyTorchおよびTorchvisionのバージョンを手動でインストールします。このプロセスの詳細な手順は、「PyTorchとTorchvisionのインストール」セクションに記載されています。

YOLO26を使用してNVIDIA Jetsonのパフォーマンスを最大化するためのベストプラクティスは何ですか?

YOLO26を使用してNVIDIA Jetsonのパフォーマンスを最大化するには、以下のベストプラクティスに従ってください:

  1. すべてのCPUおよびGPUコアを活用するために、MAX Powerモードを有効にする。
  2. すべてのコアを最大周波数で動作させるために、Jetson Clocksを有効にする。
  3. システムメトリクスを監視するために、Jetson Statsアプリケーションをインストールする。

コマンドや詳細については、「NVIDIA Jetson使用時のベストプラクティス」セクションを参照してください。

より大きなYOLOモデルを実行するために、NVIDIA Jetsonのメモリを解放するにはどうすればよいですか?

メモリの少ないJetsonデバイスでは、利用可能なRAMがボトルネックになることがよくあります。合計で1 GB以上を回復できる3つの簡単な改善策があります:

  1. ヘッドレスブートへの切り替えsudo systemctl set-default multi-user.target)により、デスクトップGUIを排除する(約865 MBの節約)。
  2. 未使用のサービスの無効化(Bluetoothやコネクティビティマネージャーなど)(約32 MBの節約)。
  3. Run inference without a display by setting show=False in your YOLO predict call, which avoids allocating display pipeline memory (~200+ MB saved).

procrankを使用してプロセスごとのRAM使用量をプロファイリングし、sudo cat /sys/kernel/debug/nvmap/iovmm/clientsを使用してGPUの割り当てを検査してください。完全な詳細については、「メモリ最適化のヒント」セクションを参照してください。

JetPack 6でTensorRT INT8のエクスポート時にend2endが無効になるのはなぜですか?

JetPack 6に同梱されているTensorRT 10.3.0には、end2end=Trueが有効な場合にINT8エンジンのビルドを妨げる既知の問題があります。Ultralyticsがこの組み合わせを検出した場合、エクスポートが確実に成功するようにend2endブランチが自動的に無効化されます。

end2end INT8エクスポートを復元するには、TensorRTを新しいバージョン(例:10.7.0以上)にアップグレードしてください:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrt

アップグレード後、エクスポートを再実行してください。詳細については、GitHub issue #23841を参照してください。

コメント