Meet YOLO26: next-gen vision AI.

Link to this sectionクイックスタートガイド: NVIDIA JetsonとUltralytics YOLO26#

この包括的なガイドでは、NVIDIA Jetsonデバイス上でUltralytics YOLO26を展開するための詳細な手順を説明します。さらに、これらの小型で強力なデバイスにおけるYOLO26の能力を実証するために、パフォーマンスベンチマークを紹介します。

新製品のサポート

本ガイドは、最大2070 FP4 TFLOPSのAI演算能力と128 GBのメモリを備え、40 Wから130 Wの間で電力を構成可能な最新のNVIDIA Jetson AGX Thor Developer Kitに対応して更新されました。NVIDIA Jetson AGX Orinと比較して7.5倍以上のAI演算能力を提供し、エネルギー効率を3.5倍向上させることで、最も人気のあるAIモデルをシームレスに実行できます。



Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices
NVIDIA Jetson Ecosystem
注意

This guide has been tested with NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) running the latest stable JetPack release of JP7.0, NVIDIA Jetson AGX Orin Developer Kit (64GB) running JetPack release of JP6.2, NVIDIA Jetson Orin Nano Super Developer Kit running JetPack release of JP6.1, Seeed Studio reComputer J4012 which is based on NVIDIA Jetson Orin NX 16GB running JetPack release of JP6.0/ JetPack release of JP5.1.3 and Seeed Studio reComputer J1020 v2 which is based on NVIDIA Jetson Nano 4GB running JetPack release of JP4.6.1. It is expected to work across all the NVIDIA Jetson hardware lineup, including the latest and legacy devices.

Link to this sectionNVIDIA Jetsonとは#

NVIDIA Jetson is a series of embedded computing boards designed to bring accelerated AI (artificial intelligence) computing to edge devices. These compact and powerful devices are built around NVIDIA's GPU architecture and can run complex AI algorithms and deep learning models directly on the device, without relying on cloud computing resources. Jetson boards are often used in robotics, autonomous vehicles, industrial automation, and other applications where AI inference needs to be performed locally with low latency and high efficiency. Additionally, these boards are based on the ARM64 architecture and run at lower power compared to traditional GPU computing devices.

Link to this sectionNVIDIA Jetsonシリーズの比較#

NVIDIA Jetson AGX Thorは、NVIDIA BlackwellアーキテクチャをベースとしたNVIDIA Jetsonファミリーの最新版であり、前世代と比較して劇的に向上したAIパフォーマンスを実現します。以下の表は、エコシステム内のいくつかのJetsonデバイスを比較したものです。

Jetson AGX Thor(T5000)Jetson AGX Orin 64GBJetson Orin NX 16GBJetson Orin Nano SuperJetson AGX XavierJetson Xavier NXJetson Nano
AIパフォーマンス2070 TFLOPS275 TOPS100 TOPS67 TOPS32 TOPS21 TOPS472 GFLOPS
GPU96 Tensorコア搭載 2560コア NVIDIA BlackwellアーキテクチャGPU64 Tensorコア搭載 2048コア NVIDIA AmpereアーキテクチャGPU32 Tensorコア搭載 1024コア NVIDIA AmpereアーキテクチャGPU32 Tensorコア搭載 1024コア NVIDIA AmpereアーキテクチャGPU64 Tensorコア搭載 512コア NVIDIA VoltaアーキテクチャGPU48 Tensorコア搭載 384コア NVIDIA Volta™アーキテクチャGPU128コア NVIDIA Maxwell™アーキテクチャGPU
GPU最大周波数1.57 GHz1.3 GHz918 MHz1020 MHz1377 MHz1100 MHz921MHz
CPU14コア Arm® Neoverse®-V3AE 64ビット CPU 1MB L2 + 16MB L312コア NVIDIA Arm® Cortex A78AE v8.2 64ビット CPU 3MB L2 + 6MB L38コア NVIDIA Arm® Cortex A78AE v8.2 64ビット CPU 2MB L2 + 4MB L36コア Arm® Cortex®-A78AE v8.2 64ビット CPU 1.5MB L2 + 4MB L38コア NVIDIA Carmel Arm®v8.2 64ビット CPU 8MB L2 + 4MB L36コア NVIDIA Carmel Arm®v8.2 64ビット CPU 6MB L2 + 4MB L3クアッドコア Arm® Cortex®-A57 MPCoreプロセッサ
CPU最大周波数2.6 GHz2.2 GHz2.0 GHz1.7 GHz2.2 GHz1.9 GHz1.43GHz
メモリ128GB 256ビット LPDDR5X 273GB/s64GB 256ビット LPDDR5 204.8GB/s16GB 128ビット LPDDR5 102.4GB/s8GB 128ビット LPDDR5 102 GB/s32GB 256ビット LPDDR4x 136.5GB/s8GB 128ビット LPDDR4x 59.7GB/s4GB 64ビット LPDDR4 25.6GB/s

より詳細な比較表については、NVIDIA Jetson公式サイトの「仕様の比較 (Compare Specifications)」セクションをご覧ください。

Link to this sectionNVIDIA JetPackとは#

Jetsonモジュールを駆動するNVIDIA JetPack SDKは、最も包括的なソリューションであり、エンドツーエンドのアクセラレーテッドAIアプリケーションを構築するための完全な開発環境を提供し、市場投入までの時間を短縮します。JetPackには、ブートローダー、Linuxカーネル、Ubuntuデスクトップ環境を含むJetson Linuxと、GPUコンピューティング、マルチメディア、グラフィックス、およびコンピュータビジョンを高速化するための完全なライブラリセットが含まれています。また、ホストコンピュータと開発キットの両方にサンプル、ドキュメント、開発者向けツールが含まれており、ストリーミング動画解析用のDeepStream、ロボティクス用のIsaac、会話型AI用のRivaなどの上位SDKもサポートしています。

Link to this sectionJetPackをNVIDIA Jetsonにフラッシュする#

NVIDIA Jetsonデバイスを入手した後の最初のステップは、NVIDIA JetPackをデバイスにフラッシュすることです。NVIDIA Jetsonデバイスをフラッシュするには、いくつかの異なる方法があります。

  1. Jetson AGX Thor Developer Kitのような公式のNVIDIA開発キットをお持ちの場合は、イメージをダウンロードして、同梱されているSSDにJetPackをフラッシュするための起動可能なUSBスティックを準備できます。
  2. Jetson Orin Nano Developer Kitのような公式のNVIDIA開発キットをお持ちの場合は、イメージをダウンロードして、デバイスを起動するためのJetPack入りSDカードを準備できます。
  3. その他のNVIDIA開発キットをお持ちの場合は、SDK Managerを使用してデバイスにJetPackをフラッシュできます。
  4. Seeed Studio reComputer J4012デバイスをお持ちの場合は、同梱されているSSDにJetPackをフラッシュでき、Seeed Studio reComputer J1020 v2デバイスをお持ちの場合は、eMMC/SSDにJetPackをフラッシュできます。
  5. NVIDIA Jetsonモジュールを搭載したその他のサードパーティデバイスをお持ちの場合は、コマンドラインでのフラッシュを実行することをお勧めします。
注意

上記のメソッド1、4、および5の場合、システムをフラッシュしてデバイスを起動した後、デバイスのターミナルで「sudo apt update && sudo apt install nvidia-jetpack -y」を入力し、必要な残りのJetPackコンポーネントすべてをインストールしてください。

Link to this sectionJetsonデバイス別のJetPackサポート#

下の表は、異なるNVIDIA JetsonデバイスでサポートされているNVIDIA JetPackバージョンを強調しています。

JetPack 4JetPack 5JetPack 6JetPack 7
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Thor

Link to this sectionDockerでのクイックスタート#

NVIDIA JetsonでUltralytics YOLO26を使い始める最も速い方法は、Jetson用ビルド済みDockerイメージを実行することです。上記の表を参照し、お使いのJetsonデバイスに合わせてJetPackバージョンを選択してください。

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

完了したら、NVIDIA JetsonでTensorRTを使用するセクションに進んでください。

Link to this sectionネイティブインストールで開始する#

Dockerを使用しないネイティブインストールについては、以下の手順を参照してください。

Link to this sectionJetPack 7.0で実行する#

Link to this sectionUltralyticsパッケージをインストールする#

ここでは、PyTorchモデルを他の様々なフォーマットにエクスポートできるように、Jetson上にオプションの依存関係を含めてUltralyticsパッケージをインストールします。Jetsonデバイスから最大限のパフォーマンスを引き出すために、主にNVIDIA TensorRTエクスポートに焦点を当てます。

  1. パッケージリストを更新し、pipをインストールして最新版にアップグレードする

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. オプションの依存関係を含むultralytics pipパッケージをインストールする

    pip install ultralytics[export]
  3. デバイスを再起動する

    sudo reboot

Link to this sectionPyTorchとTorchvisionをインストールする#

上記のultralyticsのインストールでは、TorchとTorchvisionがインストールされます。しかし、pipでインストールされたこれら2つのパッケージは、JetPack 7.0とCUDA 13を搭載したJetson AGX Thorでは実行できず互換性がありません。そのため、手動でインストールする必要があります。

JP7.0に合わせてtorchtorchvisionをインストールする

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

Link to this sectiononnxruntime-gpuをインストールする#

PyPIでホストされているonnxruntime-gpuパッケージには、Jetson用のaarch64バイナリが含まれていません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。

Here we will download and install onnxruntime-gpu 1.24.0 with Python3.12 support.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

Link to this sectionJetPack 6.1上で実行#

Link to this sectionUltralyticsパッケージをインストールする#

ここでは、PyTorchモデルを他の様々なフォーマットにエクスポートできるように、Jetson上にオプションの依存関係を含めてUltralyticsパッケージをインストールします。Jetsonデバイスから最大限のパフォーマンスを引き出すために、主にNVIDIA TensorRTエクスポートに焦点を当てます。

  1. パッケージリストを更新し、pipをインストールして最新版にアップグレードする

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. オプションの依存関係を含むultralytics pipパッケージをインストールする

    pip install ultralytics[export]
  3. デバイスを再起動する

    sudo reboot

Link to this sectionPyTorchとTorchvisionをインストールする#

上記のUltralyticsのインストールにより、TorchとTorchvisionがインストールされます。しかし、pip経由でインストールされるこれらのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームと互換性がありません。そのため、手動でビルド済みのPyTorch pip wheelをインストールし、ソースからTorchvisionをコンパイルまたはインストールする必要があります。

JP6.1に従ってtorch 2.10.0およびtorchvision 0.25.0をインストールします。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whl
注意

異なるJetPackバージョンに対応するすべてのPyTorchバージョンにアクセスするには、PyTorch for Jetsonページにアクセスしてください。PyTorchとTorchvisionの互換性に関する詳細なリストについては、PyTorch and Torchvision compatibilityページをご覧ください。

Install cuDSS to fix a dependency issue with torch 2.10.0

wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudss

Link to this sectiononnxruntime-gpuをインストールする#

PyPIでホストされているonnxruntime-gpuパッケージには、Jetson用のaarch64バイナリが含まれていません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。

JetPackバージョン、Pythonバージョン、およびその他の互換性の詳細別に整理された、利用可能なすべてのonnxruntime-gpuパッケージは、Jetson Zoo ONNX Runtime compatibility matrixで確認できます。

Python 3.10をサポートするJetPack 6の場合、onnxruntime-gpu 1.23.0をインストールできます。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whl

あるいは、onnxruntime-gpu 1.20.0の場合は以下となります。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

Link to this sectionJetPack 5.1.2上で実行#

Link to this sectionUltralyticsパッケージをインストールする#

ここでは、PyTorchモデルを他のさまざまなフォーマットにエクスポートできるように、オプションの依存関係を含めてJetson上にUltralyticsパッケージをインストールします。TensorRTはJetsonデバイスから最大限のパフォーマンスを引き出すことを保証するため、主にNVIDIA TensorRTエクスポートに焦点を当てます。

  1. パッケージリストを更新し、pipをインストールして最新版にアップグレードする

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. オプションの依存関係を含むultralytics pipパッケージをインストールする

    pip install ultralytics[export]
  3. デバイスを再起動する

    sudo reboot

Link to this sectionPyTorchとTorchvisionをインストールする#

上記のUltralyticsのインストールにより、TorchとTorchvisionがインストールされます。しかし、pip経由でインストールされるこれらのパッケージは、ARM64アーキテクチャに基づくJetsonプラットフォームと互換性がありません。そのため、手動でビルド済みのPyTorch pip wheelをインストールし、ソースからTorchvisionをコンパイルまたはインストールする必要があります。

  1. 現在インストールされているPyTorchとTorchvisionをアンインストールします。

    pip uninstall torch torchvision
  2. JP5.1.2に従ってtorch 2.1.0およびtorchvision 0.16.2をインストールします。

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
注意

異なるJetPackバージョンに対応するすべてのPyTorchバージョンにアクセスするには、PyTorch for Jetsonページにアクセスしてください。PyTorchとTorchvisionの互換性に関する詳細なリストについては、PyTorch and Torchvision compatibilityページをご覧ください。

Link to this sectiononnxruntime-gpuをインストールする#

PyPIでホストされているonnxruntime-gpuパッケージには、Jetson用のaarch64バイナリが含まれていません。そのため、このパッケージを手動でインストールする必要があります。このパッケージは一部のエクスポートに必要です。

You can find all available onnxruntime-gpu packages—organized by JetPack version, Python version, and other compatibility details—in the Jetson Zoo ONNX Runtime compatibility matrix. Here we will download and install onnxruntime-gpu 1.17.0 with Python3.8 support.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
注意

onnxruntime-gpuは、自動的にNumPyのバージョンを最新版に戻してしまいます。そのため、以下のコマンドを実行してNumPyを1.23.5に再インストールし、問題を修正する必要があります。

pip install numpy==1.23.5

Link to this sectionNVIDIA JetsonでTensorRTを使用する#

Ultralyticsがサポートするすべてのモデルエクスポート形式の中で、TensorRTはNVIDIA Jetsonデバイス上で最高の推論パフォーマンスを提供するため、Jetson環境へのデプロイにおいて最も推奨されます。セットアップ手順や高度な使用方法については、専用のTensorRT統合ガイドを参照してください。

Link to this sectionモデルをTensorRTに変換し、推論を実行する#

PyTorch形式のYOLO26nモデルをTensorRTに変換し、エクスポートされたモデルで推論を実行します。

from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo26n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
注意

異なるモデル形式へモデルをエクスポートする際に追加の引数にアクセスするには、エクスポートページにアクセスしてください。

Link to this sectionNVIDIA Deep Learning Accelerator (DLA) を使用する#

NVIDIA Deep Learning Accelerator (DLA)は、NVIDIA Jetsonデバイスに組み込まれた特殊なハードウェアコンポーネントであり、エネルギー効率とパフォーマンスを最適化してディープラーニング推論を実行します。GPUからタスクをオフロード(より集中的なプロセスのためにGPUを解放)することで、DLAは高いスループットを維持しながら低消費電力でモデルを実行可能にし、組み込みシステムやリアルタイムAIアプリケーションに最適です。

以下のJetsonデバイスにはDLAハードウェアが搭載されています。

JetsonデバイスDLAコアDLA最大周波数
Jetson AGX Orinシリーズ21.6 GHz
Jetson Orin NX 16GB2614 MHz
Jetson Orin NX 8GB1614 MHz
Jetson AGX Xavierシリーズ21.4 GHz
Jetson Xavier NXシリーズ21.1 GHz
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
注意

DLAエクスポートを使用する場合、一部のレイヤーはDLAでの実行がサポートされておらず、実行のためにGPUへフォールバックする可能性があります。このフォールバックにより、追加の遅延が発生し、全体の推論パフォーマンスに影響を与える可能性があります。したがって、DLAは、GPUで完全に実行されるTensorRTと比較して推論の遅延を短縮することを主目的として設計されているわけではありません。その代わり、スループットを高め、エネルギー効率を向上させることが主な目的です。

Link to this sectionNVIDIA Jetson YOLO11 / YOLO26 ベンチマーク#

YOLO11 / YOLO26のベンチマークは、Ultralyticsチームによって11種類のモデル形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch)で実行され、速度と精度が測定されました。ベンチマークは、FP32精度、デフォルトの入力画像サイズ640で、NVIDIA Jetson AGX Thor Developer Kit、NVIDIA Jetson AGX Orin Developer Kit (64GB)、NVIDIA Jetson Orin Nano Super Developer Kit、およびJetson Orin NX 16GBデバイスを搭載したSeeed Studio reComputer J4012で実行されました。

Link to this section比較チャート#

すべてのモデルエクスポートがNVIDIA Jetsonで動作しますが、以下の比較チャートにはPyTorch、TorchScript、TensorRTのみを含めています。これらはJetson上のGPUを活用し、最良の結果を出すことが保証されているためです。その他のエクスポートはすべてCPUのみを利用するため、上記3つほどのパフォーマンスは得られません。すべてのエクスポートのベンチマークは、このチャートの後のセクションで確認できます。

Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#

Jetson AGX Thor Benchmarks
Benchmarked with Ultralytics 8.3.226

Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#

Jetson AGX Orin Benchmarks
Benchmarked with Ultralytics 8.4.32

Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#

Jetson Orin Nano Super Benchmarks
Benchmarked with Ultralytics 8.4.33

Link to this sectionNVIDIA Jetson Orin NX 16GB#

Jetson Orin NX 16GB Benchmarks
Benchmarked with Ultralytics 8.4.33

Link to this section詳細な比較表#

以下の表は、11種類の形式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch)にわたる5つの異なるモデル(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)のベンチマーク結果を示しており、各組み合わせのステータス、サイズ、mAP50-95(B)指標、および推論時間を提供します。

Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#

性能
形式ステータスディスクサイズ (MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.30.47987.39
TorchScript9.80.47894.21
ONNX9.50.47676.58
OpenVINO10.10.479417.50
TensorRT (FP32)13.90.47911.90
TensorRT (FP16)7.60.47971.39
TensorRT (INT8)6.50.42731.52
TF SavedModel25.70.476447.24
TF GraphDef9.50.476445.98
TF Lite9.90.4764182.04
MNN9.40.478421.83

Ultralytics 8.4.7 でベンチマークを実施

注意

推論時間には前処理・後処理は含まれていません。

Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#

性能
形式ステータスディスクサイズ (MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.30.479011.58
TorchScript9.80.47704.60
ONNX9.50.47709.87
OpenVINO9.60.482028.80
TensorRT (FP32)11.50.04504.18
TensorRT (FP16)7.90.04502.62
TensorRT (INT8)5.40.46402.30
TF SavedModel24.60.476071.10
TF GraphDef9.50.476070.02
TF Lite9.90.4760227.94
MNN9.40.476032.46
NCNN9.30.481029.93

Ultralytics 8.4.32 でベンチマークを実施

注意

推論時間には前処理・後処理は含まれていません。

Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#

性能
形式ステータスディスクサイズ (MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.30.479015.60
TorchScript9.80.477012.60
ONNX9.50.476015.76
OpenVINO9.60.482056.23
TensorRT (FP32)11.30.47707.53
TensorRT (FP16)8.10.48004.57
TensorRT (INT8)5.30.44903.80
TF SavedModel24.60.4760118.33
TF GraphDef9.50.4760116.30
TF Lite9.90.4760286.00
MNN9.40.476068.77
NCNN9.30.481047.50

Ultralytics 8.4.33でベンチマークを実施

注意

推論時間には前処理・後処理は含まれていません。

Link to this sectionNVIDIA Jetson Orin NX 16GB#

性能
形式ステータスディスクサイズ (MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.30.479913.90
TorchScript9.80.478711.60
ONNX9.50.476314.18
OpenVINO9.60.481940.19
TensorRT (FP32)11.40.47707.01
TensorRT (FP16)8.00.47894.13
TensorRT (INT8)5.50.44893.49
TF SavedModel24.60.476492.34
TF GraphDef9.50.476492.06
TF Lite9.90.4764254.43
MNN9.40.476048.55
NCNN9.30.480534.31

Ultralytics 8.4.33でベンチマークを実施

注意

推論時間には前処理・後処理は含まれていません。

さまざまなNVIDIA Jetsonハードウェアで動作するSeeed Studioによるその他のベンチマークの取り組みをご覧ください。

Link to this section結果の再現#

上記のUltralyticsベンチマークをすべてのエクスポートフォーマットで再現するには、次のコードを実行します。

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)

ベンチマーク結果は、システムの正確なハードウェアやソフトウェア構成、および実行時のシステム負荷に応じて異なる可能性があることに注意してください。より信頼性の高い結果を得るには、data='coco.yaml'(5000枚の検証画像)のような画像数の多いデータセットを使用してください。

Link to this sectionNVIDIA Jetson使用時のベストプラクティス#

NVIDIA Jetsonを使用する際、YOLO26を実行するNVIDIA Jetsonで最大限のパフォーマンスを引き出すために守るべきベストプラクティスがいくつかあります。

  1. MAXパワーモードを有効にする

    JetsonでMAXパワーモードを有効にすることで、すべてのCPUおよびGPUコアが確実にオンになります。

    sudo nvpmodel -m 0
  2. Jetsonクロックを有効にする

    Jetsonクロックを有効にすることで、すべてのCPUおよびGPUコアが最大周波数で動作するようになります。

    sudo jetson_clocks
  3. jetson-statsアプリケーションのインストール

    jetson-statsアプリケーションを使用すると、システムコンポーネントの温度監視、CPU・GPU・RAM使用率の確認、パワーモードの変更、最大クロックの設定、JetPack情報の確認など、その他のシステム詳細を確認できます。

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
Jetson Stats

Link to this sectionNVIDIA Jetsonのメモリ最適化のヒント#

Jetsonデバイス、特にJetson Orin Nano (8 GB)やOrin NX 8 GBのようなメモリ容量の少ないモデルでは、利用可能なメモリが制限要因となることがよくあります。以下のヒントは、実用的でリスクの低い変更であり、これらを組み合わせることで数百MBを解放し、より大きなYOLOモデルを実行したり、追加の並列ワークロードをサポートしたりできるようになります。包括的な手法については、NVIDIAによるJetsonでのメモリ効率を最大化するブログを参照してください。

Link to this sectionヘッドレス(GUIなし)ブートへの切り替え#

JetsonをSSH経由で接続している場合、またはディスプレイを接続せずに製品用アプライアンスとして実行している場合、デスクトップ環境とディスプレイサーバーを削除することで、最大865 MBのRAMを回復できます。

sudo systemctl set-default multi-user.target
sudo reboot

後でデスクトップを復元するには:

sudo systemctl set-default graphical.target
sudo reboot

Link to this section使用されていないシステムサービスの無効化#

不要なバックグラウンドサービス(Bluetooth、接続マネージャー、使用されていないハードウェアデーモン)は、合計で約32 MBを消費します。アクティブなサービスをリストアップし、デプロイメントに不要なものを無効にしてください。

# List running services
systemctl list-units --type=service --state=running

# Disable a service
sudo systemctl disable SERVICE_NAME

Link to this sectionメモリ使用量のプロファイリング#

最適化する前に、実際にRAMを消費しているプロセスを特定します。procrankはPSS(Proportional Set Size)によってプロセスをソートします。これは、他のプロセスと共有されるページを含む、プロセスによってマッピングされた物理RAMページの合計であるRSS(Resident Set Size)よりも、プロセスごとの真のメモリフットプリントを正確に反映します。

git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrank

プロセスごとのGPUおよびNvMap(CUDA/ビデオパイプライン)割り当てを確認するには:

sudo cat /sys/kernel/debug/nvmap/iovmm/clients

Link to this section本番環境でのディスプレイなしの推論実行#

ライブプレビューを必要としない推論パイプラインの場合、ディスプレイ関連のコンポーネント(Tiler、OSD、DisplaySink)を無効にすることで、パイプライン単体で200 MB以上を節約できます。Ultralytics YOLOを使用する場合は、ビューアを抑制し、代わりに結果をディスクに書き込んでください。

from ultralytics import YOLO

model = YOLO("yolo11n.engine")

# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)

Link to this section累積的な影響#

最適化節約される概算メモリ
デスクトップGUIの無効化~865 MB
未使用のOSサービスの無効化~32 MB
ヘッドレス推論パイプライン(ディスプレイなし)~200+ MB
合計(簡単に達成可能)~1 GB+

これらの変更を組み合わせることは、メモリ制限のあるデバイスでTensorRT INT8モデルをターゲットにする場合に特に有効です。これにより、より大きなモデルバリアントをメモリに収められるかどうかの差が生まれます。

Link to this section次のステップ#

詳細な学習やサポートについては、Ultralytics YOLO26 Docsを参照してください。

Link to this sectionよくある質問 (FAQ)#

Link to this sectionNVIDIA JetsonデバイスにUltralytics YOLO26をデプロイするにはどうすればよいですか?#

NVIDIA JetsonデバイスへのUltralytics YOLO26のデプロイは簡単なプロセスです。まず、JetsonデバイスにNVIDIA JetPack SDKをフラッシュします。その後、素早いセットアップのために事前構築済みのDockerイメージを使用するか、必要なパッケージを手動でインストールします。各アプローチの詳細な手順は、Quick Start with DockerおよびStart with Native Installationのセクションで確認できます。

Link to this sectionNVIDIA JetsonデバイスでYOLO11モデルからどのようなパフォーマンスベンチマークが期待できますか?#

YOLO11モデルは、さまざまなNVIDIA Jetsonデバイスでベンチマークされており、大幅なパフォーマンスの向上が示されています。例えば、TensorRTフォーマットは最高の推論パフォーマンスを提供します。Detailed Comparison Tablesセクションの表では、さまざまなモデルフォーマットにわたるmAP50-95や推論時間などのパフォーマンス指標を包括的に確認できます。

Link to this sectionNVIDIA JetsonでYOLO26をデプロイする際にTensorRTを使用すべき理由は何ですか?#

TensorRTは、その最適なパフォーマンスにより、NVIDIA JetsonでYOLO26モデルをデプロイするために強く推奨されます。JetsonのGPU機能を活用することで推論を高速化し、最大限の効率と速度を保証します。TensorRTへの変換と推論の実行方法については、Use TensorRT on NVIDIA Jetsonセクションで詳細を学んでください。

Link to this sectionNVIDIA JetsonにPyTorchとTorchvisionをインストールするにはどうすればよいですか?#

NVIDIA JetsonにPyTorchとTorchvisionをインストールするには、まずpip経由でインストールされている可能性のある既存のバージョンをアンインストールします。次に、JetsonのARM64アーキテクチャと互換性のあるPyTorchとTorchvisionのバージョンを手動でインストールします。このプロセスの詳細な手順は、Install PyTorch and Torchvisionセクションで提供されています。

Link to this sectionYOLO26を使用してNVIDIA Jetsonでパフォーマンスを最大化するためのベストプラクティスは何ですか?#

NVIDIA JetsonでYOLO26のパフォーマンスを最大化するには、以下のベストプラクティスに従ってください:

  1. MAX Power Modeを有効にして、すべてのCPUおよびGPUコアを活用します。
  2. Jetson Clocksを有効にして、すべてのコアを最大周波数で実行します。
  3. システムメトリクスを監視するためにJetson Statsアプリケーションをインストールします。

コマンドや詳細については、Best Practices when using NVIDIA Jetsonセクションを参照してください。

Link to this sectionより大きなYOLOモデルを実行するためにNVIDIA Jetsonのメモリを解放するにはどうすればよいですか?#

メモリ容量が少ないJetsonデバイスでは、利用可能なRAMがボトルネックになることがよくあります。合計で1 GB以上を回復できる、3つの簡単な改善策があります:

  1. ヘッドレスブートへの切り替えsudo systemctl set-default multi-user.target)を行い、デスクトップGUIを排除します(約865 MBの節約)。
  2. 未使用のサービスを無効化します。例えば、Bluetoothや接続マネージャーなどです(約32 MBの節約)。
  3. Run inference without a display by setting show=False in your YOLO predict call, which avoids allocating display pipeline memory (~200+ MB saved).

procrankを使用してプロセスごとのRAM使用量をプロファイルし、sudo cat /sys/kernel/debug/nvmap/iovmm/clientsを使用してGPU割り当てを検査します。詳細については、Memory Optimization Tipsセクションを参照してください。

Link to this sectionJetPack 6でTensorRT INT8エクスポートを行うと、なぜend2endが無効になるのですか?#

JetPack 6に付属しているTensorRT 10.3.0には、end2end=Trueが有効な場合にINT8エンジンが構築できないという既知の問題があります。Ultralyticsがこの組み合わせを検出すると、エクスポートを確実に成功させるためにend2endブランチが自動的に無効化されます。

end2endのINT8エクスポートを復元するには、TensorRTを新しいバージョン(例:10.7.0以降)にアップグレードしてください:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrt

アップグレード後、エクスポートを再実行してください。詳細については、GitHub issue #23841を参照してください。

コメント