コンテンツにスキップ

クイックスタートガイド: Ultralytics YOLO11とNVIDIA Jetson

この包括的なガイドでは、NVIDIA JetsonデバイスへのUltralytics YOLO11のデプロイについて詳しく説明します。さらに、これらの小型で強力なデバイス上でのYOLO11の性能を示すパフォーマンスベンチマークを紹介します。

新製品のサポート

本ガイドは、最新のNVIDIA Jetson AGX Thor Developer Kitで更新されており、最大2070 FP4 TFLOPSのAIコンピュートと128 GBのメモリを、40 W~130 Wの間で設定可能な電力で提供します。これは、NVIDIA Jetson AGX Orinの7.5倍以上のAIコンピュートと、3.5倍の優れたエネルギー効率を実現し、最も人気のあるAIモデルをシームレスに実行します。



見る: NVIDIA JETSONデバイスでUltralytics YOLO11を使用する方法

NVIDIA Jetsonエコシステム

このガイドは、最新の安定版 JetPack リリースJP7.0 を実行するNVIDIA Jetson AGX Thor Developer Kit、JetPack リリースJP6.2 を実行するNVIDIA Jetson AGX Orin Developer Kit (64GB)、JetPack リリースJP6.1 を実行するNVIDIA Jetson Orin Nano Super Developer Kitでテストされています。1、JetPackリリースJP6.0/JetPackリリースJP5.1.3を実行するNVIDIA Jetson Orin NX 16GBをベースとするSeeed Studio reComputer J4012、JetPackリリースJP4.6.1を実行するNVIDIA Jetson Nano 4GBをベースとするSeeed Studio reComputer J1020 v2。最新およびレガシーを含むすべてのNVIDIA Jetsonハードウェアラインアップで動作することが期待されます。

NVIDIA Jetsonとは何ですか?

NVIDIA Jetsonは、エッジデバイスに高速化されたAI(人工知能)コンピューティングをもたらすように設計された一連の組み込みコンピューティングボードです。これらのコンパクトで強力なデバイスは、NVIDIAのGPUアーキテクチャを基盤として構築されており、クラウドコンピューティングリソースに頼ることなく、複雑なAIアルゴリズムと深層学習モデルをデバイス上で直接実行できます。Jetsonボードは、ロボット工学、自動運転車、産業オートメーション、および低遅延と高効率でローカルにAI推論を実行する必要があるその他のアプリケーションでよく使用されます。さらに、これらのボードはARM64アーキテクチャに基づいており、従来のGPUコンピューティングデバイスと比較して低電力で動作します。

NVIDIA Jetsonシリーズ比較

NVIDIA Jetson AGX Thorは、NVIDIA BlackwellアーキテクチャをベースとするNVIDIA Jetsonファミリーの最新のイテレーションであり、前世代と比較してAI性能が飛躍的に向上しています。下の表は、エコシステム内のJetsonデバイスのいくつかを比較したものです。

ジェットソンAGXトールJetson AGX Orin 64GBJetson Orin NX 16GBJetson Orin Nano SuperJetson AGX XavierJetson Xavier NXJetson Nano
AIパフォーマンス2070 TFLOPS275 TOPS100 TOPS67 TOPS32 TOPS21 TOPS472 GFLOPS
GPU96Tensor 備えた2560コアのNVIDIA BlackwellアーキテクチャGPU64 Tensor Coreを搭載した2048コアのNVIDIA AmpereアーキテクチャGPU1024-core NVIDIA Ampere アーキテクチャ GPU (32 Tensor Cores 搭載)1024-core NVIDIA Ampere アーキテクチャ GPU (32 Tensor Cores 搭載)64のTensor Coreを搭載した512-core NVIDIA Voltaアーキテクチャ GPU48 Tensor Coreを搭載した384コアのNVIDIA Volta™アーキテクチャGPU128コア NVIDIA Maxwell™アーキテクチャ GPU
GPU 最大周波数1.57 GHz1.3 GHz918 MHz1020 MHz1377 MHz1100 MHz921MHz
CPU14コアArm® Neoverse®-V3AE 64ビットCPU 1MB L2 + 16MB L312コア NVIDIA Arm® Cortex A78AE v8.2 64ビット CPU 3MB L2 + 6MB L38コア NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 2MB L2 + 4MB L36-core Arm® Cortex®-A78AE v8.2 64-bit CPU 1.5MB L2 + 4MB L38コア NVIDIA Carmel Arm®v8.2 64-bit CPU 8MB L2 + 4MB L36-core NVIDIA Carmel Arm®v8.2 64-bit CPU 6MB L2 + 4MB L3クアッドコア Arm® Cortex®-A57 MPCoreプロセッサ
CPU 最大周波数2.6 GHz2.2 GHz2.0 GHz1.7 GHz2.2 GHz1.9 GHz1.43GHz
メモリ128GB 256ビット LPDDR5X 273GB/秒64GB 256-bit LPDDR5 204.8GB/秒16GB 128ビット LPDDR5 102.4GB/秒8GB 128-bit LPDDR5 102 GB/秒32GB 256-bit LPDDR4x 136.5GB/秒8GB 128-bit LPDDR4x 59.7GB/秒4GB 64ビット LPDDR4 25.6GB/秒

より詳細な比較表については、 NVIDIA Jetson公式ページの スペック比較セクションをご覧ください。

NVIDIA JetPackとは何ですか?

Jetsonモジュールを強化するNVIDIA JetPack SDKは、最も包括的なソリューションであり、エンドツーエンドの高速化されたAIアプリケーションを構築するための完全な開発環境を提供し、市場投入までの時間を短縮します。JetPackには、ブートローダー、Linuxカーネル、Ubuntuデスクトップ環境、およびGPUコンピューティング、マルチメディア、グラフィックス、コンピュータビジョンの高速化のための完全なライブラリセットを備えたJetson Linuxが含まれています。また、ホストコンピュータと開発キットの両方に対応したサンプル、ドキュメント、および開発者ツールも含まれており、ストリーミングビデオ分析用のDeepStream、ロボティクス用のIsaac、会話型AI用のRivaなどの高レベルSDKをサポートしています。

NVIDIA JetsonへのJetPackのフラッシュ

NVIDIA Jetsonデバイスを入手した後の最初のステップは、NVIDIA JetPackをデバイスに書き込むことです。NVIDIA Jetsonデバイスを書き込むには、いくつかの異なる方法があります。

  1. Jetson AGX Thor Developer KitなどのNVIDIA 公式開発キットをお持ちの場合は、イメージをダウンロードしてブータブルUSBメモリを用意し、JetPackを付属のSSDにフラッシュすることができます。
  2. Jetson Orin Nano Developer Kit などの NVIDIA 公式開発キットをお持ちの場合は、イメージをダウンロードし、JetPack を使用してデバイスを起動するための SD カードを準備することができます。
  3. その他の NVIDIA 開発キットをお持ちの場合は、SDK Manager を使用して JetPack をデバイスに書き込むことができます。
  4. Seeed Studio reComputer J4012 デバイスをお持ちの場合は、JetPack を付属の SSD に書き込むことができます。また、Seeed Studio reComputer J1020 v2 デバイスをお持ちの場合は、JetPack を eMMC/SSD に書き込むことができます。
  5. NVIDIA Jetson モジュールを搭載したその他のサードパーティ製デバイスをお持ちの場合は、コマンドラインでの書き込みに従うことをお勧めします。

上記の方法1、4、5については、システムをフラッシュしてデバイスを起動した後、デバイスのターミナルで "sudo apt update && sudo apt installnvidia-y "を入力して、必要な残りのJetPackコンポーネントをすべてインストールしてください。

Jetsonデバイスに基づくJetPackのサポート

以下の表は、さまざまなNVIDIA JetsonデバイスでサポートされているNVIDIA JetPackのバージョンをまとめたものです。

JetPack 4JetPack 5JetPack 6ジェットパック7
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
ジェットソンAGXトール

Dockerを使ったクイックスタート

NVIDIA JetsonでUltralytics YOLO11を始める最も速い方法は、Jetson用の構築済みDockerイメージで実行することです。上記の表を参照して、お持ちのJetsonデバイスに応じてJetPackバージョンを選択してください。

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

もうすぐです!ご期待ください!

完了したら、NVIDIA JetsonでTensorRTを使用するセクションに進んでください。

ネイティブインストールから開始

Dockerを使用しないネイティブインストールについては、以下の手順を参照してください。

JetPack 7.0での実行

Ultralyticsパッケージのインストール

ここでは、PyTorchモデルを他のさまざまな形式でエクスポートできるように、オプションの依存関係とともにUltralyticsパッケージをJetsonにインストールします。ここでは主にNVIDIA TensorRTエクスポートに焦点を当てます。これは、TensorRTがJetsonデバイスから最大限のパフォーマンスを引き出すことを保証するためです。

  1. パッケージリストの更新、pipのインストール、および最新バージョンへのアップグレード

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. インストール ultralytics オプションの依存関係を含む pip パッケージ

    pip install ultralytics[export]
    
  3. デバイスを再起動

    sudo reboot
    

PyTorchとTorchvisionのインストール

上記のultralytics インストールでは、Torch Torchvisionがインストールされます。しかし、pip経由でインストールされたこれら2つのパッケージは、JetPack 7.0とCUDA 13を搭載したJetson AGX Thor上で動作する互換性がない。そのため、手動でインストールする必要がある。

インストール torch および torchvision JP7.0による

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

インストール onnxruntime-gpu

The onnxruntime-gpu PyPIでホストされているパッケージには、 aarch64 Jetson用のバイナリ。したがって、このパッケージを手動でインストールする必要があります。このパッケージは、一部のエクスポートに必要です。

ここでは onnxruntime-gpu 1.24.0 with Python3.12 サポート。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

JetPack 6.1 で実行

Ultralyticsパッケージのインストール

ここでは、PyTorchモデルを他のさまざまな形式でエクスポートできるように、オプションの依存関係とともにUltralyticsパッケージをJetsonにインストールします。ここでは主にNVIDIA TensorRTエクスポートに焦点を当てます。これは、TensorRTがJetsonデバイスから最大限のパフォーマンスを引き出すことを保証するためです。

  1. パッケージリストの更新、pipのインストール、および最新バージョンへのアップグレード

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. インストール ultralytics オプションの依存関係を含む pip パッケージ

    pip install ultralytics[export]
    
  3. デバイスを再起動

    sudo reboot
    

PyTorchとTorchvisionのインストール

上記のultralytics インストールでは、Torch Torchvisionがインストールされる。しかし、pip経由でインストールされたこれら2つのパッケージは、ARM64アーキテクチャをベースとするJetsonプラットフォームと互換性がない。そのため、ビルド済みのPyTorch pip wheelを手動でインストールし、Torchvisionをソースからコンパイルまたはインストールする必要がある。

インストール torch 2.5.0 および torchvision 0.20 JP6.1に準拠

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

JetPackのバージョンに対応したさまざまなバージョンのPyTorchにアクセスするには、Jetson用PyTorchのページをご覧ください。PyTorch、Torchvisionの互換性に関するより詳細なリストについては、PyTorchとTorchvisionの互換性ページをご覧ください。

インストール cuSPARSELt の依存関係の問題を修正するには、 torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

インストール onnxruntime-gpu

The onnxruntime-gpu PyPIでホストされているパッケージには、 aarch64 Jetson用のバイナリ。したがって、このパッケージを手動でインストールする必要があります。このパッケージは、一部のエクスポートに必要です。

利用可能なすべての onnxruntime-gpu JetPackバージョン、Pythonバージョン、およびその他の互換性の詳細ごとに整理されたパッケージを Jetson Zoo ONNX Runtime 互換性マトリックス。ここでは、をダウンロードしてインストールします。 onnxruntime-gpu 1.20.0 with Python3.10 サポート。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

onnxruntime-gpu numpyのバージョンが自動的に最新版に戻ります。そのため、numpyを再インストールする必要があります。 1.23.5 問題を修正するには、以下を実行します。

pip install numpy==1.23.5

JetPack 5.1.2 で実行

Ultralyticsパッケージのインストール

ここでは、PyTorchモデルを他のさまざまな形式でエクスポートできるように、オプションの依存関係とともにUltralyticsパッケージをJetsonにインストールします。ここでは主にNVIDIA TensorRTエクスポートに焦点を当てます。これは、TensorRTがJetsonデバイスから最大限のパフォーマンスを引き出すことを保証するためです。

  1. パッケージリストの更新、pipのインストール、および最新バージョンへのアップグレード

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. インストール ultralytics オプションの依存関係を含む pip パッケージ

    pip install ultralytics[export]
    
  3. デバイスを再起動

    sudo reboot
    

PyTorchとTorchvisionのインストール

上記のultralytics インストールでは、Torch Torchvisionがインストールされる。しかし、pip経由でインストールされたこれら2つのパッケージは、ARM64アーキテクチャをベースとするJetsonプラットフォームと互換性がない。そのため、ビルド済みのPyTorch pip wheelを手動でインストールし、Torchvisionをソースからコンパイルまたはインストールする必要がある。

  1. 現在インストールされているPyTorchおよびTorchvisionをアンインストールする

    pip uninstall torch torchvision
    
  2. インストール torch 2.2.0 および torchvision 0.17.2 JP5.1.2に準拠

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl
    

JetPackのバージョンに対応したさまざまなバージョンのPyTorchにアクセスするには、Jetson用PyTorchのページをご覧ください。PyTorch、Torchvisionの互換性に関するより詳細なリストについては、PyTorchとTorchvisionの互換性ページをご覧ください。

インストール onnxruntime-gpu

The onnxruntime-gpu PyPIでホストされているパッケージには、 aarch64 Jetson用のバイナリ。したがって、このパッケージを手動でインストールする必要があります。このパッケージは、一部のエクスポートに必要です。

利用可能なすべての onnxruntime-gpu JetPackバージョン、Pythonバージョン、およびその他の互換性の詳細ごとに整理されたパッケージを Jetson Zoo ONNX Runtime 互換性マトリックス。ここでは、をダウンロードしてインストールします。 onnxruntime-gpu 1.17.0 with Python3.8 サポート。

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

onnxruntime-gpu numpyのバージョンが自動的に最新版に戻ります。そのため、numpyを再インストールする必要があります。 1.23.5 問題を修正するには、以下を実行します。

pip install numpy==1.23.5

NVIDIA JetsonでTensorRTを使用する

Ultralyticsがサポートするすべてのモデルエクスポート形式の中で、TensorRTはNVIDIA Jetsonデバイスで最高の推論パフォーマンスを提供するため、Jetsonデプロイメントに最適な推奨事項です。セットアップ手順と高度な使用法については、専用のTensorRT統合ガイドを参照してください。

モデルをTensorRTに変換して推論を実行

PyTorch形式のYOLO11nモデルは、エクスポートされたモデルで推論を実行するためにTensorRTに変換されます。

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

モデルを異なる形式でエクスポートする際の追加引数にアクセスするには、エクスポートページをご覧ください。

NVIDIA Deep Learning Accelerator (DLA) を使用する

NVIDIA Deep Learning Accelerator (DLA)は、NVIDIA Jetsonデバイスに組み込まれた特殊なハードウェアコンポーネントであり、エネルギー効率とパフォーマンスのために深層学習推論を最適化します。GPUからタスクをオフロードすることにより(より集中的なプロセスのためにGPUを解放します)、DLAは、組み込みシステムおよびリアルタイムAIアプリケーションに最適な、高いスループットを維持しながら、より低い消費電力でモデルを実行できるようにします。

以下のJetsonデバイスには、DLAハードウェアが搭載されています。

JetsonデバイスDLAコアDLA最大周波数
Jetson AGX Orinシリーズ21.6 GHz
Jetson Orin NX 16GB2614 MHz
Jetson Orin NX 8GB1614 MHz
Jetson AGX Xavierシリーズ21.4 GHz
Jetson Xavier NXシリーズ21.1 GHz

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

DLAエクスポートを使用する場合、一部のレイヤーはDLAでの実行がサポートされず、GPUにフォールバックすることがあります。このフォールバックにより、追加のレイテンシが発生し、全体的な推論パフォーマンスに影響を与える可能性があります。したがって、DLAは主に、GPUで完全に実行されるTensorRTと比較して、推論レイテンシを削減するように設計されていません。代わりに、その主な目的は、スループットを向上させ、エネルギー効率を改善することです。

NVIDIA JetsonYOLO11 ベンチマーク

YOLO11 ベンチマークは、Ultralytics チームによって11の異なるモデルフォーマットで実行され、速度と精度が測定されました:PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch。ベンチマークは、NVIDIA Jetson AGX Thor Developer Kit、NVIDIA Jetson AGX Orin Developer Kit (64GB)、NVIDIA Jetson Orin Nano Super Developer Kit、およびJetson Orin NX 16GBデバイスを搭載したSeeed Studio reComputer J4012で、FP32の精度で、デフォルトの入力画像サイズ640で実行しました。

比較チャート

すべてのモデルのエクスポートは NVIDIA Jetson で動作しますが、Jetson の GPU を利用し、最高の結果を保証する PyTorch、TorchScript、TensorRT のみを以下の比較チャートに含めました。他のすべてのエクスポートは CPU のみを利用するため、上記の 3 つほどパフォーマンスは高くありません。すべてのエクスポートのベンチマークは、このチャートの後のセクションにあります。

NVIDIA Jetson AGX Thor開発者キット

Jetson AGX Thorベンチマーク
Ultralytics 8.3.226によるベンチマーク

NVIDIA Jetson AGX Orin Developer Kit (64GB)

Jetson AGX Orin ベンチマーク
Ultralytics 8.3.157でベンチマークを実施

NVIDIA Jetson Orin Nano Super Developer Kit

Jetson Orin Nano Superベンチマーク
Ultralytics 8.3.157でベンチマークを実施

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GBベンチマーク
Ultralytics 8.3.157でベンチマークを実施

詳細な比較表

下の表は、5つの異なるモデル(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)の11種類のフォーマットPyTorch,TorchScript,ONNX,OpenVINO,TensorRT,TF SavedModel,TF GraphDef,TF Lite, MNN,NCNN, ExecuTorch)のベンチマーク結果で、それぞれの組み合わせのステータス、サイズ、mAP50-95(B)メトリック、推論時間を示しています。

NVIDIA Jetson AGX Thor開発者キット

パフォーマンス

形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.40.50704.1
TorchScript10.50.50833.61
ONNX10.20.50764.8
OpenVINO10.40.505816.48
TensorRT(FP32)12.60.50771.70
TensorRT(FP16)7.70.50751.20
TensorRT(INT8)6.20.48581.29
TF SavedModel25.70.507640.35
TF GraphDef10.30.507640.55
TF Lite10.30.5075206.74
MNN10.10.507523.47
NCNN10.20.504122.05
エクゼキュートーチ10.20.507534.28
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch18.40.57706.10
TorchScript36.60.57835.33
ONNX36.30.57837.01
OpenVINO36.40.580933.08
TensorRT(FP32)40.10.57842.57
TensorRT(FP16)20.80.57961.55
TensorRT(INT8)12.70.55141.50
TF SavedModel90.80.578280.55
TF GraphDef36.30.578280.82
TF Lite36.30.5782615.29
MNN36.20.579054.12
NCNN36.30.580640.76
エクゼキュートーチ36.20.578267.21
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch38.80.625011.4
TorchScript77.30.630410.16
ONNX76.90.630412.35
OpenVINO77.10.628477.81
TensorRT(FP32)80.70.63055.29
TensorRT(FP16)41.30.62942.42
TensorRT(INT8)23.70.61332.20
TF SavedModel192.40.6306184.66
TF GraphDef76.90.6306187.91
TF Lite76.90.63061845.09
MNN76.80.6298143.52
NCNN76.90.630895.86
エクゼキュートーチ76.90.6306167.94
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch49.00.637014.0
TorchScript97.60.640913.77
ONNX97.00.641016.37
OpenVINO97.30.637798.86
TensorRT(FP32)101.00.63966.71
TensorRT(FP16)51.50.63583.26
TensorRT(INT8)29.70.61903.21
TF SavedModel242.70.6409246.93
TF GraphDef97.00.6409251.84
TF Lite97.00.64092383.45
MNN96.90.6361176.53
NCNN97.00.6373118.05
エクゼキュートーチ97.00.6409211.46
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch109.30.699021.70
TorchScript218.10.690020.99
ONNX217.50.690024.07
OpenVINO217.80.6872187.33
TensorRT(FP32)220.00.690211.70
TensorRT(FP16)114.60.68815.10
TensorRT(INT8)59.90.68574.53
TF SavedModel543.90.6900489.91
TF GraphDef217.50.6900503.21
TF Lite217.50.69005164.31
MNN217.30.6905350.37
NCNN217.50.6901230.63
エクゼキュートーチ217.40.6900419.9

Ultralytics 8.3.226によるベンチマーク

推論時間には、プリ/ポスト処理は含まれていません。

NVIDIA Jetson AGX Orin Developer Kit (64GB)

パフォーマンス

形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.40.51019.40
TorchScript10.50.508311.00
ONNX10.20.507748.32
OpenVINO10.40.505827.24
TensorRT(FP32)12.10.50853.93
TensorRT(FP16)8.30.50632.55
TensorRT(INT8)5.40.47192.18
TF SavedModel25.90.507766.87
TF GraphDef10.30.507765.68
TF Lite10.30.5077272.92
MNN10.10.505936.33
NCNN10.20.503128.51
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch18.40.578312.10
TorchScript36.50.578211.01
ONNX36.30.5782107.54
OpenVINO36.40.581055.03
TensorRT(FP32)38.10.57816.52
TensorRT(FP16)21.40.58033.65
TensorRT(INT8)12.10.57352.81
TF SavedModel91.00.5782132.73
TF GraphDef36.40.5782134.96
TF Lite36.30.5782798.21
MNN36.20.577782.35
NCNN36.20.578456.07
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch38.80.626522.20
TorchScript77.30.630721.47
ONNX76.90.6307270.89
OpenVINO77.10.6284129.10
TensorRT(FP32)78.80.630612.53
TensorRT(FP16)41.90.63056.25
TensorRT(INT8)23.20.62914.69
TF SavedModel192.70.6307299.95
TF GraphDef77.10.6307310.58
TF Lite77.00.63072400.54
MNN76.80.6308213.56
NCNN76.80.6284141.18
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch49.00.636427.70
TorchScript97.60.639927.94
ONNX97.00.6409345.47
OpenVINO97.30.6378161.93
TensorRT(FP32)99.10.640616.11
TensorRT(FP16)52.60.63768.08
TensorRT(INT8)30.80.62086.12
TF SavedModel243.10.6409390.78
TF GraphDef97.20.6409398.76
TF Lite97.10.64093037.05
MNN96.90.6372265.46
NCNN96.90.6364179.68
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch109.30.700544.40
TorchScript218.10.689847.49
ONNX217.50.6900682.98
OpenVINO217.80.6876298.15
TensorRT(FP32)219.60.690428.50
TensorRT(FP16)112.20.688713.55
TensorRT(INT8)60.00.65749.40
TF SavedModel544.30.6900749.85
TF GraphDef217.70.6900753.86
TF Lite217.60.69006603.27
MNN217.30.6868519.77
NCNN217.30.6849298.58

Ultralytics 8.3.157でベンチマークを実施

推論時間には、プリ/ポスト処理は含まれていません。

NVIDIA Jetson Orin Nano Super Developer Kit

パフォーマンス

形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.40.510113.70
TorchScript10.50.508213.69
ONNX10.20.508114.47
OpenVINO10.40.505856.66
TensorRT(FP32)12.00.50817.44
TensorRT(FP16)8.20.50614.53
TensorRT(INT8)5.40.48253.70
TF SavedModel25.90.5077116.23
TF GraphDef10.30.5077114.92
TF Lite10.30.5077340.75
MNN10.10.505976.26
NCNN10.20.503145.03
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch18.40.579020.90
TorchScript36.50.578121.22
ONNX36.30.578125.07
OpenVINO36.40.5810122.98
TensorRT(FP32)37.90.578313.02
TensorRT(FP16)21.80.57796.93
TensorRT(INT8)12.20.57355.08
TF SavedModel91.00.5782250.65
TF GraphDef36.40.5782252.69
TF Lite36.30.5782998.68
MNN36.20.5781188.01
NCNN36.20.5784101.37
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch38.80.626646.50
TorchScript77.30.630747.95
ONNX76.90.630753.06
OpenVINO77.10.6284301.63
TensorRT(FP32)78.80.630527.86
TensorRT(FP16)41.70.630913.50
TensorRT(INT8)23.20.62919.12
TF SavedModel192.70.6307622.24
TF GraphDef77.10.6307628.74
TF Lite77.00.63072997.93
MNN76.80.6299509.96
NCNN76.80.6284292.99
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch49.00.636456.50
TorchScript97.60.640962.51
ONNX97.00.639968.35
OpenVINO97.30.6378376.03
TensorRT(FP32)99.20.639635.59
TensorRT(FP16)52.10.636117.48
TensorRT(INT8)30.90.620711.87
TF SavedModel243.10.6409807.47
TF GraphDef97.20.6409822.88
TF Lite97.10.64093792.23
MNN96.90.6372631.16
NCNN96.90.6364350.46
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch109.30.700590.00
TorchScript218.10.6901113.40
ONNX217.50.6901122.94
OpenVINO217.80.6876713.1
TensorRT(FP32)219.50.690466.93
TensorRT(FP16)112.20.689232.58
TensorRT(INT8)61.50.661219.90
TF SavedModel544.30.69001605.4
TF GraphDef217.80.69002961.8
TF Lite217.60.69008234.86
MNN217.30.68931254.18
NCNN217.30.6849725.50

Ultralytics 8.3.157でベンチマークを実施

推論時間には、プリ/ポスト処理は含まれていません。

NVIDIA Jetson Orin NX 16GB

パフォーマンス

形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch5.40.510112.90
TorchScript10.50.508213.17
ONNX10.20.508115.43
OpenVINO10.40.505839.80
TensorRT(FP32)11.80.50817.94
TensorRT(FP16)8.10.50854.73
TensorRT(INT8)5.40.47863.90
TF SavedModel25.90.507788.48
TF GraphDef10.30.507786.67
TF Lite10.30.5077302.55
MNN10.10.505952.73
NCNN10.20.503132.04
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch18.40.579021.70
TorchScript36.50.578122.71
ONNX36.30.578126.49
OpenVINO36.40.581084.73
TensorRT(FP32)37.80.578313.77
TensorRT(FP16)21.20.57967.31
TensorRT(INT8)12.00.57355.33
TF SavedModel91.00.5782185.06
TF GraphDef36.40.5782186.45
TF Lite36.30.5782882.58
MNN36.20.5775126.36
NCNN36.20.578466.73
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch38.80.626645.00
TorchScript77.30.630751.87
ONNX76.90.630756.00
OpenVINO77.10.6284202.69
TensorRT(FP32)78.70.630530.38
TensorRT(FP16)41.80.630214.48
TensorRT(INT8)23.20.62919.74
TF SavedModel192.70.6307445.58
TF GraphDef77.10.6307460.94
TF Lite77.00.63072653.65
MNN76.80.6308339.38
NCNN76.80.6284187.64
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch49.00.636456.60
TorchScript97.60.640966.72
ONNX97.00.639971.92
OpenVINO97.30.6378254.17
TensorRT(FP32)99.20.640638.89
TensorRT(FP16)51.90.636318.59
TensorRT(INT8)30.90.620712.60
TF SavedModel243.10.6409575.98
TF GraphDef97.20.6409583.79
TF Lite97.10.64093353.41
MNN96.90.6367421.33
NCNN96.90.6364228.26
形式ステータスディスク上のサイズ(MB)mAP50-95(B)推論時間 (ms/im)
PyTorch109.30.700598.50
TorchScript218.10.6901123.03
ONNX217.50.6901129.55
OpenVINO217.80.6876483.44
TensorRT(FP32)219.60.690475.92
TensorRT(FP16)112.10.688535.78
TensorRT(INT8)61.60.659221.60
TF SavedModel544.30.69001120.43
TF GraphDef217.70.69001172.35
TF Lite217.60.69007283.63
MNN217.30.6877840.16
NCNN217.30.6849474.41

Ultralytics 8.3.157でベンチマークを実施

推論時間には、プリ/ポスト処理は含まれていません。

Seeed Studioによるベンチマークの取り組みの詳細はこちらをご覧ください。さまざまなバージョンのNVIDIA Jetsonハードウェアで実行されています。

結果の再現

上記Ultralyticsのベンチマークをすべてのエクスポート形式で再現するには、次のコードを実行します:

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640

ベンチマークの結果は、システムの正確なハードウェアおよびソフトウェア構成、ベンチマーク実行時のシステムの現在のワークロードによって異なる可能性があることに注意してください。最も信頼性の高い結果を得るには、多数の画像を含むデータセット(例:)を使用してください。 data='coco.yaml' (5000の検証画像)。

NVIDIA Jetson 使用時のベストプラクティス

NVIDIA Jetsonを使用する場合、YOLO11を実行しているNVIDIA Jetsonで最大のパフォーマンスを有効にするために従うべきいくつかのベストプラクティスがあります。

  1. 最大電力モードを有効にする

    Jetsonで最大電力モードを有効にすると、すべてのCPU、GPUコアがオンになります。

    sudo nvpmodel -m 0
    
  2. Jetsonクロックを有効にする

    Jetsonクロックを有効にすると、すべてのCPU、GPUコアが最大周波数でクロックされるようになります。

    sudo jetson_clocks
    
  3. Jetson Statsアプリケーションのインストール

    jetson statsアプリケーションを使用して、システムコンポーネントの温度を監視し、CPU、GPU、RAMの使用率の表示、電力モードの変更、最大クロックの設定、JetPack情報などの他のシステム詳細を確認できます。

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
    

Jetson Stats

次のステップ

NVIDIA JetsonへのYOLO11のセットアップが完了しました。おめでとうございます!更なる学習とサポートについては、Ultralytics YOLO11 Docsでガイドをご覧ください。

よくある質問

NVIDIA JetsonデバイスにUltralytics YOLO11をデプロイするにはどうすればよいですか?

Ultralytics YOLO11 を NVIDIA Jetson デバイスにデプロイするのは簡単なプロセスです。まず、Jetson デバイスを NVIDIA JetPack SDK でフラッシュします。次に、すぐにセットアップできる構築済みの Docker イメージを使用するか、必要なパッケージを手動でインストールします。各アプローチの詳細な手順は、Docker でクイックスタート および ネイティブインストールで開始 のセクションにあります。

NVIDIA Jetson デバイス上の YOLO11 モデルから、どのような性能ベンチマークが期待できますか?

YOLO11モデルは、さまざまなNVIDIA Jetsonデバイスでベンチマークされており、パフォーマンスが大幅に向上しています。たとえば、TensorRT形式は最高の推論パフォーマンスを提供します。詳細比較表セクションの表には、さまざまなモデル形式でのmAP50-95や推論時間などのパフォーマンス指標の包括的なビューが示されています。

NVIDIA JetsonにYOLO11をデプロイするためにTensorRTを使用すべきなのはなぜですか?

TensorRTは、最適なパフォーマンスを実現するため、NVIDIA JetsonでYOLO11モデルをデプロイする際に強く推奨されます。JetsonのGPU機能を活用して推論を高速化し、効率と速度を最大化します。TensorRTへの変換方法と推論の実行方法の詳細については、NVIDIA JetsonでのTensorRTの使用セクションを参照してください。

NVIDIA JetsonにPyTorchとTorchvisionをインストールするにはどうすればよいですか?

NVIDIA JetsonにPyTorchとTorchvisionをインストールするには、まずpipでインストールされている既存のバージョンをアンインストールします。次に、JetsonのARM64アーキテクチャと互換性のあるPyTorchおよびTorchvisionバージョンを手動でインストールします。このプロセスの詳細な手順は、PyTorchとTorchvisionのインストールセクションに記載されています。

YOLO11を使用する際に、NVIDIA Jetsonでのパフォーマンスを最大化するためのベストプラクティスは何ですか?

YOLO11でNVIDIA Jetsonのパフォーマンスを最大化するには、次のベストプラクティスに従ってください:

  1. 最大電力モードを有効にして、すべてのCPUおよびGPUコアを利用します。
  2. Jetsonクロックを有効にして、すべてのコアを最大周波数で実行します。
  3. システムメトリクスを監視するために、Jetson Statsアプリケーションをインストールします。

コマンドと詳細については、NVIDIA Jetson使用時のベストプラクティスセクションを参照してください。



📅作成:1年前 ✏️更新 4日前
glenn-jocherlakshanthadRizwanMunawarBurhan-QpicsalexY-T-GLaughing-qjustincdavisMatthewNoyceUltralyticsAssistantAhelsamahy

コメント