YOLO26モデルのTensorRTエクスポート
高性能環境でコンピュータビジョンモデルをデプロイするには、速度と効率を最大化するフォーマットが必要になる場合があります。これは特に、NVIDIA GPU上でモデルをデプロイする場合に当てはまります。
TensorRTエクスポートフォーマットを使用することで、Ultralytics YOLO26モデルをNVIDIAハードウェア上で迅速かつ効率的な推論が行えるように強化できます。本ガイドでは、変換プロセスの手順を分かりやすく説明し、ディープラーニングプロジェクトでNVIDIAの高度な技術を最大限に活用する手助けをします。
TensorRT
TensorRTはNVIDIAによって開発された、高速ディープラーニング推論用に設計された高度なソフトウェア開発キット(SDK)です。物体検出のようなリアルタイムアプリケーションに最適です。
このツールキットはディープラーニングモデルをNVIDIA GPU向けに最適化し、より高速で効率的な動作を実現します。TensorRTモデルは、レイヤー融合、精度キャリブレーション(INT8およびFP16)、動的テンソルメモリ管理、カーネル自動チューニングなどの技術を含むTensorRT最適化を経ます。ディープラーニングモデルをTensorRTフォーマットに変換することで、開発者はNVIDIA GPUの可能性を最大限に引き出すことができます。
TensorRTは、TensorFlow、PyTorch、ONNXなど、さまざまなモデルフォーマットとの互換性で知られており、異なるフレームワークのモデルを統合および最適化するための柔軟なソリューションを開発者に提供します。この汎用性により、多様なハードウェアおよびソフトウェア環境全体での効率的なモデルデプロイが可能になります。
TensorRTモデルの主な機能
TensorRTモデルは、高速ディープラーニング推論における効率と有効性に寄与するさまざまな主要機能を提供します:
-
精度キャリブレーション: TensorRTは精度キャリブレーションをサポートしており、モデルを特定の精度要件に合わせて微調整できます。これにはINT8やFP16のような低精度フォーマットのサポートが含まれており、許容可能な精度レベルを維持しながら推論速度をさらに向上させることができます。
-
レイヤー融合: TensorRTの最適化プロセスにはレイヤー融合が含まれており、ニューラルネットワークの複数のレイヤーが単一の操作に結合されます。これにより、メモリへのアクセスと計算が最小限に抑えられ、計算オーバーヘッドが削減されて推論速度が向上します。
-
動的テンソルメモリ管理: TensorRTは推論中のテンソルメモリ使用量を効率的に管理し、メモリオーバーヘッドを削減してメモリ割り当てを最適化します。その結果、GPUメモリの利用効率が高まります。
-
自動カーネルチューニング: TensorRTは自動カーネルチューニングを適用し、モデルの各レイヤーに対して最も最適化されたGPUカーネルを選択します。この適応的なアプローチにより、モデルはGPUの計算能力を最大限に活用できるようになります。
TensorRTにおけるデプロイオプション
YOLO26モデルをTensorRTフォーマットにエクスポートするためのコードを確認する前に、TensorRTモデルが通常どこで使用されるかを理解しておきましょう。
TensorRTにはいくつかのデプロイオプションがあり、各オプションは統合の容易さ、パフォーマンス最適化、柔軟性のバランスがそれぞれ異なります:
- TensorFlow内でのデプロイ: この手法ではTensorRTをTensorFlowに統合し、最適化されたモデルを使い慣れたTensorFlow環境で実行できるようにします。TF-TRTがサポートされているレイヤーとサポートされていないレイヤーの混在を効率的に処理できるため、そうしたモデルに役立ちます。
-
スタンドアロンTensorRT Runtime API: きめ細かな制御が可能で、パフォーマンスが重要なアプリケーションに最適です。より複雑ですが、サポートされていない演算子のカスタム実装が可能です。
-
NVIDIA Triton Inference Server: さまざまなフレームワークからのモデルをサポートするオプションです。クラウドやエッジ推論に特に適しており、同時モデル実行やモデル分析などの機能を提供します。
YOLO26モデルのTensorRTへのエクスポート
YOLO26モデルをTensorRTフォーマットに変換することで、実行効率を改善し、パフォーマンスを最適化できます。
インストール
必要なパッケージをインストールするには、次を実行します。
# Install the required package for YOLO26
pip install ultralyticsインストールプロセスに関する詳細な手順とベストプラクティスについては、YOLO26インストールガイドを確認してください。YOLO26に必要なパッケージをインストールする際に問題が発生した場合は、一般的な問題ガイドで解決策やヒントを参照してください。
使用方法
使用方法の説明に入る前に、Ultralyticsが提供する様々なYOLO26モデルを必ずご確認ください。これにより、プロジェクトの要件に最も適したモデルを選択することができます。
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT format
model.export(format="engine") # creates 'yolo26n.engine'
# Load the exported TensorRT model
tensorrt_model = YOLO("yolo26n.engine")
# Run inference
results = tensorrt_model("https://ultralytics.com/images/bus.jpg")エクスポート引数
| 引数 | タイプ | デフォルト | 説明 |
|---|---|---|---|
format | str | 'engine' | エクスポートされたモデルのターゲットフォーマット。さまざまなデプロイ環境との互換性を定義します。 |
imgsz | int または tuple | 640 | モデル入力に希望する画像サイズ。正方形の画像の場合は整数、特定の寸法のタプル (height, width) で指定できます。 |
half | bool | False | FP16(半精度)量子化を有効にし、モデルサイズを削減し、サポートされているハードウェア上での推論を高速化する可能性があります。 |
int8 | bool | False | INT8量子化をアクティブにし、主にエッジデバイス向けに、精度の損失を最小限に抑えながらモデルをさらに圧縮し、推論を高速化します。 |
dynamic | bool | False | 動的な入力サイズを許可し、さまざまな画像寸法の処理における柔軟性を高めます。 |
simplify | bool | True | onnxslimを使用してモデルグラフを簡素化し、パフォーマンスと互換性を向上させる可能性があります。 |
workspace | float または None | None | TensorRT最適化のための最大ワークスペースサイズ(GiB)を設定し、メモリ使用量とパフォーマンスのバランスを取ります。TensorRTによるデバイス最大値までの自動割り当てを行う場合は None を使用してください。 |
nms | bool | False | Non-Maximum Suppression(NMS)を追加します。これは、正確で効率的な検出後処理に不可欠です。 |
batch | int | 1 | エクスポートされたモデルのバッチ推論サイズ、または predict モードでモデルが同時に処理する画像の最大数を指定します。 |
data | str | 'coco8.yaml' | データセット構成ファイルへのパス(デフォルト: coco8.yaml)。量子化に不可欠です。 |
fraction | float | 1.0 | INT8 量子化キャリブレーションに使用するデータセットの割合を指定します。フルデータセットの一部を使用してキャリブレーションを行うことができ、実験時やリソースが限られている場合に便利です。INT8 を有効にして指定されていない場合は、フルデータセットが使用されます。 |
device | str | None | エクスポート用のデバイスを指定します:GPU(device=0)、NVIDIA Jetson用DLA(device=dla:0 または device=dla:1)。 |
TensorRTへのエクスポート時には、必ずCUDAサポートを備えたGPUを使用するようにしてください。
エクスポートプロセスの詳細については、エクスポートに関するUltralyticsドキュメントページをご覧ください。
INT8量子化によるTensorRTのエクスポート
INT8精度でTensorRTを使用してUltralytics YOLOモデルをエクスポートすると、学習後量子化(PTQ)が実行されます。TensorRTはPTQにキャリブレーションを使用します。これは、YOLOモデルが代表的な入力データに対して推論処理を行う際に、各アクティベーションテンソル内のアクティベーション分布を測定し、その分布を使用して各テンソルのスケール値を推定するものです。量子化の候補となる各アクティベーションテンソルには、キャリブレーションプロセスによって導出された関連スケールがあります。
暗黙的に量子化されたネットワークを処理する際、TensorRTはINT8を適宜使用してレイヤーの実行時間を最適化します。あるレイヤーがINT8でより高速に実行され、そのデータ入力と出力に量子化スケールが割り当てられている場合、そのレイヤーにはINT8精度のカーネルが割り当てられます。そうでない場合、TensorRTはそのレイヤーの実行時間がより高速になる方に基づいて、FP32またはFP16の精度をカーネルに選択します。
キャリブレーション結果はデバイスごとに異なる可能性があるため、INT8精度でエクスポートする際は、TensorRTモデルの重みをデプロイに使用するデバイスと同じデバイスを使用することが極めて重要です。
INT8エクスポートの設定
Ultralytics YOLOモデルでexportを使用する際に提供される引数は、エクスポートされたモデルのパフォーマンスに大きな影響を与えます。これらは利用可能なデバイスリソースに基づいて選択する必要がありますが、デフォルトの引数はほとんどのAmpere(以降)NVIDIAディスクリートGPUで動作するはずです。使用されるキャリブレーションアルゴリズムは "MINMAX_CALIBRATION" であり、利用可能なオプションの詳細についてはTensorRT Developer Guideを参照してください。Ultralyticsのテストでは "MINMAX_CALIBRATION" が最良の選択であることが判明しており、エクスポートはこのアルゴリズムを使用するように固定されています。
-
workspace: モデルの重みを変換する際のデバイスメモリ割り当てサイズ(GiB単位)を制御します。-
キャリブレーションのニーズとリソースの可用性に応じて
workspace値を調整してください。workspaceを大きくするとキャリブレーション時間が長くなる可能性がありますが、TensorRTがより広範な最適化戦術を検討できるようになり、モデルのパフォーマンスと精度が向上する可能性があります。逆に、workspaceを小さくするとキャリブレーション時間は短縮されますが、最適化戦略が制限され、量子化モデルの品質に影響を与える可能性があります。 -
デフォルトは
workspace=Noneであり、これによりTensorRTは自動的にメモリを割り当てます。手動で設定する場合、キャリブレーションがクラッシュ(警告なしで終了)する場合はこの値を増やす必要があるかもしれません。 -
TensorRT will report
UNSUPPORTED_STATEduring export if the value forworkspaceis larger than the memory available to the device, which means the value forworkspaceshould be lowered or set toNone. -
workspaceが最大値に設定されていてキャリブレーションが失敗/クラッシュする場合は、自動割り当てのためにNoneを使用するか、メモリ要件を減らすためにimgszとbatchの値を減らすことを検討してください。 -
注意:INT8のキャリブレーションは各デバイスに固有のものです。キャリブレーションのために「ハイエンド」GPUを借りると、別のデバイスで推論を実行した際にパフォーマンスが低下する可能性があります。
-
-
batch: 推論に使用される最大バッチサイズ。推論中にはより小さいバッチを使用できますが、指定されたバッチサイズを超える推論は受け付けられません。
小さいバッチを使用すると、INT8キャリブレーション中に不正確なスケーリングが発生する可能性があります。これは、プロセスが確認するデータに基づいて調整を行うためです。小さいバッチでは値の全範囲を捕捉できず、最終的なキャリブレーションで問題が発生する可能性があります。より大きなバッチサイズを使用すると、より代表的なキャリブレーション結果を確実に得ることができます。
Experimentation by NVIDIA led them to recommend using at least 500 calibration images that are representative of the data for your model, with INT8 quantization calibration. This is a guideline and not a hard requirement, and you will need to experiment with what is required to perform well for your dataset. Since the calibration data is required for INT8 calibration with TensorRT, make certain to use the data argument when int8=True for TensorRT and use data="my_dataset.yaml", which will use the images from validation to calibrate with. When no value is passed for data with export to TensorRT with INT8 quantization, the default will be to use one of the "small" example datasets based on the model task instead of throwing an error.
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.export(
format="engine",
dynamic=True, # (1)!
batch=8, # (2)!
workspace=4, # (3)!
int8=True,
data="coco.yaml", # (4)!
)
# Load the exported TensorRT INT8 model
model = YOLO("yolo26n.engine", task="detect")
# Run inference
result = model.predict("https://ultralytics.com/images/bus.jpg")- 動的軸を用いたエクスポートです。
int8=Trueでエクスポートする際は、明示的に設定していなくてもこれがデフォルトで有効になります。詳細についてはエクスポート引数を参照してください。 - エクスポートされたモデルとINT8キャリブレーションの最大バッチサイズを8に設定します。
- 変換プロセス全体に対してデバイスを割り当てる代わりに、4 GiBのメモリを割り当てます。
- キャリブレーションにCOCOデータセットを使用します。具体的には検証に使用される画像(計5,000枚)を使用します。
キャリブレーションキャッシュ
TensorRTはキャリブレーションの .cache を生成します。これは同じデータを使用して将来モデルの重みをエクスポートする際に再利用して高速化できますが、データが大きく異なる場合や batch 値が大幅に変更された場合は、キャリブレーションの精度が低下する可能性があります。このような状況では、既存の .cache をリネームして別のディレクトリに移動するか、完全に削除する必要があります。
YOLOとTensorRT INT8を併用する利点
-
モデルサイズの縮小: FP32からINT8への量子化により、モデルサイズを(ディスク上またはメモリ上で)4分の1に削減でき、ダウンロード時間の短縮、ストレージ要件の低減、モデルデプロイ時のメモリフットプリントの削減につながります。
-
低消費電力: INT8でエクスポートされたYOLOモデルは、精度を下げた演算を行うため、特にバッテリー駆動のデバイスにおいてFP32モデルと比較して消費電力を抑えることができます。
-
推論速度の向上: TensorRTはターゲットハードウェアに合わせてモデルを最適化するため、GPU、組み込みデバイス、アクセラレータでの推論速度が向上する可能性があります。
推論速度に関する注意
TensorRT INT8にエクスポートされたモデルによる最初の数回の推論呼び出しでは、通常よりも前処理、推論、および/または後処理に時間がかかることが予想されます。これは推論中に imgsz を変更した際にも発生する可能性があり、特に imgsz がエクスポート時に指定したもの(エクスポート時の imgsz はTensorRTの「最適」プロファイルとして設定されます)と異なる場合に顕著です。
YOLOとTensorRT INT8を併用する欠点
-
Decreases in evaluation metrics: Using a lower precision will mean that
mAP,Precision,Recallor any other metric used to evaluate model performance is likely to be somewhat worse. See the Performance results section to compare the differences inmAP50andmAP50-95when exporting with INT8 on small sample of various devices. -
開発期間の増加: データセットとデバイスに合わせてINT8キャリブレーションの「最適」な設定を見つけるには、かなりのテスト時間を要する場合があります。
-
ハードウェア依存: キャリブレーションとパフォーマンス向上はハードウェアに強く依存する可能性があり、モデルの重みの移植性が低下します。
Ultralytics YOLO TensorRTエクスポートのパフォーマンス
NVIDIA A100
Ubuntu 22.04.3 LTS, python 3.10.12, ultralytics==8.2.4, tensorrt==8.6.1.post1 でテスト済み
See Detection Docs for usage examples with these models trained on COCO, which include 80 pretrained classes.
Inference times shown for mean, min (fastest), and max (slowest) for each test using pretrained weights yolov8n.engine
| 精度 | 評価テスト | 平均 (ms) | 最小 | 最大 (ms) | mAPval 50(B) | mAPval 50-95(B) | batch | サイズ (ピクセル) |
|---|---|---|---|---|---|---|---|
| FP32 | 推論 (Predict) | 0.52 | 0.51 | 0.56 | 8 | 640 | ||
| FP32 | COCOval | 0.52 | 0.52 | 0.37 | 1 | 640 | |
| FP16 | 推論 (Predict) | 0.34 | 0.34 | 0.41 | 8 | 640 | ||
| FP16 | COCOval | 0.33 | 0.52 | 0.37 | 1 | 640 | |
| INT8 | 推論 (Predict) | 0.28 | 0.27 | 0.31 | 8 | 640 | ||
| INT8 | COCOval | 0.29 | 0.47 | 0.33 | 1 | 640 |
コンシューマー向けGPU
Windows 10.0.19045, python 3.10.9, ultralytics==8.2.4, tensorrt==10.0.0b6 でテスト済み
Inference times shown for mean, min (fastest), and max (slowest) for each test using pretrained weights yolov8n.engine
| 精度 | 評価テスト | 平均 (ms) | 最小 | 最大 (ms) | mAPval 50(B) | mAPval 50-95(B) | batch | サイズ (ピクセル) |
|---|---|---|---|---|---|---|---|
| FP32 | 推論 (Predict) | 1.06 | 0.75 | 1.88 | 8 | 640 | ||
| FP32 | COCOval | 1.37 | 0.52 | 0.37 | 1 | 640 | |
| FP16 | 推論 (Predict) | 0.62 | 0.75 | 1.13 | 8 | 640 | ||
| FP16 | COCOval | 0.85 | 0.52 | 0.37 | 1 | 640 | |
| INT8 | 推論 (Predict) | 0.52 | 0.38 | 1.00 | 8 | 640 | ||
| INT8 | COCOval | 0.74 | 0.47 | 0.33 | 1 | 640 |
組み込みデバイス
JetPack 6.0 (L4T 36.3) Ubuntu 22.04.4 LTS, python 3.10.12, ultralytics==8.2.16, tensorrt==10.0.1 でテスト済み
Inference times shown for mean, min (fastest), and max (slowest) for each test using pretrained weights yolov8n.engine
| 精度 | 評価テスト | 平均 (ms) | 最小 | 最大 (ms) | mAPval 50(B) | mAPval 50-95(B) | batch | サイズ (ピクセル) |
|---|---|---|---|---|---|---|---|
| FP32 | 推論 (Predict) | 6.11 | 6.10 | 6.29 | 8 | 640 | ||
| FP32 | COCOval | 6.17 | 0.52 | 0.37 | 1 | 640 | |
| FP16 | 推論 (Predict) | 3.18 | 3.18 | 3.20 | 8 | 640 | ||
| FP16 | COCOval | 3.19 | 0.52 | 0.37 | 1 | 640 | |
| INT8 | 推論 (Predict) | 2.30 | 2.29 | 2.35 | 8 | 640 | ||
| INT8 | COCOval | 2.32 | 0.46 | 0.32 | 1 | 640 |
セットアップと構成の詳細については、NVIDIA Jetson と Ultralytics YOLO のクイックスタートガイドを参照してください。
セットアップと構成の詳細については、NVIDIA DGX Spark と Ultralytics YOLO のクイックスタートガイドを参照してください。
評価手法
これらのモデルがどのようにエクスポートされテストされたかについては、以下のセクションを展開してください。
エクスポート構成
エクスポート構成引数の詳細については、エクスポートモードを参照してください。
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
# TensorRT FP32
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2)
# TensorRT FP16
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, half=True)
# TensorRT INT8 with calibration `data` (i.e. COCO, ImageNet, or DOTAv1 for appropriate model task)
out = model.export(
format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, int8=True, data="coco8.yaml"
)予測ループ
詳細については、予測モードを参照してください。
import cv2
from ultralytics import YOLO
model = YOLO("yolo26n.engine")
img = cv2.imread("path/to/image.jpg")
for _ in range(100):
result = model.predict(
[img] * 8, # batch=8 of the same image
verbose=False,
device="cuda",
)検証構成
検証構成引数の詳細については、val モードを参照してください。
from ultralytics import YOLO
model = YOLO("yolo26n.engine")
results = model.val(
data="data.yaml", # COCO, ImageNet, or DOTAv1 for appropriate model task
batch=1,
imgsz=640,
verbose=False,
device="cuda",
)エクスポートされた YOLO26 TensorRT モデルのデプロイ
Ultralytics YOLO26 モデルを TensorRT 形式にエクスポートできたので、次はデプロイの準備が整いました。様々な環境で TensorRT モデルをデプロイするための詳細な手順については、以下のリソースを確認してください:
-
Triton Server での Ultralytics のデプロイ: Ultralytics YOLO モデルで使用するために、NVIDIA の Triton Inference (旧 TensorRT Inference) Server を使用する方法に関するガイドです。
-
NVIDIA TensorRT によるディープニューラルネットワークのデプロイ: GPU ベースのデプロイプラットフォーム上でディープニューラルネットワークを効率的にデプロイするために NVIDIA TensorRT を使用する方法を解説した記事です。
-
NVIDIA ベース PC 向けのエンドツーエンド AI: NVIDIA TensorRT デプロイ: NVIDIA ベースの PC 上で AI モデルを最適化およびデプロイするための NVIDIA TensorRT の使用方法を解説したブログ記事です。
-
NVIDIA TensorRT 用 GitHub リポジトリ: NVIDIA TensorRT のソースコードとドキュメントを含む公式 GitHub リポジトリです。
まとめ
本ガイドでは、Ultralytics YOLO26 モデルを NVIDIA の TensorRT モデル形式に変換することに焦点を当てました。この変換ステップは、YOLO26 モデルの効率と速度を向上させ、多様なデプロイ環境に適したものにするために不可欠です。
使用方法の詳細については、TensorRT 公式ドキュメントを参照してください。
その他の Ultralytics YOLO26 インテグレーションに興味がある場合は、インテグレーションガイドページにて、有益なリソースと洞察を多数提供しています。
FAQ
YOLO26 モデルを TensorRT 形式に変換するにはどうすればよいですか?
最適化された NVIDIA GPU 推論のために Ultralytics YOLO26 モデルを TensorRT 形式に変換するには、以下の手順に従ってください:
-
必要なパッケージのインストール:
pip install ultralytics -
YOLO26 モデルのエクスポート:
from ultralytics import YOLO model = YOLO("yolo26n.pt") model.export(format="engine") # creates 'yolo26n.engine' # Run inference model = YOLO("yolo26n.engine") results = model("https://ultralytics.com/images/bus.jpg")
詳細については、YOLO26 インストールガイドおよびエクスポートドキュメントを参照してください。
YOLO26 モデルに TensorRT を使用する利点は何ですか?
TensorRT を使用して YOLO26 モデルを最適化することには、いくつかの利点があります:
- 推論速度の高速化: TensorRT はモデルレイヤーを最適化し、精度を大幅に犠牲にすることなく精度調整 (INT8 および FP16) を使用して推論を高速化します。
- メモリ効率: TensorRT はテンソルメモリを動的に管理し、オーバーヘッドを削減して GPU メモリ使用率を向上させます。
- レイヤー融合: 複数のレイヤーを単一の操作に結合し、計算の複雑さを軽減します。
- カーネル自動チューニング: 各モデルレイヤーに対して最適化された GPU カーネルを自動的に選択し、パフォーマンスを最大化します。
詳細については、NVIDIA の公式 TensorRT ドキュメントおよび詳細な TensorRT の概要を参照してください。
YOLO26 モデルで TensorRT を使用して INT8 量子化は行えますか?
はい、TensorRT で INT8 量子化を使用して YOLO26 モデルをエクスポートできます。このプロセスには学習後量子化 (PTQ) とキャリブレーションが含まれます:
-
INT8 でのエクスポート:
from ultralytics import YOLO model = YOLO("yolo26n.pt") model.export(format="engine", batch=8, workspace=4, int8=True, data="coco.yaml") -
推論の実行:
from ultralytics import YOLO model = YOLO("yolo26n.engine", task="detect") result = model.predict("https://ultralytics.com/images/bus.jpg")
詳細については、INT8 量子化による TensorRT のエクスポートセクションを参照してください。
NVIDIA Triton Inference Server 上で YOLO26 TensorRT モデルをデプロイするにはどうすればよいですか?
NVIDIA Triton Inference Server 上で YOLO26 TensorRT モデルをデプロイするには、以下のリソースを使用できます:
- Triton ServerでUltralytics YOLO26をデプロイする: Triton Inference Serverのセットアップと使用に関するステップバイステップガイドです。
- NVIDIA Triton Inference Serverドキュメント: 詳細なデプロイオプションと設定に関するNVIDIA公式ドキュメントです。
これらのガイドは、さまざまなデプロイ環境でYOLO26モデルを効率的に統合するのに役立ちます。
TensorRTにエクスポートされたYOLO26モデルでは、どのようなパフォーマンス向上が見られますか?
TensorRTによるパフォーマンス向上は、使用するハードウェアによって異なります。一般的なベンチマークは以下の通りです。
-
NVIDIA A100:
- FP32 推論: ~0.52 ms / 画像
- FP16 推論: ~0.34 ms / 画像
- INT8 推論: ~0.28 ms / 画像
- INT8精度ではmAPがわずかに低下しますが、速度は大幅に向上します。
-
コンシューマー向けGPU (例: RTX 3080):
- FP32 推論: ~1.06 ms / 画像
- FP16 推論: ~0.62 ms / 画像
- INT8 推論: ~0.52 ms / 画像
さまざまなハードウェア構成の詳細なパフォーマンスベンチマークは、パフォーマンスセクションで確認できます。
TensorRTのパフォーマンスに関するより包括的な情報については、Ultralyticsドキュメントおよび当社のパフォーマンス分析レポートを参照してください。