Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 モデルの TensorRT エクスポート#

高性能環境で コンピュータビジョン モデルをデプロイする際には、速度と効率を最大化するフォーマットが必要になる場合があります。これは特に、モデルを NVIDIA GPU にデプロイする場合に当てはまります。

TensorRT エクスポートフォーマットを使用することで、NVIDIA ハードウェア上での推論を高速かつ効率的に実行できるよう Ultralytics YOLO26 モデルを強化できます。本ガイドでは、変換プロセスの手順を分かりやすく説明し、ディープラーニング プロジェクトで NVIDIA の高度な技術を最大限に活用できるよう支援します。

Link to this sectionTensorRT#

NVIDIA TensorRT optimization workflow

TensorRT は NVIDIA が開発した高度なソフトウェア開発キット(SDK)であり、高速なディープラーニング推論のために設計されています。これは 物体検出 のようなリアルタイムアプリケーションに最適です。

このツールキットはディープラーニングモデルを NVIDIA GPU 向けに最適化し、より高速で効率的な動作を実現します。TensorRT モデルは、レイヤー融合、精度調整(INT8 および FP16)、動的なテンソルメモリ管理、カーネルの自動チューニングなどの手法を含む TensorRT 最適化を受けます。ディープラーニングモデルを TensorRT フォーマットに変換することで、開発者は NVIDIA GPU の潜在能力を最大限に引き出すことができます。

TensorRT は TensorFlow、PyTorch、ONNX など、さまざまなモデルフォーマットとの互換性で知られており、異なるフレームワークからのモデルを統合・最適化するための柔軟なソリューションを開発者に提供します。この汎用性により、さまざまなハードウェアやソフトウェア環境において効率的な モデルデプロイ が可能になります。

Link to this sectionTensorRT モデルの主な特徴#

TensorRT モデルは、高速なディープラーニング推論における効率性と有効性に寄与する一連の主な機能を提供します。

  • 精度キャリブレーション: TensorRT は精度キャリブレーションをサポートしており、特定の精度要件に合わせてモデルを微調整できます。これには INT8 や FP16 などの低精度フォーマットのサポートが含まれており、許容可能な精度レベルを維持しながら推論速度をさらに向上させることができます。

  • レイヤー融合: TensorRT の最適化プロセスにはレイヤー融合が含まれます。これは ニューラルネットワーク の複数のレイヤーを単一の操作に結合するものです。これにより、メモリへのアクセスと計算を最小限に抑え、計算オーバーヘッドを削減して推論速度を向上させます。

TensorRT neural network layer fusion optimization

  • 動的テンソルメモリ管理: TensorRT は推論中にテンソルメモリの使用量を効率的に管理し、メモリオーバーヘッドを削減してメモリ割り当てを最適化します。その結果、GPU メモリの利用効率が向上します。

  • 自動カーネルチューニング: TensorRT は自動カーネルチューニングを適用して、モデルの各レイヤーに最適な GPU カーネルを選択します。この適応的なアプローチにより、モデルは GPU の計算能力を最大限に活用できます。

Link to this sectionTensorRT におけるデプロイオプション#

YOLO26 モデルを TensorRT フォーマットにエクスポートするためのコードを確認する前に、TensorRT モデルが通常どこで使用されているかを理解しましょう。

TensorRT はいくつかのデプロイオプションを提供しており、各オプションは統合の容易さ、パフォーマンスの最適化、柔軟性のバランスが異なります。

  • TensorFlow 内でのデプロイ: この手法では TensorRT を TensorFlow に統合し、最適化されたモデルを使い慣れた TensorFlow 環境で実行できます。TF-TRT はサポートされているレイヤーとサポートされていないレイヤーが混在するモデルを効率的に処理できるため便利です。

NVIDIA TensorRT optimization workflow

  • スタンドアロン TensorRT Runtime API: きめ細かな制御が可能で、パフォーマンスが重要なアプリケーションに最適です。より複雑ですが、サポートされていない演算子のカスタム実装が可能です。

  • NVIDIA Triton Inference Server: さまざまなフレームワークからのモデルをサポートするオプションです。特にクラウドやエッジでの推論に適しており、並行モデル実行やモデル分析などの機能を提供します。

Link to this sectionYOLO26 モデルの TensorRT へのエクスポート#

YOLO26 モデルを TensorRT フォーマットに変換することで、実行効率を改善し、パフォーマンスを最適化できます。

Link to this sectionインストール#

必要なパッケージをインストールするには、以下を実行してください:

インストール
# Install the required package for YOLO26
pip install ultralytics

インストールプロセスに関する詳細な手順とベストプラクティスについては、当社のYOLO26インストールガイドをご確認ください。YOLO26に必要なパッケージをインストールする際に問題が発生した場合は、当社のよくある問題ガイドで解決策やヒントを参照してください。

Link to this section使用方法#

使用方法の説明に入る前に、Ultralyticsが提供するYOLO26モデルのラインナップを必ずご確認ください。これにより、プロジェクトの要件に最も適したモデルを選択するのに役立ちます。

TensorRT フォーマットは ExportPredict、および Validate モードをサポートしています。推論とバリデーションには NVIDIA GPU が必要です。モデルをエクスポートしてから、エクスポートされたモデルをロードして推論を実行するか、精度を検証してください。

エクスポート
from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format
model.export(format="engine")  # creates 'yolo26n.engine'
予測
from ultralytics import YOLO

# Load the exported TensorRT model
model = YOLO("yolo26n.engine")

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
検証
from ultralytics import YOLO

# Load the exported TensorRT model
model = YOLO("yolo26n.engine")

# Validate accuracy on the COCO8 dataset
metrics = model.val(data="coco8.yaml")

Link to this sectionエクスポートの引数#

引数タイプデフォルト説明
formatstr'engine'エクスポートするモデルのターゲット形式。さまざまなデプロイ環境との互換性を定義します。
imgszintまたはtuple640モデル入力用の希望する画像サイズ。正方形画像の場合は整数、特定の寸法の場合はタプル(height, width)を指定できます。
halfboolFalseFP16(半精度)量子化を有効にし、モデルサイズを縮小して、サポートされているハードウェアでの推論を高速化する可能性があります。
int8boolFalseINT8量子化を有効にし、モデルをさらに圧縮して、主にエッジデバイス向けに精度を最小限の損失に抑えつつ推論を高速化します。
dynamicboolFalse動的な入力サイズを許可し、さまざまな画像次元を扱う際の柔軟性を高めます。
simplifyboolTrueonnxslim を使用してモデルグラフを簡素化し、パフォーマンスと互換性を向上させる可能性があります。
workspacefloat または NoneNoneTensorRT 最適化のための最大ワークスペースサイズを GiB 単位で設定し、メモリ使用量とパフォーマンスのバランスを取ります。TensorRT がデバイスの最大値まで自動割り当てを行う場合は None を使用してください。
nmsboolFalseNon-Maximum Suppression (NMS) を追加します。これは正確で効率的な検出後処理に不可欠です。
batchint1エクスポートされたモデルのバッチ推論サイズ、あるいはpredictモードで同時に処理する画像の最大数を指定します。
datastr'coco8.yaml'データセット構成ファイルへのパス(デフォルト: coco8.yaml)。量子化に不可欠です。
fractionfloat1.0INT8量子化キャリブレーションに使用するデータセットの割合を指定します。フルデータセットのサブセットでキャリブレーションを行えるため、実験やリソースが限られている場合に便利です。INT8が有効で指定されていない場合、フルデータセットが使用されます。
devicestrNoneエクスポート用のデバイスを指定します:GPU (device=0)、NVIDIA Jetson 用の DLA (device=dla:0 または device=dla:1)。
ヒント

TensorRT にエクスポートする際は、CUDA をサポートする GPU を使用するようにしてください。

TensorRT 11.0およびDLA

TensorRT 11.0 は DLA をサポートしていません。device=dla:0 または device=dla:1 を使用する場合は TensorRT 10.x を使用するか、TensorRT 11.0 GPU エンジンをエクスポートしてください。

エクスポートプロセスの詳細については、Ultralyticsのエクスポートに関するドキュメントページを参照してください。

Link to this sectionINT8 量子化による TensorRT エクスポート#

INT8 精度 を使用した TensorRT での Ultralytics YOLO モデルのエクスポートは、学習後量子化 (PTQ) を実行します。TensorRT は PTQ にキャリブレーションを使用します。これは、YOLO モデルが代表的な入力データで推論処理を行う際に、各アクティベーションテンソル内のアクティベーションの分布を測定し、その分布を使用して各テンソルのスケール値を推定するものです。量子化の候補となる各アクティベーションテンソルには、キャリブレーションプロセスによって推定された関連スケールがあります。

TensorRT 11 の量子化

TensorRT 11 では暗黙的な量子化と IInt8Calibrator インターフェースが削除されました。TensorRT 11 以降、Ultralytics は NVIDIA ModelOpt の明示的な量子化を使用して INT8 量子化を実行します。これは、強く型付けされたエンジンを構築する前に ONNX グラフに Q/DQ ノードを挿入するもので、FP16 は ModelOpt AutoCast の混合精度変換で適用されます。int8=Truehalf=True、および data 引数は同じように機能します。ModelOpt は初回使用時に自動的にインストールされます。TensorRT 7-10 では、代わりに以下で説明するレガシーキャリブレーターが使用されます。

暗黙的に量子化されたネットワークを処理する場合、TensorRT は INT8 を日和見的に使用してレイヤーの実行時間を最適化します。レイヤーが INT8 でより高速に動作し、そのデータ入力と出力に量子化スケールが割り当てられている場合、そのレイヤーには INT8 精度のカーネルが割り当てられます。そうでない場合、TensorRT はそのレイヤーの実行時間が短くなる方に基づいて、FP32 または FP16 のいずれかの精度のカーネルを選択します。

ヒント

キャリブレーション結果はデバイス間で異なる可能性があるため、INT8 精度でエクスポートする際は、デプロイ時に TensorRT モデルの重みを使用する同じデバイスを使用することが 極めて重要 です。

Link to this sectionINT8 エクスポートの構成#

Ultralytics YOLO モデルで エクスポート を使用する際に提供される引数は、エクスポートされたモデルのパフォーマンスに 大きな 影響を与えます。また、利用可能なデバイスリソースに基づいて選択する必要がありますが、デフォルトの引数はほとんどの Ampere(またはそれ以降)の NVIDIA ディスクリート GPU で機能するはずです。使用されるキャリブレーションアルゴリズムは GPU エクスポートでは "MINMAX_CALIBRATION" であり、NVIDIA Jetson 上での DLA エクスポートでは "ENTROPY_CALIBRATION_2" が使用されます。利用可能なオプションの詳細については、TensorRT 開発者ガイド を参照してください。Ultralytics のテストでは "MINMAX_CALIBRATION" が GPU エクスポートに最適な選択肢であることが判明しており、アルゴリズムはエクスポートデバイスに基づいて自動的に選択されます。

  • workspace : モデルの重みを変換する際のデバイスメモリ割り当てサイズ(GiB 単位)を制御します。

    • キャリブレーションのニーズとリソースの可用性に応じて workspace 値を調整してください。workspace を大きくするとキャリブレーション時間が長くなる可能性がありますが、TensorRT がより広範囲の最適化戦術を探索できるようになり、モデルのパフォーマンスと 精度 が向上する可能性があります。逆に、workspace を小さくするとキャリブレーション時間を短縮できますが、最適化戦略が制限され、量子化モデルの品質に影響を与える可能性があります。

    • デフォルトは workspace=None であり、TensorRT が自動的にメモリを割り当てます。手動で構成する場合、キャリブレーションがクラッシュ(警告なしで終了)する場合はこの値を増やす必要があるかもしれません。

    • TensorRT will report UNSUPPORTED_STATE during export if the value for workspace is larger than the memory available to the device, which means the value for workspace should be lowered or set to None.

    • workspace が最大値に設定されていてキャリブレーションが失敗またはクラッシュする場合は、自動割り当てのために None を使用するか、メモリ要件を減らすために imgszbatch の値を減らすことを検討してください。

    • 注意:INT8 のキャリブレーションは各デバイス固有です。キャリブレーションのために「ハイエンド」GPU を借りると、別のデバイスで推論を実行した際にパフォーマンスが低下する可能性があります。

  • batch : 推論に使用する最大バッチサイズです。推論中にはより小さいバッチを使用できますが、指定されたサイズを超えるバッチは受け入れられません。

注意

小さいバッチを使用すると、INT8 キャリブレーション中に不正確なスケーリングが発生する可能性があります。これは、プロセスが確認するデータに基づいて調整を行うためです。小さいバッチでは値の全範囲を捕捉できず、最終的なキャリブレーションに問題が生じる可能性があります。大きい バッチサイズ を使用することで、より代表的なキャリブレーション結果を確実に得ることができます。

Experimentation by NVIDIA led them to recommend using at least 500 calibration images that are representative of the data for your model, with INT8 quantization calibration. This is a guideline and not a hard requirement, and you will need to experiment with what is required to perform well for your dataset. Since the calibration data is required for INT8 calibration with TensorRT, make certain to use the data argument when int8=True for TensorRT and use data="my_dataset.yaml", which will use the images from validation to calibrate with. When no value is passed for data with export to TensorRT with INT8 quantization, the default will be to use one of the "small" example datasets based on the model task instead of throwing an error.

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(
    format="engine",
    dynamic=True,  # (1)!
    batch=8,  # (2)!
    workspace=4,  # (3)!
    int8=True,
    data="coco.yaml",  # (4)!
)

# Load the exported TensorRT INT8 model
model = YOLO("yolo26n.engine", task="detect")

# Run inference
result = model.predict("https://ultralytics.com/images/bus.jpg")
  1. 動的軸によるエクスポート。これは int8=True でエクスポートする際、明示的に設定されていなくてもデフォルトで有効になります。詳細については エクスポート引数 を参照してください。
  2. エクスポートされたモデルと INT8 キャリブレーションの最大バッチサイズを 8 に設定します。
  3. 変換プロセス全体にデバイスを割り当てるのではなく、4 GiB のメモリを割り当てます。
  4. キャリブレーションに COCO データセット を使用します。具体的には、バリデーション に使用される画像(合計 5,000 枚)を使用します。
キャリブレーションキャッシュ

TensorRT は .cache キャリブレーションファイルを生成します。これは同じデータを使用して将来モデルの重みをエクスポートする際に再利用して高速化できますが、データが大きく異なる場合や batch 値が大幅に変更された場合は、キャリブレーションの精度が低下する可能性があります。このような状況では、既存の .cache ファイルの名前を変更して別のディレクトリに移動するか、完全に削除する必要があります。

Link to this sectionYOLO と TensorRT INT8 を使用する利点#

  • モデルサイズの縮小: FP32 から INT8 への量子化により、モデルサイズを 4 倍に縮小(ディスクまたはメモリ上で)できるため、ダウンロード時間の短縮、ストレージ要件の低減、モデルデプロイ時のメモリフットプリントの削減につながります。

  • 消費電力の低減: INT8 でエクスポートされた YOLO モデルの低精度操作は、特にバッテリー駆動のデバイスにおいて、FP32 モデルと比較して消費電力を抑えられる可能性があります。

  • 推論速度の向上: TensorRT はターゲットハードウェアに合わせてモデルを最適化し、GPU、組み込みデバイス、アクセラレータでの推論速度を向上させます。

推論速度に関する注意

TensorRT INT8 にエクスポートされたモデルによる最初の数回の推論呼び出しでは、前処理、推論、後処理の時間が通常よりも長くなることが予想されます。これは推論中に imgsz を変更した際にも発生する可能性があり、特に imgsz がエクスポート時に指定されたものと異なる場合に顕著です(エクスポート時の imgsz は TensorRT の「最適」プロファイルとして設定されます)。

Link to this sectionYOLO と TensorRT INT8 を使用する欠点#

  • Decreases in evaluation metrics: Using a lower precision will mean that mAP, Precision, Recall or any other metric used to evaluate model performance is likely to be somewhat worse. See the Performance results section to compare the differences in mAP50 and mAP50-95 when exporting with INT8 on small sample of various devices.

  • 開発時間の増加: データセットとデバイスに対して INT8 キャリブレーションの「最適」な設定を見つけるには、かなりのテストが必要になる場合があります。

  • ハードウェア依存: キャリブレーションとパフォーマンスの向上はハードウェアに大きく依存する可能性があり、モデルの重みの移植性が低下します。

Link to this sectionUltralytics YOLO TensorRT エクスポートのパフォーマンス#

Link to this sectionNVIDIA A100#

性能

Ubuntu 22.04.3 LTS、python 3.10.12ultralytics==8.2.4tensorrt==8.6.1.post1 でテスト済み

See Detection Docs for usage examples with these models trained on COCO, which include 80 pretrained classes.

注意

Inference times shown for mean, min (fastest), and max (slowest) for each test using pretrained weights yolov8n.engine

適合率評価テスト平均
(ms)
最小 | 最大
(ms)
mAPval
50(B)
mAPval
50-95(B)
batchサイズ
(ピクセル)
FP32予測0.520.51 | 0.568640
FP32COCOval0.520.520.371640
FP16予測0.340.34 | 0.418640
FP16COCOval0.330.520.371640
INT8予測0.280.27 | 0.318640
INT8COCOval0.290.470.331640

Link to this sectionコンシューマー向けGPU#

検出パフォーマンス (COCO)

Windows 10.0.19045、python 3.10.9ultralytics==8.2.4tensorrt==10.0.0b6 でテスト済み

注意

Inference times shown for mean, min (fastest), and max (slowest) for each test using pretrained weights yolov8n.engine

適合率評価テスト平均
(ms)
最小 | 最大
(ms)
mAPval
50(B)
mAPval
50-95(B)
batchサイズ
(ピクセル)
FP32予測1.060.75 | 1.888640
FP32COCOval1.370.520.371640
FP16予測0.620.75 | 1.138640
FP16COCOval0.850.520.371640
INT8予測0.520.38 | 1.008640
INT8COCOval0.740.470.331640

Link to this section組み込みデバイス#

検出パフォーマンス (COCO)

JetPack 6.0 (L4T 36.3) Ubuntu 22.04.4 LTS、python 3.10.12ultralytics==8.2.16tensorrt==10.0.1 でテスト済み

注意

Inference times shown for mean, min (fastest), and max (slowest) for each test using pretrained weights yolov8n.engine

適合率評価テスト平均
(ms)
最小 | 最大
(ms)
mAPval
50(B)
mAPval
50-95(B)
batchサイズ
(ピクセル)
FP32予測6.116.10 | 6.298640
FP32COCOval6.170.520.371640
FP16予測3.183.18 | 3.208640
FP16COCOval3.190.520.371640
INT8予測2.302.29 | 2.358640
INT8COCOval2.320.460.321640
情報

セットアップと構成の詳細については、Ultralytics YOLOを使用したNVIDIA Jetsonに関するクイックスタートガイドを参照してください。

情報

セットアップと構成の詳細については、Ultralytics YOLOを使用したNVIDIA DGX Sparkに関するクイックスタートガイドを参照してください。

Link to this section評価方法#

これらのモデルがどのようにエクスポートされ、テストされたかについての情報は、以下のセクションを展開して確認してください。

エクスポート構成

エクスポート構成引数の詳細については、エクスポートモードを参照してください。

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# TensorRT FP32
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2)

# TensorRT FP16
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, half=True)

# TensorRT INT8 with calibration `data` (i.e. COCO, ImageNet, or DOTAv1 for appropriate model task)
out = model.export(
    format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, int8=True, data="coco8.yaml"
)
予測ループ

詳細については、予測モードを参照してください。

import cv2

from ultralytics import YOLO

model = YOLO("yolo26n.engine")
img = cv2.imread("path/to/image.jpg")

for _ in range(100):
    result = model.predict(
        [img] * 8,  # batch=8 of the same image
        verbose=False,
        device="cuda",
    )
検証構成

検証構成引数の詳細については、val モードを参照してください。

from ultralytics import YOLO

model = YOLO("yolo26n.engine")
results = model.val(
    data="data.yaml",  # COCO, ImageNet, or DOTAv1 for appropriate model task
    batch=1,
    imgsz=640,
    verbose=False,
    device="cuda",
)

Link to this sectionエクスポートされたYOLO26 TensorRTモデルのデプロイ#

Ultralytics YOLO26モデルをTensorRT形式に正常にエクスポートしたら、次はデプロイの準備が完了です。さまざまな環境でTensorRTモデルをデプロイするための詳細な手順については、以下のリソースを確認してください。

Link to this section要約#

このガイドでは、Ultralytics YOLO26モデルをNVIDIAのTensorRTモデル形式に変換することに焦点を当てました。この変換ステップは、YOLO26モデルの効率と速度を向上させ、多様なデプロイ環境においてより効果的に機能させるために不可欠です。

使用方法の詳細については、TensorRT公式ドキュメントを参照してください。

その他のUltralytics YOLO26のインテグレーションに興味がある場合は、インテグレーションガイドページにて、有益なリソースと知見を幅広く提供しています。

Link to this sectionよくある質問 (FAQ)#

Link to this sectionYOLO26モデルをTensorRTフォーマットに変換するにはどうすればよいですか?#

Ultralytics YOLO26モデルをNVIDIA GPUでの推論を最適化するためにTensorRTフォーマットへ変換するには、以下の手順に従ってください。

  1. 必要なパッケージをインストールする:

    pip install ultralytics
  2. YOLO26モデルをエクスポートする:

    from ultralytics import YOLO
    
    model = YOLO("yolo26n.pt")
    model.export(format="engine")  # creates 'yolo26n.engine'
    
    # Run inference
    model = YOLO("yolo26n.engine")
    results = model("https://ultralytics.com/images/bus.jpg")

詳細は、YOLO26インストールガイドおよびエクスポートドキュメントを参照してください。

Link to this sectionYOLO26モデルでTensorRTを使用する利点は何ですか?#

TensorRTを使用してYOLO26モデルを最適化することには、いくつかの利点があります。

  • 推論速度の高速化: TensorRTはモデルのレイヤーを最適化し、精度を大幅に犠牲にすることなく推論を高速化するために精度キャリブレーション(INT8およびFP16)を使用します。
  • メモリ効率: TensorRTはテンソルメモリを動的に管理し、オーバーヘッドを削減してGPUメモリの使用率を向上させます。
  • レイヤー融合: 複数のレイヤーを単一のオペレーションに統合し、計算の複雑さを軽減します。
  • カーネル自動チューニング: モデルの各レイヤーに対して最適化されたGPUカーネルを自動的に選択し、パフォーマンスを最大化します。

詳細については、NVIDIAによるTensorRT公式ドキュメントおよび当社の詳細なTensorRT概要を参照してください。

Link to this sectionYOLO26モデルでTensorRTを使用してINT8量子化を利用できますか?#

はい、YOLO26モデルはTensorRTを使用してINT8量子化でエクスポート可能です。このプロセスには、学習後量子化(PTQ)とキャリブレーションが含まれます。

  1. INT8でエクスポートする:

    from ultralytics import YOLO
    
    model = YOLO("yolo26n.pt")
    model.export(format="engine", batch=8, workspace=4, int8=True, data="coco.yaml")
  2. 推論を実行する:

    from ultralytics import YOLO
    
    model = YOLO("yolo26n.engine", task="detect")
    result = model.predict("https://ultralytics.com/images/bus.jpg")

詳細は、INT8量子化を用いたTensorRTエクスポートセクションを参照してください。

Link to this sectionYOLO26 TensorRTモデルをNVIDIA Triton Inference Serverにデプロイするにはどうすればよいですか?#

YOLO26 TensorRTモデルをNVIDIA Triton Inference Serverにデプロイするには、以下のリソースを使用できます。

これらのガイドは、YOLO26モデルをさまざまなデプロイ環境で効率的に統合するのに役立ちます。

Link to this sectionYOLO26モデルをTensorRTにエクスポートした場合、どのようなパフォーマンス向上が見られますか?#

TensorRTによるパフォーマンスの向上は、使用するハードウェアによって異なります。以下に典型的なベンチマークの例を示します。

  • NVIDIA A100:

    • FP32 推論: ~0.52 ms / 画像
    • FP16 推論: ~0.34 ms / 画像
    • INT8 推論: ~0.28 ms / 画像
    • INT8精度ではmAPがわずかに低下しますが、速度は大幅に向上します。
  • コンシューマー向けGPU(例: RTX 3080):

    • FP32 推論: ~1.06 ms / 画像
    • FP16 推論: ~0.62 ms / 画像
    • INT8 推論: ~0.52 ms / 画像

さまざまなハードウェア構成の詳細なパフォーマンスベンチマークは、パフォーマンスセクションに記載されています。

TensorRTのパフォーマンスに関するより包括的な知見については、Ultralyticsドキュメントおよび当社のパフォーマンス分析レポートを参照してください。

コメント