コンテンツへスキップ

RTDETRv2とYOLOX:物体検出の技術比較

コンピュータビジョンのプロジェクトでは、適切な物体検出モデルを選択することが非常に重要です。Ultralytics 、YOLO シリーズやRT-DETR シリーズなど、それぞれ独自の強みを持つ多様なモデルを提供しています。このページでは、RTDETRv2とYOLOXという物体検出のための2つの最先端モデルの詳細な技術比較を提供し、プロジェクト要件に基づいた十分な情報に基づいた決定を支援します。

RTDETRv2:高精度リアルタイム検出

RTDETRv2(Real-Time Detection Transformer v2)は、バイドゥが開発した先進的な物体検出モデルで、その高い精度とリアルタイム性能で知られている。2023-04-17に発表され、Arxiv論文で詳述されているRTDETRv2は、Vision Transformer(ViT)アーキテクチャを利用して最先端の結果を達成している。正式な実装はGitHubで公開されている。

アーキテクチャと主な特徴

RTDETRv2のアーキテクチャはVision Transformersをベースとしており、自己注意メカニズムによって画像内のグローバルなコンテキストをキャプチャすることができます。この変換器ベースのアプローチにより、特に複雑なシーンにおいて、ロバストな特徴抽出と正確な物体定位が可能になる。従来のCNNベースのモデルとは異なり、RTDETRv2は画像の異なる部分間の関係を理解することに優れており、検出精度の向上につながります。

パフォーマンス指標

RTDETRv2モデルは印象的なmAPスコアを示し、RTDETRv2-xのような大型のバリエーションは、54.3のmAPval50-95を達成しています。CPU ONNX 詳細な速度メトリクスは以下の表には示し ていませんが、TensorRT 速度は競争力があり、NVIDIA T4 GPU のような高性能ハードウェア上のリアルタイムアプリケーションに適しています。詳細な性能指標については、以下のモデル比較表を参照してください。

強みと弱み

強みだ:

  • 優れた精度:トランスフォーマー・アーキテクチャーは、優れた物体検出精度を提供します。
  • リアルタイム対応:ハードウェアアクセラレーションにより、リアルタイムシステムに最適な推論速度を実現。
  • 効果的な特徴抽出:ビジョントランスフォーマーは、グローバルなコンテキストと複雑なディテールを効果的に捉えます。

弱点がある:

  • より大きなモデルサイズ:RTDETRv2モデル、特に大型モデルは、パラメータ数とFLOP数が多く、より多くの計算リソースを必要とします。
  • 推論速度の制限:リアルタイムではあるが、性能の低いデバイスでは、YOLOXのような高度に最適化されたモデルほど高速ではないかもしれない。

理想的な使用例

RTDETRv2 は、精度が最優先され、十分な計算リソースが利用可能なアプリケーションに最適です。理想的な使用例

RTDETRv2についてもっと知る

YOLOX:効率的で多用途な物体検出

YOLOX(You Only Look Once X)は、Megviiが開発したアンカーフリーの物体検出モデルで、その高い性能と効率性で知られている。2021-07-18に発表され、Arxivの論文で詳述されているYOLOXは、YOLO シリーズをベースに構築されており、簡素化された設計で最先端の結果を提供している。公式ドキュメントに包括的な詳細が記載されている。

アーキテクチャと主な特徴

YOLOXはアンカーフリーアプローチを採用し、あらかじめ定義されたアンカーボックスを必要としないため、モデルが単純化され、ハイパーパラメータが削減される。YOLOXは、分類とローカライゼーションを分離したヘッドを特徴としており、トレーニングの効率と精度を高めています。MixUpやMosaicのような高度なデータ補強技術を利用し、ロバスト性を向上させています。YOLOXは高速かつ効率的に設計されており、リアルタイムアプリケーションや様々なハードウェアプラットフォームへの展開に適しています。

パフォーマンス指標

YOLOXは、NanoからXLargeまで、さまざまな計算予算と精度のニーズに応える幅広いモデルサイズを提供しています。YOLOXモデルは、速度と精度の優れたバランスを実現しています。例えば、YOLOX-sは、TensorRT上で高速推論を行い、40.5のmAPval50-95を達成しています。さまざまなYOLOXバリアントにおける詳細な性能指標については、以下のモデル比較表を参照してください。

強みと弱み

強みだ:

  • 高い効率とスピード:高速推論に最適化されているため、リアルタイムアプリケーションに最適です。
  • アンカーフリー設計:アーキテクチャとトレーニングプロセスを簡素化し、汎化を向上。
  • 多彩なモデルサイズ:さまざまな計算制約に対応するために、さまざまなモデルサイズを提供します。
  • 強力なパフォーマンス:スピードと正確性のバランスが取れている。

弱点がある:

  • 精度のトレードオフ:効率的ではあるが、複雑なシナリオでは、その精度はRTDETRv2のようなトランスベースのモデルよりも若干低くなる可能性がある。
  • 複雑なシーンでの性能:YOLOXは1段検出器であるため、2段検出器と比較すると、非常に混雑したシーンでのロバスト性は劣るかもしれないが、YOLO 以前のバージョンと比較すると、このギャップはかなり緩和されている。

理想的な使用例

YOLOXは、スピードと効率性を重視したリアルタイムの物体検出を必要とするアプリケーションに最適です。以下のような用途に適しています:

YOLOXについてもっと知る

モデル比較表

モデル サイズ(ピクセル) mAPval
50-95
CPU ONNX
(ms)
SpeedT4TensorRT10
(ms)
params(M) フロップス(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
ヨロックスナノ 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
ヨロックス 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
ヨロックス 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

結論

RTDETRv2とYOLOXはどちらも強力な物体検出モデルですが、優先順位が異なります。RTDETRv2は、最大限の精度が要求され、計算リソースが制限要因とならない場合に優れた選択肢となります。逆にYOLOXは、リアルタイムのパフォーマンス、効率性、性能の低いハードウェアへの展開が重要なシナリオで優れています。

他の選択肢をお探しのユーザーには、Ultralytics 以下のような幅広いモデルを提供している:

RTDETRv2、YOLOX、その他のUltralytics モデルの選択は、精度、スピード、利用可能なリソースのバランスを注意深く取りながら、コンピュータービジョンプロジェクトの具体的なニーズによって導かれるべきです。より詳細な情報と実装の詳細については、Ultralytics ドキュメントと GitHubリポジトリを参照してください。

📅作成:1年前 ✏️更新:1ヶ月前

コメント