RTDETRv2とYOLOX:物体検出の技術比較
コンピュータビジョンのプロジェクトでは、適切な物体検出モデルを選択することが非常に重要です。Ultralytics 、YOLO シリーズやRT-DETR シリーズなど、それぞれ独自の強みを持つ多様なモデルを提供しています。このページでは、RTDETRv2とYOLOXという物体検出のための2つの最先端モデルの詳細な技術比較を提供し、プロジェクト要件に基づいた十分な情報に基づいた決定を支援します。
RTDETRv2:高精度リアルタイム検出
RTDETRv2(Real-Time Detection Transformer v2)は、バイドゥが開発した先進的な物体検出モデルで、その高い精度とリアルタイム性能で知られている。2023-04-17に発表され、Arxiv論文で詳述されているRTDETRv2は、Vision Transformer(ViT)アーキテクチャを利用して最先端の結果を達成している。正式な実装はGitHubで公開されている。
アーキテクチャと主な特徴
RTDETRv2のアーキテクチャはVision Transformersをベースとしており、自己注意メカニズムによって画像内のグローバルなコンテキストをキャプチャすることができます。この変換器ベースのアプローチにより、特に複雑なシーンにおいて、ロバストな特徴抽出と正確な物体定位が可能になる。従来のCNNベースのモデルとは異なり、RTDETRv2は画像の異なる部分間の関係を理解することに優れており、検出精度の向上につながります。
パフォーマンス指標
RTDETRv2モデルは印象的なmAPスコアを示し、RTDETRv2-xのような大型のバリエーションは、54.3のmAPval50-95を達成しています。CPU ONNX 詳細な速度メトリクスは以下の表には示し ていませんが、TensorRT 速度は競争力があり、NVIDIA T4 GPU のような高性能ハードウェア上のリアルタイムアプリケーションに適しています。詳細な性能指標については、以下のモデル比較表を参照してください。
強みと弱み
強みだ:
- 優れた精度:トランスフォーマー・アーキテクチャーは、優れた物体検出精度を提供します。
- リアルタイム対応:ハードウェアアクセラレーションにより、リアルタイムシステムに最適な推論速度を実現。
- 効果的な特徴抽出:ビジョントランスフォーマーは、グローバルなコンテキストと複雑なディテールを効果的に捉えます。
弱点がある:
- より大きなモデルサイズ:RTDETRv2モデル、特に大型モデルは、パラメータ数とFLOP数が多く、より多くの計算リソースを必要とします。
- 推論速度の制限:リアルタイムではあるが、性能の低いデバイスでは、YOLOXのような高度に最適化されたモデルほど高速ではないかもしれない。
理想的な使用例
RTDETRv2 は、精度が最優先され、十分な計算リソースが利用可能なアプリケーションに最適です。理想的な使用例
- 自律走行車:自動運転システムにおける信頼性の高い正確な環境認識のために。自動運転車におけるAI
- ロボティクスロボットが複雑な環境で物体を正確に認識し、相互作用できるようにする。アルゴリズムから自動化へ:ロボット工学におけるAIの役割
- メディカルイメージング医療画像の異常を高精度に検出し、診断に役立てる。ヘルスケアにおけるAI
- 高解像度画像解析:衛星画像や航空画像など、大きな画像の詳細な解析を必要とするアプリケーション。衛星画像の解析にコンピュータ・ビジョンを使用する
YOLOX:効率的で多用途な物体検出
YOLOX(You Only Look Once X)は、Megviiが開発したアンカーフリーの物体検出モデルで、その高い性能と効率性で知られている。2021-07-18に発表され、Arxivの論文で詳述されているYOLOXは、YOLO シリーズをベースに構築されており、簡素化された設計で最先端の結果を提供している。公式ドキュメントに包括的な詳細が記載されている。
アーキテクチャと主な特徴
YOLOXはアンカーフリーアプローチを採用し、あらかじめ定義されたアンカーボックスを必要としないため、モデルが単純化され、ハイパーパラメータが削減される。YOLOXは、分類とローカライゼーションを分離したヘッドを特徴としており、トレーニングの効率と精度を高めています。MixUpやMosaicのような高度なデータ補強技術を利用し、ロバスト性を向上させています。YOLOXは高速かつ効率的に設計されており、リアルタイムアプリケーションや様々なハードウェアプラットフォームへの展開に適しています。
パフォーマンス指標
YOLOXは、NanoからXLargeまで、さまざまな計算予算と精度のニーズに応える幅広いモデルサイズを提供しています。YOLOXモデルは、速度と精度の優れたバランスを実現しています。例えば、YOLOX-sは、TensorRT上で高速推論を行い、40.5のmAPval50-95を達成しています。さまざまなYOLOXバリアントにおける詳細な性能指標については、以下のモデル比較表を参照してください。
強みと弱み
強みだ:
- 高い効率とスピード:高速推論に最適化されているため、リアルタイムアプリケーションに最適です。
- アンカーフリー設計:アーキテクチャとトレーニングプロセスを簡素化し、汎化を向上。
- 多彩なモデルサイズ:さまざまな計算制約に対応するために、さまざまなモデルサイズを提供します。
- 強力なパフォーマンス:スピードと正確性のバランスが取れている。
弱点がある:
- 精度のトレードオフ:効率的ではあるが、複雑なシナリオでは、その精度はRTDETRv2のようなトランスベースのモデルよりも若干低くなる可能性がある。
- 複雑なシーンでの性能:YOLOXは1段検出器であるため、2段検出器と比較すると、非常に混雑したシーンでのロバスト性は劣るかもしれないが、YOLO 以前のバージョンと比較すると、このギャップはかなり緩和されている。
理想的な使用例
YOLOXは、スピードと効率性を重視したリアルタイムの物体検出を必要とするアプリケーションに最適です。以下のような用途に適しています:
- ロボット工学動的環境におけるロボットのナビゲーションとインタラクションのためのリアルタイム知覚。ロボット工学におけるAI
- 監視システム:セキュリティおよび監視アプリケーションのためのビデオストリームにおける効率的なオブジェクト検出。盗難防止のためのコンピュータビジョン:セキュリティの強化
- 工業検査:欠陥検出と品質管理のための生産ラインでの自動外観検査。コンピュータ・ビジョンによる製造の改善
- エッジデバイス:計算効率が重要な、リソースに制約のあるデバイスへの展開。ソニーIMX500とAitriosによるエッジAIの強化
モデル比較表
モデル | サイズ(ピクセル) | mAPval 50-95 |
CPU ONNX (ms) |
SpeedT4TensorRT10 (ms) |
params(M) | フロップス(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
ヨロックスナノ | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
ヨロックス | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
ヨロックス | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
結論
RTDETRv2とYOLOXはどちらも強力な物体検出モデルですが、優先順位が異なります。RTDETRv2は、最大限の精度が要求され、計算リソースが制限要因とならない場合に優れた選択肢となります。逆にYOLOXは、リアルタイムのパフォーマンス、効率性、性能の低いハードウェアへの展開が重要なシナリオで優れています。
他の選択肢をお探しのユーザーには、Ultralytics 以下のような幅広いモデルを提供している:
- YOLOv8 YOLOv9:スピードと精度のトレードオフを提供するYOLO シリーズの後継機。Ultralytics YOLOv8 1周年を迎えました:躍進と革新の1年、YOLOv9ドキュメント
- YOLO:ニューラルアーキテクチャ検索を使用して設計されたモデルは、最適なパフォーマンスを発揮します。YOLO byDeci AI - 最先端の物体検出モデル
- FastSAM とMobileSAM:リアルタイムのインスタンス分割タスク用。FastSAM ドキュメント,MobileSAM ドキュメント
RTDETRv2、YOLOX、その他のUltralytics モデルの選択は、精度、スピード、利用可能なリソースのバランスを注意深く取りながら、コンピュータービジョンプロジェクトの具体的なニーズによって導かれるべきです。より詳細な情報と実装の詳細については、Ultralytics ドキュメントと GitHubリポジトリを参照してください。