RTDETRv2とYOLOv9:物体検出の技術比較
最適な物体検出モデルを選択することは、コンピュータビジョンプロジェクトにとって重要な決断です。Ultralytics 、スピードと効率で定評のあるYOLO シリーズや、高精度を重視したRT-DETR シリーズなど、多様なモデルを提供しています。このページでは、最先端の物体検出モデルであるRTDETRv2とYOLOv9の詳細な技術比較をお届けします。
RTDETRv2:トランス電源式高精度
RTDETRv2(Real-Time Detection Transformer v2)は、Baiduが開発した最先端の物体検出モデルであり、その卓越した精度とリアルタイム性能で知られている。RTDETRv2は、Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、およびYi Liuによって作成された。Vision Transformer (ViT)アーキテクチャを活用することで、正確なオブジェクトの定位と分類を実現し、要求の厳しいアプリケーションに適しています。
アーキテクチャと主な特徴
RTDETRv2のアーキテクチャーはVision Transformersをベースに構築されており、自己アテンションメカニズムによって画像内のグローバルコンテキストを捉えることを可能にしている。これは従来の畳み込みニューラルネットワーク(CNN)とは大きく異なり、RTDETRv2が異なる画像領域の重要性を重み付けすることで、特に複雑なシーンにおいて特徴抽出を強化し、優れた精度を実現します。変換器ベースの設計により、アンカーを使用しない検出が可能になり、検出プロセスが簡素化され、汎化性が向上する可能性がある。
パフォーマンス指標
RTDETRv2は、特にmAPにおいて強力な性能を示した。比較表で詳述するように、RTDETRv2-xは54.3のmAPval50-95を達成している。推論速度も競争力があり、RTDETRv2-sはTensorRT5.03ミリ秒に達しており、NVIDIA T4 GPUのような高性能ハードウェアを使用するリアルタイムアプリケーションに適しています。性能評価の詳細については、YOLO Performance Metricsガイドを参照してください。
強みと弱み
強みだ:
- 高精度:トランスフォーマー・アーキテクチャーは、精度が要求されるアプリケーションに不可欠な、優れた物体検出精度を提供します。
- リアルタイム対応:特にTensorRT 最適化され、適切なハードウェア上で実行された場合、競争力のある推論速度を達成する。
- グローバルコンテキストの理解:ヴィジョン・トランスフォーマーは、グローバルなコンテキストを効果的に把握し、複雑な環境でもロバストな検出を可能にします。
弱点がある:
- より大きなモデルサイズ:RTDETRv2モデル、特にRTDETRv2-xのような大型のモデルは、パラメータ数とFLOP数が大きく、より多くの計算リソースを必要とします。
- 推論速度の限界:リアルタイム性は達成可能だが、YOLOv9のような高度に最適化されたCNNベースのモデルに比べると、特にリソースに制約のあるデバイスでは、推論速度が遅くなる可能性がある。
理想的な使用例
RTDETRv2 は、精度が最優先され、計算リソースが容易に利用できるアプリケーションに最適です。以下のような用途に適しています:
- 自律走行車:正確で信頼性の高い環境認識のために。自動運転車のAIについて詳しく見る。
- メディカルイメージング医療画像の正確な異常検知で診断に貢献します。ヘルスケアにおけるAIについて学ぶ。
- ロボティクスロボットが複雑な環境の中で物体と対話し、正確に操作できるようにする。ロボット工学におけるAIの役割を理解する。
- 高解像度画像解析:衛星画像や工業検査など、大きな画像の詳細解析に。コンピュータ・ビジョンを使った衛星画像の解析方法をご覧ください。
YOLOv9:プログラマブルな勾配情報が効率と精度を高める
YOLOv9(You Only Look Once 9)は、有名なUltralytics YOLO ファミリーの最先端の物体検出モデルである。2024-02-21にarXivで紹介されたYOLOv9は、台湾の中央研究院情報科学研究所のChien-Yao Wang氏とHong-Yuan Mark Liao氏によって執筆され、コードはGitHubで公開されている。YOLOv9は、プログラマブル勾配情報(PGI)とGELAN技術を導入し、YOLO 旧バージョンと比較して、精度と学習効率の両方を向上させている。
アーキテクチャと主な特徴
YOLOv9は、従来のYOLO モデルの効率性をベースに、アーキテクチャの斬新な改良を加えたものである。ネットワーク・アーキテクチャを最適化するためにGELAN(Generalized Efficient Layer Aggregation Network)を利用し、勾配情報の完全性を維持するためにPGIを利用することで、ディープネットワーク伝播時の情報損失に対処している。これらの革新的な技術により、精度の向上と効率的な学習が可能になった。YOLOv9は、アンカーフリーの検出ヘッドと合理化されたシングルステージ設計を維持し、リアルタイム性能に重点を置いている。
パフォーマンス指標
YOLOv9は、スピードと精度の魅力的なバランスを達成している。YOLOv9-eモデルは、55.6のmAPval50-95を達成し、推論速度で競争力を維持しながら、精度でさらに大きなRTDETRv2モデルを凌駕しています。より小型のYOLOv9-tモデルは非常に高速で、TensorRT推論速度は2.3ミリ秒に達し、レイテンシに非常に敏感なアプリケーションに適しています。
強みと弱み
強みだ:
- 高精度と高効率:PGIとGELANは、より高い精度と効率的なパラメータ利用の両方に貢献します。
- 速い推論速度:リアルタイム性能、特にエッジ展開に適した小型バリアントのために最適化されています。
- 効率的なトレーニングPGIは、より安定的で効率的なトレーニングプロセスに貢献する。
弱点がある:
- グローバルコンテキストの低下:CNNベースのアーキテクチャは、非常に複雑なシーンにおいて、変換器ベースのモデルと比較して、長距離の依存関係を捕捉する効果が低い可能性がある。
- 精度とスピードのトレードオフ:精度が高い一方で、最速の推論スピードを達成するためには、最大のモデルに比べて精度が若干低下する、より小さなモデルを使用することになるかもしれません。
理想的な使用例
YOLOv9は、特にリソースに制約のある環境において、高精度とリアルタイム性能のバランスを必要とするアプリケーションに適している:
- リアルタイム監視:セキュリティシステムにおける効率的で正確な監視のために。盗難防止のためのコンピュータビジョン
- エッジコンピューティング:計算リソースが限られたエッジ・デバイスへの展開。エッジAIについて学ぶ。
- ロボット工学ロボットシステムにおける高速かつ正確な知覚のために。ロボット工学におけるAIの役割を参照。
- 産業オートメーション:品質管理およびプロセス最適化のためのリアルタイムの物体検出を必要とする製造業のアプリケーション向け。製造業におけるAIをご覧ください。
モデル比較表
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
スピード T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
結論
RTDETRv2とYOLOv9は、それぞれ独自の強みを持つ強力な物体検出モデルです。RTDETRv2は、最大限の精度を優先するシナリオで優れた性能を発揮し、変換器アーキテクチャを活用してロバストな特徴抽出を行うため、計算リソースに余裕のあるアプリケーションに適しています。一方、YOLOv9 は、リアルタイムの性能と効率が最優先される場合に最適で、精度と速度の魅力的なブレンドを提供し、特にエッジデバイスや待ち時間の影響を受けやすいシステムでの展開に有益です。
Ultralytics 、他のモデルを検討したいユーザーのために、以下のような幅広いオプションを提供している:
- YOLOv8:前世代 Ultralytics YOLOv8スピードと精度のバランスを追求したモデル。
- YOLO11:効率とスピードの向上をお考えなら YOLO11.
- FastSAM MobileSAM:リアルタイムのインスタンスセグメンテーションタスクについては、こちらをご覧ください。 FastSAMと MobileSAM.
RTDETRv2、YOLOv9、その他のUltralytics モデルのいずれを選択するかは、精度、スピード、利用可能なリソースのバランスを慎重に考慮し、プロジェクト固有のニーズに依存します。包括的な詳細と実装ガイドについては、Ultralytics ドキュメントと Ultralytics GitHubリポジトリを参照してください。