コンテンツへスキップ

RTDETRv2とYOLOv9:物体検出の技術比較

最適な物体検出モデルを選択することは、コンピュータビジョンプロジェクトにとって重要な決断です。Ultralytics 、スピードと効率で定評のあるYOLO シリーズや、高精度を重視したRT-DETR シリーズなど、多様なモデルを提供しています。このページでは、最先端の物体検出モデルであるRTDETRv2とYOLOv9の詳細な技術比較をお届けします。

RTDETRv2:トランス電源式高精度

RTDETRv2(Real-Time Detection Transformer v2)は、Baiduが開発した最先端の物体検出モデルであり、その卓越した精度とリアルタイム性能で知られている。RTDETRv2は、Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、およびYi Liuによって作成されたVision Transformer (ViT)アーキテクチャを活用することで、正確なオブジェクトの定位と分類を実現し、要求の厳しいアプリケーションに適しています。

アーキテクチャと主な特徴

RTDETRv2のアーキテクチャーはVision Transformersをベースに構築されており、自己アテンションメカニズムによって画像内のグローバルコンテキストを捉えることを可能にしている。これは従来の畳み込みニューラルネットワーク(CNN)とは大きく異なり、RTDETRv2が異なる画像領域の重要性を重み付けすることで、特に複雑なシーンにおいて特徴抽出を強化し、優れた精度を実現します。変換器ベースの設計により、アンカーを使用しない検出が可能になり、検出プロセスが簡素化され、汎化性が向上する可能性がある。

パフォーマンス指標

RTDETRv2は、特にmAPにおいて強力な性能を示した。比較表で詳述するように、RTDETRv2-xは54.3のmAPval50-95を達成している。推論速度も競争力があり、RTDETRv2-sはTensorRT5.03ミリ秒に達しており、NVIDIA T4 GPUのような高性能ハードウェアを使用するリアルタイムアプリケーションに適しています。性能評価の詳細については、YOLO Performance Metricsガイドを参照してください。

強みと弱み

強みだ:

  • 高精度:トランスフォーマー・アーキテクチャーは、精度が要求されるアプリケーションに不可欠な、優れた物体検出精度を提供します。
  • リアルタイム対応:特にTensorRT 最適化され、適切なハードウェア上で実行された場合、競争力のある推論速度を達成する。
  • グローバルコンテキストの理解:ヴィジョン・トランスフォーマーは、グローバルなコンテキストを効果的に把握し、複雑な環境でもロバストな検出を可能にします。

弱点がある:

  • より大きなモデルサイズ:RTDETRv2モデル、特にRTDETRv2-xのような大型のモデルは、パラメータ数とFLOP数が大きく、より多くの計算リソースを必要とします。
  • 推論速度の限界:リアルタイム性は達成可能だが、YOLOv9のような高度に最適化されたCNNベースのモデルに比べると、特にリソースに制約のあるデバイスでは、推論速度が遅くなる可能性がある。

理想的な使用例

RTDETRv2 は、精度が最優先され、計算リソースが容易に利用できるアプリケーションに最適です。以下のような用途に適しています:

RTDETRv2についてもっと知る

YOLOv9:プログラマブルな勾配情報が効率と精度を高める

YOLOv9(You Only Look Once 9)は、有名なUltralytics YOLO ファミリーの最先端の物体検出モデルである。2024-02-21にarXivで紹介されたYOLOv9は、台湾の中央研究院情報科学研究所のChien-Yao Wang氏とHong-Yuan Mark Liao氏によって執筆され、コードはGitHubで公開されている。YOLOv9は、プログラマブル勾配情報(PGI)とGELAN技術を導入し、YOLO 旧バージョンと比較して、精度と学習効率の両方を向上させている。

アーキテクチャと主な特徴

YOLOv9は、従来のYOLO モデルの効率性をベースに、アーキテクチャの斬新な改良を加えたものである。ネットワーク・アーキテクチャを最適化するためにGELAN(Generalized Efficient Layer Aggregation Network)を利用し、勾配情報の完全性を維持するためにPGIを利用することで、ディープネットワーク伝播時の情報損失に対処している。これらの革新的な技術により、精度の向上と効率的な学習が可能になった。YOLOv9は、アンカーフリーの検出ヘッドと合理化されたシングルステージ設計を維持し、リアルタイム性能に重点を置いている。

パフォーマンス指標

YOLOv9は、スピードと精度の魅力的なバランスを達成している。YOLOv9-eモデルは、55.6のmAPval50-95を達成し、推論速度で競争力を維持しながら、精度でさらに大きなRTDETRv2モデルを凌駕しています。より小型のYOLOv9-tモデルは非常に高速で、TensorRT推論速度は2.3ミリ秒に達し、レイテンシに非常に敏感なアプリケーションに適しています。

強みと弱み

強みだ:

  • 高精度と高効率:PGIとGELANは、より高い精度と効率的なパラメータ利用の両方に貢献します。
  • 速い推論速度:リアルタイム性能、特にエッジ展開に適した小型バリアントのために最適化されています。
  • 効率的なトレーニングPGIは、より安定的で効率的なトレーニングプロセスに貢献する。

弱点がある:

  • グローバルコンテキストの低下:CNNベースのアーキテクチャは、非常に複雑なシーンにおいて、変換器ベースのモデルと比較して、長距離の依存関係を捕捉する効果が低い可能性がある。
  • 精度とスピードのトレードオフ:精度が高い一方で、最速の推論スピードを達成するためには、最大のモデルに比べて精度が若干低下する、より小さなモデルを使用することになるかもしれません。

理想的な使用例

YOLOv9は、特にリソースに制約のある環境において、高精度とリアルタイム性能のバランスを必要とするアプリケーションに適している:

YOLOv9についてもっと知る

モデル比較表

モデル サイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
スピード
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

結論

RTDETRv2とYOLOv9は、それぞれ独自の強みを持つ強力な物体検出モデルです。RTDETRv2は、最大限の精度を優先するシナリオで優れた性能を発揮し、変換器アーキテクチャを活用してロバストな特徴抽出を行うため、計算リソースに余裕のあるアプリケーションに適しています。一方、YOLOv9 は、リアルタイムの性能と効率が最優先される場合に最適で、精度と速度の魅力的なブレンドを提供し、特にエッジデバイスや待ち時間の影響を受けやすいシステムでの展開に有益です。

Ultralytics 、他のモデルを検討したいユーザーのために、以下のような幅広いオプションを提供している:

  • YOLOv8:前世代 Ultralytics YOLOv8スピードと精度のバランスを追求したモデル。
  • YOLO11:効率とスピードの向上をお考えなら YOLO11.
  • FastSAM MobileSAM:リアルタイムのインスタンスセグメンテーションタスクについては、こちらをご覧ください。 FastSAMMobileSAM.

RTDETRv2、YOLOv9、その他のUltralytics モデルのいずれを選択するかは、精度、スピード、利用可能なリソースのバランスを慎重に考慮し、プロジェクト固有のニーズに依存します。包括的な詳細と実装ガイドについては、Ultralytics ドキュメントと Ultralytics GitHubリポジトリを参照してください。

コメント

📅作成:1年前 ✏️更新:1ヶ月前

コメント