YOLOv9 RTDETRv2の比較:物体検出の技術比較
適切な物体検出アーキテクチャを選択することは、コンピュータビジョン開発において極めて重要な決定であり、多くの場合、開発者は精度、推論レイテンシ、計算オーバヘッドのトレードオフを秤にかける必要がある。この分析では YOLOv9と、高忠実度検出のために設計された変換器ベースのモデルであるRTDETRv2との包括的な技術比較を行う。
YOLOv9:CNNの効率を再定義する
YOLOv9は、You Only Look OnceYOLO)シリーズを大きく進化させ、ディープ・ニューラル・ネットワーク特有の情報ボトルネック問題の解決に焦点を当てています。斬新なアーキテクチャ・コンセプトを導入することで、YOLO シリーズの特徴であるフットプリントの軽さを維持しながら、最先端の性能を実現しています。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織台湾中央研究院情報科学研究所
- Date: 2024-02-21
- ArxivarXiv:2402.13616
- GitHubWongKinYiu/yolov9
- ドキュメントUltralytics YOLOv9 ドキュメント
コア・アーキテクチャ
YOLOv9 、2つの革新的な技術を導入した:プログラム可能な勾配情報(PGI)と一般化された効率的なレイヤ集約ネットワーク(GELAN)である。PGIは、深いレイヤーを伝搬する際のデータ情報損失の問題に対処し、信頼性の高い勾配情報がモデル更新のために保存されることを保証します。GELANはパラメータ利用を最適化し、従来の畳み込みアーキテクチャーと比較して、より少ない浮動小数点演算(FLOP)でより高い精度を達成することを可能にします。
Ultralytics エコシステム統合
YOLOv9 Ultralytics エコシステムに完全に統合されており、開発者はトレーニング、検証、デプロイツールへのシームレスなアクセスを提供します。この統合により、ユーザーはYOLOv9と同じシンプルなAPIを利用することができます。 YOLO11および YOLOv8この統合により、ユーザーはYOLO11やYOLOv8と同じシンプルなAPIを利用できるようになり、高度なコンピュータビジョンタスクへの参入障壁が大幅に低くなります。
RTDETRv2:トランスフォーマー・チャレンジャー
RTDETRv2はReal-Time Detection TransformerRT-DETR)の成功に基づき、動的なスケール処理と学習の安定性を強化するためにベースラインを改良したものである。トランスフォーマーベースのモデルとして、複雑なシーンで物体を識別するのに有利なグローバルコンテキストをキャプチャするために、自己注意メカニズムを活用する。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織百度
- 日付:2024-07-24
- ArxivarXiv:2407.17140
- GitHubRT-DETR GitHub リポジトリ
コア・アーキテクチャ
局所的なパッチで画像を処理するCNNとは異なり、RTDETRv2は画像特徴を処理するために変換器バックボーンを利用する。このアプローチは、モデルが画像の離れた部分間の関係を理解することを可能にし、乱雑な環境における精度を向上させる可能性がある。しかし、この大域的な注意のメカニズムには、通常、特に学習時に高いメモリコストと計算コストがかかる。
パフォーマンス比較
以下のデータは、COCO データセットにおける様々なモデルサイズの性能指標を強調したものである。この比較では、平均平均精度mAP)、推論速度、計算量に焦点を当てています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
メトリクスの分析
- ピーク精度: YOLOv9eモデルは、最大のRTDETRv2-xモデル(54.3%mAP)を上回る、驚くべき55.6%mAP達成しました。これは、YOLOv9 アーキテクチャの革新が、CNNとTransformerの間のギャップを効果的に縮め、トップレベルの精度でTransformerを凌駕していることを示しています。
- 効率性: YOLOv9 、一貫してパラメータあたりの性能を高めています。例えば、YOLOv9cは、わずか25.3Mのパラメータと 102.1B FLOPで53.0%のmAP 達成したのに対し、同等のRTDETRv2-lは、53.4%のmAP達成するために42Mのパラメータと 136B FLOPを必要とする。この効率性により、YOLOv9 格納が大幅に軽くなり、実行が高速になります。
- 推論速度:リアルタイム・アプリケーションでは、速度が重要である。YOLOv9 tのような小型のYOLOv9 、レイテンシーが極めて低く(TensorRT2.3ミリ秒)、RTDETRv2モデルが重すぎる可能性のあるエッジAIの導入に最適です。
トレーニングの効率とエコシステム
開発者にとって最も重要な要素の1つは、カスタムデータセットでモデルを微調整するためのトレーニングの容易さと必要なリソースである。
メモリー要件
RTDETRv2のようなTransformerベースのモデルは、自己注意メカニズムが2次関数的に複雑になるため、トレーニング中のメモリ消費量が大きいことで悪名高い。そのため、大容量のVRAMを搭載したハイエンドのエンタープライズGPUが必要になることが多い。これに対して YOLOv9はCNNのメモリ効率を維持し、コンシューマーグレードのハードウェアでの学習を可能にする。この参入障壁の低さにより、最先端の物体検出へのアクセスが民主化される。
Ultralytics 優位性
Ultralytics エコシステムの中でモデルを選択することで、未加工のパフォーマンス指標以外にも明確な利点が得られます:
- 使いやすさ: Ultralytics Python APIは、複雑なトレーニングループを数行のコードに抽象化します。
- 整備されたエコシステム:頻繁なアップデートにより、最新のPyTorch バージョン、エクスポートフォーマットONNX、TensorRT、CoreML)、ハードウェアドライバとの互換性が保証されます。
- 汎用性:RTDETRv2は主にオブジェクト検出器ですが、Ultralytics フレームワークは、そのモデルファミリー全体にわたって、インスタンスのセグメンテーション、ポーズ推定、およびOBB(Oriented bounding box)検出を含む幅広いタスクをサポートしています。
コード例
YOLOv9 トレーニングは、Ultralytics パッケージを使って簡単に行うことができる。以下のコード・スニペットは、事前に訓練されたモデルをロードし、カスタム・データセットで訓練する方法を示しています:
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
輸出能力
Ultralytics モデルは、展開のために様々な形式に簡単にエクスポートできます。例えば、より幅広い互換性のためにONNX エクスポートすることができます:
model.export(format="onnx")
理想的なユースケース
YOLOv9選ぶとき
YOLOv9 、特に速度、精度、リソース効率のバランスが要求されるコンピュータ・ビジョン・アプリケーションの大部分に推奨される選択肢である。
- エッジ展開: NVIDIA JetsonやRaspberry Piのようなデバイスは、YOLOv9低いFLOPsとパラメータ数の恩恵を受ける。
- リアルタイムビデオ解析:セキュリティフィードや交通監視システムは、YOLOv9 提供する高いフレームレートを必要とします。
- リソースに制約のあるトレーニング:大規模なGPU クラスターを利用できないチームでも、最先端のモデルを微調整することができます。
RTDETRv2の検討時期
RTDETRv2は、以下のようなニッチなシナリオに適している:
- グローバルコンテキストが重要:オクルージョンの多いシーンや、遠くのピクセルからのコンテキストが分類に厳密に必要なシーン。
- ハードウェアは無制限:メモリと計算の制約が無視できるサーバーグレードのGPUへの展開。
- アンカーフリーの優先:純粋なトランスフォーマーベースのアンカーフリーアーキテクチャの実験を特に希望する研究者。
結論
RTDETRv2が物体検出における変換器の可能性を示す一方で、YOLOv9 、ほとんどの開発者や研究者にとって、より優れた実用的な選択肢として浮上している。YOLOv9は、より高いピーク精度(55.6%mAP)を実現し、効率性、メモリ使用量、推論速度が大幅に向上している。Ultralytics エコシステムが提供する強固なサポート、豊富なドキュメント、使いやすさと組み合わせることで、YOLOv9 プロトタイプから製品化まで、より合理的なパスを提供します。
コンピュータ・ビジョン技術の最新情報をお探しの方は、こちらもご覧ください。 YOLO11をチェックすることをお勧めする。
その他のモデルを見る
- YOLO11:セグメンテーションやポーズ推定など、様々なタスクに最適化されたYOLO シリーズの最新版。
- YOLOv8:信頼性と幅広いコミュニティからの支持で知られる、高い人気と汎用性を誇るモデル。
- RT-DETR:Ultralytics フレームワーク内のオリジナルのReal-Time Detection Transformer実装をご覧ください。