RTDETRv2とYOLOv9:最新検出モデルの技術比較
急速に進化するコンピュータビジョンの分野において、適切な物体検出アーキテクチャを選択することは、精度、速度、計算リソースのバランスをとる上で非常に重要です。このガイドでは、高度な変換器ベースのモデルであるRTDETRv2(Real-Time Detection Transformer v2)と、YOLOv9(Real-Time Detection Transformer v2)の詳細な技術比較を行います。 YOLOv9Ultralytics エコシステムに統合された最先端の効率重視モデルです。
RTDETRv2がトランスフォーマーベースの検出の限界を押し広げる一方で、YOLOv9 パラメータ効率を最大化するためにプログラマブル勾配情報(PGI)のような斬新なアーキテクチャコンセプトを導入しています。以下に、それぞれのアーキテクチャ、性能指標、理想的な導入シナリオを分析し、プロジェクトのニーズに合うモデルを決定する際の参考とします。
パフォーマンス指標:正確さとスピード
次の表は、COCO データセットで評価された主要なパフォーマンスメトリクスの比較です。YOLOv9 、RTDETRv2と比較して大幅に低い計算コスト(FLOPs)と高速な推論速度で、競争力のある、あるいは優れた精度mAP)を達成していることが強調されています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
図に示すように、YOLOv9eは RTDETRv2-xを精度(55.6%対54.3%mAP)で上回る一方、使用するFLOP数は189B対259Bと少ない。この効率性により、YOLOv9 、ハードウェア・リソースが考慮されるリアルタイム・アプリケーションにとって魅力的な選択肢となっている。
RTDETRv2:検出トランスフォーマーの改良
RTDETRv2は、オリジナルの RT-DETRの進化版であり、変換器アーキテクチャを活用することで、従来のアンカーベースの検出器の限界に対処するように設計されている。RTDETRv2は、「Bag-of-Freebies」アプローチ、学習ストラテジーの最適化、および動的な語彙サイジングにより、リアルタイム検出トランスフォーマーの安定性と性能を向上させることに重点を置いています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織百度
- 日付:2024-07-24
- Arxiv:https://arxiv.org/abs/2407.17140
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- ドキュメントhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
アーキテクチャーと主な特徴
RTDETRv2は、エンコーダとデコーダのハイブリッドアーキテクチャを採用している。エンコーダは画像の特徴を処理し、変換デコーダはオブジェクトクエリを生成する。アーキテクチャの主な改良点としては、動的なクエリ選択を可能にする最適化されたアテンションメカニズムがあり、通常トランスフォーマに関連する計算オーバーヘッドを削減する。
CNNベースのバックボーンとヘッドに依存する標準的なYOLO モデルとは異なり、RTDETRv2は「アンカー」の概念を検出ヘッドから分離し、物体検出を直接集合予測問題として扱う。これにより、多くの構成で非最大抑制(NMS)の必要性がなくなり、理論的には後処理パイプラインが簡素化される。
長所と短所
長所:
- 高精度:グローバルなコンテキスト認識により、複雑な相互作用やオクルージョンのあるオブジェクトの検出に優れています。
- アンカーフリー:手動によるアンカーボックスのチューニングが不要になり、多様なデータセットに対する設定が簡素化されます。
- 適応性:動的な語彙により、モデルはさまざまなトレーニング条件に適応しやすくなる。
弱点:
- リソース強度:トランスフォーマーアーキテクチャは一般に、CNNと比較して、トレーニングにより多くのGPU メモリと計算能力を必要とする。
- 推論遅延: YOLOv9ような高度に最適化されたCNNと比較すると、最適化されているにもかかわらず、トランスフォーマーはエッジAIデバイスでは遅くなる可能性がある。
- 複雑さ:変換器の学習パイプラインとハイパーパラメータのチューニングは、YOLO モデルよりも複雑になる可能性がある。
理想的なユースケース
RTDETRv2は、次のような精度が最も重要視されるハイエンドサーバーの導入に適している:
- 医療画像:複雑なスキャンを分析し、グローバルなコンテキストで異常を特定する。
- 空中監視:大きな高解像度の衛星画像から小さな物体を検出する。
- 詳細な品質管理:生のスピードよりも微細なディテールが重要な製造上の欠陥を検査する。
YOLOv9:プログラム可能なグラデーションによる効率化
YOLOv9は、YOLO ファミリーの大きな飛躍を意味し、ニューラルネットワークの奥深くにある情報ボトルネック問題を解決するアーキテクチャの革新を導入しています。YOLOv9 、深い層にわたって勾配情報が保持されるようにすることで、驚異的なパラメータ効率で最先端の性能を達成しています。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織台湾中央研究院情報科学研究所
- Date: 2024-02-21
- Arxiv:https://arxiv.org/abs/2402.13616
- GitHub:https://github.com/WongKinYiu/yolov9
- ドキュメントhttps://docs.ultralytics.com/models/yolov9/
建築PGIとGELAN
YOLOv9 2つの画期的なコンセプトを導入している:
- プログラム可能な勾配情報(PGI):ネットワークの重みを更新するための信頼性の高い勾配を生成する補助的な監視フレームワーク。これは推論コストをかけずに再パラメータ化の利点を模倣する。
- 一般化された効率的なレイヤ集約ネットワーク(GELAN):パラメータ使用量と計算スループット(FLOPs)を最適化する軽量ネットワークアーキテクチャ。GELANにより、YOLOv9 前任者や競合他社よりも少ないメモリ使用量で高速に動作する。
YOLOv9選ぶ理由
YOLOv9 Ultralytics エコシステムへの統合は、開発者に明確な利点を提供する:
- トレーニング効率: YOLOv9 、RTDETRv2のようなトランスフォーマーベースのモデルよりも、トレーニング時に必要なGPU メモリが大幅に少なくて済みます。これにより、コンシューマーグレードのハードウェアでのトレーニングや、エンタープライズクラスタでのより大きなバッチサイズでのトレーニングが可能になります。
- 使いやすさ: Ultralytics Python APIを使えば、ユーザーはわずか数行のコードでYOLOv9 トレーニング、検証、デプロイすることができます。
- 汎用性:主にオブジェクト検出モデルだが、基本的なアーキテクチャはインスタンスのセグメンテーションや OBB(Oriented bounding box)検出などのタスクをサポートするのに十分な柔軟性を備えている。
- パフォーマンス・バランス:リアルタイムのビデオ分析に必要なスピードとトップクラスの精度を、最適なバランスで実現しています。
エコシステムの優位性
Ultralytics 、すべてのモデルに統一されたインターフェースを提供しています。YOLOv8 YOLO11 YOLOv9 切り替えは、モデル名の文字列を変更するだけでよく、楽にベンチマークや実験を行うことができます。
理想的なユースケース
YOLOv9 、スピードと効率性を必要とする実世界での展開に適した選択肢です:
- エッジコンピューティング: NVIDIA JetsonやRaspberry Piのような組み込みデバイスへの展開。
- リアルタイム分析:高フレームレートが不可欠な交通監視、小売分析、スポーツ分析。
- モバイルアプリケーション: iOS Android デバイス上で効率的に動作します。 CoreMLまたは TFLiteエクスポートします。
- ロボティクス自律的なナビゲーションとインタラクションのための高速知覚の提供。
比較分析:アーキテクチャとワークフロー
RTDETRv2とYOLOv9どちらを選ぶかを決める際には、基本的なアーキテ クチャの違いを考慮しよう。RTDETRv2はTransformersのパワーに依存し、グローバルコンテキストを理解するために自己注意メカニズムを利用する。その結果、困難な静止画像においてより高い精度が得られることが多いが、その代償として学習メモリ消費量が多くなり、GPU 以外のハードウェアでは推論速度が遅くなる。
それに対して YOLOv9は、PGIによって強化された進化型CNNアーキテクチャ(GELAN)を活用している。この設計は本質的にハードウェアにやさしく、以下のようなライブラリで長年にわたってCNNを最適化してきた恩恵を受けている。 TensorRTや OpenVINO.
トレーニング方法
RTDETRv2のトレーニングは通常、アテンション・マップに対応するために収束時間が長くなり、メモリ要件も高くなる。逆に、YOLOv9 Ultralytics チームによって磨き上げられた効率的なトレーニングプロセスの恩恵を受けています。事前に訓練された重みが利用でき、Ultralytics HUBとシームレスに統合できるため、データのアノテーションからモデルの展開までのワークフローが簡素化されます。
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your dataset with excellent memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with high speed
results = model("path/to/image.jpg")
結論あなたのニーズに合うモデルは?
商業・研究用途の大半に、 YOLOv9が推奨される選択です。YOLOv9は、堅牢なUltralytics エコシステムによってサポートされ、精度と速度の優れたトレードオフを提供します。より少ないメモリフットプリントと多様な展開オプションにより、クラウドサーバーからエッジデバイスまで、あらゆるものに適しています。
RTDETRv2は、視覚変換のユニークな特性が特定の利点を提供し、計算上の制約が主要な関心事ではない、学術研究や特殊なシナリオのための強力なツールであることに変わりはありません。
その他の Ultralytics モデルを調べる
さらに多くの選択肢をお探しの場合は、Ultralytics フレームワーク内の以下の選択肢をご検討ください:
- YOLO11: YOLO シリーズの最新モデルで、最先端アプリケーションのためにスピードと精度にさらなる磨きをかけている。
- YOLOv8:検出、セグメンテーション、姿勢推定、分類をサポートする汎用性の高いモデルで、その安定性と広く採用されていることで知られている。
- RT-DETR: Ultralytics オリジナルのRT-DETR モデルもサポートしており、使い慣れたUltralytics API内でトランスフォーマーベースの検出を試すことができます。