RTDETRv2 vs. DAMO-YOLO:物体検出に関する技術比較
適切な物体検出モデルの選択は、精度、速度、計算コストのバランスを取る重要な決定です。このページでは、高精度で知られるトランスフォーマーベースのモデルであるRTDETRv2と、速度と効率のために最適化されたCNNベースのモデルであるDAMO-YOLOという、2つの強力なモデルの詳細な技術的比較を提供します。アーキテクチャの違い、パフォーマンス指標、理想的なユースケースを検証し、お客様のコンピュータビジョンプロジェクトに最適なモデルを選択できるよう支援します。
RTDETRv2:高精度リアルタイム検出Transformer
RTDETRv2(Real-Time Detection Transformer v2)は、Baiduが開発した最先端の物体検出モデルであり、リアルタイム性能を維持しながら高精度を優先しています。DETRフレームワークを基盤としており、Transformerの能力を活用して、優れた結果を達成します。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織: Baidu
- Date: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- ドキュメント: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
アーキテクチャと主な機能
RTDETRv2のアーキテクチャは、Vision Transformer (ViT)を中心に構築されており、グローバルな視点から画像を処理できます。スライディングウィンドウを使用する従来のCNNとは異なり、Transformerのself-attentionメカニズムは、すべての画像領域の重要度を同時に評価できます。
- Transformerベースの設計: RTDETRv2の中核はTransformerのエンコーダ・デコーダ構造であり、シーン内のオブジェクト間の長距離依存関係と複雑な関係を捉えることに優れています。
- ハイブリッドバックボーン: CNNバックボーンを初期特徴抽出に使用し、その後、抽出された特徴をTransformerレイヤーに入力するハイブリッドアプローチを採用しています。これにより、CNNのローカルな特徴の強みと、Transformerのグローバルなコンテキストモデリングが組み合わされます。
- Anchor-Free Detection: アンカーフリー検出器として、RTDETRv2は、事前に定義されたアンカーボックスに依存せずにオブジェクトの位置を直接予測することで、検出パイプラインを簡素化し、複雑さと潜在的な調整の問題を軽減します。
長所と短所
長所:
- 高精度: Transformerアーキテクチャにより、優れたコンテキスト理解が可能になり、特に遮蔽されたオブジェクトや小さなオブジェクトが存在する複雑なシーンにおいて、最高水準のmAPスコアにつながります。
- 堅牢な特徴抽出: グローバルなコンテキストを効果的に捉え、オブジェクトのスケールや外観の変動に対する耐性を高めます。
- リアルタイム対応: 計算負荷は高いものの、RTDETRv2はリアルタイム推論に最適化されており、特にNVIDIA GPU上のTensorRTのようなツールで高速化された場合にその性能を発揮します。
弱点:
- 高い計算コスト: Transformerは要求が厳しく、CNNベースのモデルと比較して、より大きなモデルサイズ、より多くのFLOPs、およびより高いメモリ使用量につながります。
- トレーニングが遅い: Transformerモデルのトレーニングには、通常、より多くの計算リソースと時間が必要です。Ultralytics YOLOv8のようなモデルよりも大幅に多くのCUDAメモリが必要になることがよくあります。
DAMO-YOLO:効率的な高性能検出
DAMO-YOLOは、Alibaba Groupによって開発された高速かつ高精度な物体検出モデルです。高度なアーキテクチャ設計を通じて、速度と精度の最適なバランスを実現することに焦点を当て、YOLOファミリーにいくつかの新しい技術を導入しています。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織: Alibaba Group
- Date: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Docs: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
アーキテクチャと主な機能
DAMO-YOLOは、CNNの基盤上に構築されていますが、パフォーマンスの限界を押し広げるために最新の技術を組み込んでいます。
- NAS搭載バックボーン: Neural Architecture Search (NAS)によって生成されたバックボーンを利用しており、特徴抽出に最適なネットワーク構造を自動的に発見します。
- Efficient RepGFPN Neck: このモデルは、RepGFPNと呼ばれる効率的なネック設計を特徴としており、計算量を抑えながら、異なるスケールの特徴を効果的に融合します。
- ZeroHead and AlignedOTA: DAMO-YOLOは、分類と回帰のために単一の線形レイヤーを持つZeroHeadを導入し、複雑さを軽減します。また、トレーニングの安定性と精度を向上させるために、高度なラベル割り当て戦略であるAlignedOTAを使用します。
長所と短所
長所:
- 卓越した速度: DAMO-YOLOは高速な推論のために高度に最適化されており、GPUハードウェアでのリアルタイムアプリケーションにおいて最高の性能を発揮します。
- 高い効率性: このモデルは、特に小型のバリアントにおいて、比較的少ないパラメータ数とFLOPsで、速度と精度の優れたバランスを実現しています。
- 革新的なコンポーネント: NAS、RepGFPN、およびZeroHeadの使用は、検出器の設計に対する先進的なアプローチを示しています。
弱点:
- ピーク精度の低下: 非常に効率的ですが、最大規模のモデルでも、非常に複雑なシナリオでは RTDETRv2-x のような最大規模の Transformer ベースのモデルと同等のピーク精度に達しない場合があります。
- エコシステムとユーザビリティ: 研究に重点を置いたモデルであるため、Ultralyticsのようなフレームワークにあるような、合理化されたユーザーエクスペリエンス、広範なドキュメント、および統合されたエコシステムが不足している可能性があります。
性能比較:精度と速度
RTDETRv2とDAMO-YOLOの主なトレードオフは、精度と速度のバランスにあります。RTDETRv2モデルは一貫してより高いmAP値を達成し、RTDETRv2-xモデルは54.3 mAPに達します。これにより、精度が不可欠なアプリケーションにとって強力な選択肢となります。
対照的に、DAMO-YOLOは推論レイテンシに優れています。DAMO-YOLO-tモデルは、RTDETRv2のどのバリアントよりも大幅に高速であるため、エッジデバイスで非常に低いレイテンシを必要とするアプリケーションに最適です。選択は、アプリケーションが速度の大幅な向上に対して、わずかな精度の低下を許容できるかどうかに依存します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20.0 | 60.0 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36.0 | 100.0 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42.0 | 136.0 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76.0 | 259.0 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Ultralyticsの利点:Ultralytics YOLOを選ぶ理由
RTDETRv2とDAMO-YOLOは強力ですが、Ultralytics YOLOエコシステムのモデル(最新のYOLO11など)は、開発者や研究者にとって、より説得力のある全体的なパッケージを提供することがよくあります。
- 使いやすさ: Ultralyticsモデルは、シンプルなPython API、充実したドキュメント、および簡単なCLIコマンドにより、合理化されたユーザーエクスペリエンスを実現するように設計されています。
- 優れたメンテナンス体制: 統合されたUltralytics HUBプラットフォームは、データセット管理、トレーニング、そしてデプロイメントを簡素化し、活発な開発と強力なコミュニティサポートによって支えられています。
- パフォーマンスのバランス:Ultralyticsのモデルは、速度と精度の間で優れたトレードオフを実現するために高度に最適化されており、幅広い現実世界の展開シナリオに適しています。
- メモリと学習効率: Ultralytics YOLOモデルは、効率的なメモリ使用のために設計されており、通常、transformerベースのモデルと比較して、より少ないCUDAメモリと学習時間を必要とします。また、COCOなどのデータセットで、すぐに利用できる事前学習済みの重みが付属しています。
- 多様性: YOLO11のようなモデルは、インスタンスセグメンテーション、画像分類、ポーズ推定、傾斜バウンディングボックス(OBB)検出など、検出以外の複数のビジョンタスクをサポートし、統一されたソリューションを提供します。
結論: どのモデルが最適か?
RTDETRv2とDAMO-YOLOのどちらを選択するかは、プロジェクト固有のニーズに大きく依存します。
-
アプリケーションで最高の精度が要求され、医療画像解析や高精度の産業検査など、より大きなサイズとより遅い推論を処理するための計算リソースがある場合は、RTDETRv2を選択してください。
-
DAMO-YOLOを選択 するのは、ビデオ監視やロボティクスのようなリアルタイムアプリケーションのために、GPUハードウェア上での最大の推論速度が優先される場合で、わずかな精度のトレードオフを受け入れることができる場合です。
しかし、堅牢で使いやすく、高性能なソリューションを求めるほとんどの開発者にとって、YOLO11 のような Ultralytics YOLO モデルが、最も優れたオールラウンドな選択肢となります。速度と精度の優れたバランス、卓越した汎用性を提供し、研究から生産までの開発を加速する包括的なエコシステムによってサポートされています。
その他のモデル比較
これらのモデルと他のアーキテクチャとの比較にご興味があれば、以下の比較ページをご覧ください。
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. DAMO-YOLO
- YOLOv8 vs RTDETR
- YOLO11 vs. RTDETR
- EfficientDet vs. DAMO-YOLO
- EfficientDet vs. RTDETR
- YOLOX 対 DAMO-YOLO