DAMO-YOLO RTDETRv2の比較:スピードとトランスの精度のバランス
最適な物体検出アーキテクチャを選択するには、推論レイテンシと検出精度のトレードオフをナビゲートする必要があります。この技術比較では、Alibaba Groupが最適化した高速検出器DAMO-YOLO、Baiduの第2世代Real-Time Detection TransformerであるRTDETRv2を検証します。アーキテクチャの革新性、性能ベンチマーク、導入の適性を分析し、コンピュータ・ビジョン・アプリケーションのための十分な情報に基づいた意思決定を支援します。
DAMO-YOLO:低遅延のための最適化
DAMO-YOLO YOLOの進化における重要なステップである。 YOLOアーキテクチャの進化における重要な一歩であり、精度を大きく損なうことなくスピードを最大化することに重点を置いている。アリババ・グループによって開発されたDAMO-YOLOは、高度なニューラル・アーキテクチャー・サーチ(NAS)技術を採用し、ネットワーク構造を効率的に調整する。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織アリババグループ
- Date: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- ドキュメントhttps://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
建築ハイライト
DAMO-YOLO 、検出パイプラインを合理化するためにいくつかの新しい技術を統合している:
- NASを利用したバックボーン:このモデルは、効率的なバックボーン構造(MAE-NAS)を自動的に発見するために、ニューラル・アーキテクチャ・サーチ(NAS)を利用している。このアプローチにより、ネットワークの深さと幅が特定のハードウェア制約に最適化されます。
- RepGFPNネック:RepGFPNとして知られる一般化特徴ピラミッドネットワーク(GFPN)の効率的なバージョンを備えています。このコンポーネントは、低レイテンシー制御を維持しながら、異なるスケールにわたる特徴融合を強化する。
- ZeroHead:「ZeroHead」と名付けられた簡素化されたヘッド設計は、分類と回帰のタスクを切り離し、最終予測層の計算負荷を軽減する。
- AlignedOTA:学習の安定性のために、DAMO-YOLO AlignedOTA(Optimal Transport Assignment)を採用している。AlignedOTAは、収束を改善するために、分類と回帰のターゲットを揃えるラベル割り当て戦略である。
RTDETRv2:リアルタイム・トランスフォーマーの進化
RTDETRv2は、リアルタイム性能を達成した最初の変換器ベースのオブジェクト検出器であるオリジナルのRT-DETR成功に基づいて構築されています。Baidu社によって開発されたRTDETRv2は、「bag-of-freebies」を導入し、推論コストを追加することなく、学習の安定性と精度を向上させています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織百度
- Date: 2023-04-17
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- ドキュメントhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
建築ハイライト
RTDETRv2 は、ビジョントランスの長所を活かしながら、従来のスピードボトルネックを軽減しています:
- ハイブリッド・エンコーダ:このアーキテクチャは、マルチスケール特徴を効率的に処理するハイブリッドエンコーダを使用し、計算コストを節約するために、スケール内相互作用とクロススケールフュージョンを切り離す。
- IoUクエリ選択:このメカニズムでは、Intersection over UnionIoU)スコアに基づいて高品質な初期オブジェクトクエリを選択し、トレーニングの収束を早める。
- 適応可能なコンフィギュレーション:RTDETRv2は、デコーダとクエリの選択に柔軟なコンフィギュレーションを提供しており、ユーザーは特定の速度/精度要件に合わせてモデルを調整することができます。
- アンカーフリー設計:前モデルと同様、完全なアンカーフリー設計で、ヒューリスティックなアンカーボックスのチューニングや、後処理時の非最大抑制NMS)の必要性を排除している。
技術的な比較:性能と効率
この2つのモデルの違いは、アーキテクチャのルーツにある。
メトリック分析
以下の表は、COCO データセットにおける主要なメトリクスの概要である。RTDETRv2が平均平均精度mAP)の点で優位に立つ一方、DAMO-YOLO スループット(FPS)に優れ、その小さな亜種ではパラメータ数が少ないことを示している。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
トレードオフの分析
DAMOYOLOYOLOは、高頻度の工業用選別のようなミリ秒単位が重要な環境で優れています。その「タイニー」(t)バージョンは非常に軽量である。逆に、RTDETRv2は精度の上限が高く、自律航法や詳細な監視など、対象物を見逃すことが重要な複雑なシーンに適している。
アーキテクチャと実世界での応用
グローバルコンテキストとローカル特徴の比較:RTDETRv2の変換注目メカニズムにより、CNNベースのDAMO-YOLOグローバルコンテキストを理解することができる。この結果、混雑したシーンや物体が隠されているときに、より優れた性能を発揮する。しかし、このグローバルな注意は、より高いメモリ消費と遅い学習時間という代償を伴う。
ハードウェアの最適化:DAMO-YOLONASベースのバックボーンは、GPU 推論用に高度に最適化されており、非常に低いレイテンシを実現している。RTDETRv2はリアルタイムではあるが、YOLOディテクターのフレームレートに合わせるためには、一般的に、より強力なハードウェアを必要とする。
Ultralyticsの利点:YOLO11を選ぶ理由
DAMO-YOLO RTDETRv2が特別な利点を提供する一方で、 Ultralytics YOLO11は、実際のアプリケーションの大部分にとって、最もバランスの取れた、開発者に優しいソリューションとして際立っています。
優れた開発者体験とエコシステム
DAMO-YOLO RTDETRv2のような学術的モデルにおける最も大きな課題の1つは、統合である。Ultralytics 、堅牢なエコシステムでこれを解決します:
- 使いやすさ:統一されたPython APIとCLI、わずか数行のコードでモデルの学習、検証、デプロイが可能です。
- 整備されたエコシステム: Ultralytics モデルは、活発な開発、広範なドキュメント、大規模なコミュニティによってサポートされています。これにより、最新のハードウェアやソフトウェアライブラリとの互換性が保証されます。
- トレーニング効率: YOLO11 、RTDETRv2のようなトランスフォーマーベースのモデルよりも高速にトレーニングできるように設計されており、GPU メモリ(VRAM)の使用量が大幅に削減されています。これにより、コンシューマーグレードのハードウェアでも高性能AIにアクセスできるようになります。
比類なき汎用性
DAMO-YOLO RTDETRv2が主にバウンディングボックス検出に特化しているのとは異なり、YOLO11 幅広いコンピュータビジョンタスクをネイティブにサポートしている:
パフォーマンス・バランス
YOLO11 、YOLO ファミリーの特徴である推論スピードと効率性を維持しながら、多くのベンチマークでRTDETRv2に匹敵するか、それを上回る最先端の精度を達成している。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
結論
DAMO-YOLO RTDETRv2のどちらを選ぶかは、特定の制約による:
- 主な制約がレイテンシーで、最小限のパラメータ数が重要なエッジ・デバイスに導入する場合は、YOLO-YOLOを選択する。
- 複雑なシーンで最高の精度を必要とし、トランスフォーマーアーキテクチャをサポートする計算予算がある場合は、RTDETRv2を選択してください。
しかし、高いパフォーマンス、使いやすさ、マルチタスク機能を兼ね備えた総合的なソリューションが必要です、 Ultralytics YOLO11をお勧めします。トレーニング中のメモリフットプリントが小さく、成熟したエコシステムと組み合わされることで、プロトタイプから製品化までの道のりが加速されます。
その他のモデルを見る
物体検出の状況をさらに理解するために、これらの比較を調べてみよう: