RTDETRv2 対 EfficientDet: リアルタイム検出アーキテクチャの分析
最適なニューラルネットワークアーキテクチャの選択は、あらゆるコンピュータビジョンプロジェクトにおける決定的な選択です。本技術比較では、2つの影響力のある物体検出モデルを詳細に分析します:最先端のトランスフォーマーベース検出器であるRTDETRv2と、高いスケーラビリティを持つ畳み込みニューラルネットワークであるEfficientDetです。それぞれのアーキテクチャ、性能指標、トレーニング手法、理想的な展開シナリオを評価し、AIパイプラインにおけるデータ駆動型の意思決定を支援します。
RTDETRv2: リアルタイム検出トランスフォーマー
RT-DETR成功を基盤に、RTDETRv2はトランスフォーマーベースの物体検出パラダイムを洗練させました。エンコーダとデコーダの構造を最適化することで、リアルタイム推論速度を維持しながら高精度を実現し、従来のCNNとビジョントランスフォーマーの間のギャップを効果的に埋めています。
モデル詳細
著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
組織: Baidu
日付: 2024-07-24
リンク:Arxiv,GitHub,Docs
アーキテクチャと核となる強み
RTDETRv2は、強力なCNNバックボーン(多くの場合ResNetまたはHGNet)と効率的なトランスフォーマーデコーダーを組み合わせたハイブリッドアーキテクチャを採用しています。RTDETRv2の最も特徴的な点は、非最大抑制(NMS)をバイパスするネイティブな能力です。 従来の検出器は重複バウンディングボックスNMS 必要とし、後処理段階で変動する推論遅延を生じます。RTDETRv2は検出を直接集合予測問題として定式化し、二部マッチングを用いて一意の予測を出力します。
このモデルは、GPU 豊富なサーバーサイド展開において特に優れています。そのグローバルアテンション機構は卓越した文脈認識能力を提供し、自動警報システムや密集した群衆監視など、密集した雑然とした環境において重なり合う物体を分離することに非常に長けています。
制限事項
トランスフォーマーアーキテクチャは強力である一方、標準的なCNNと比較して学習時に本質的にCUDA 必要とする。さらに、RTDETRv2の微調整には学習データの収束時間が長くなる場合があり、迅速なプロトタイピングがややリソース集約的になる。
EfficientDet: スケーラブルで効率的なCNN
EfficientDetは、幅広いリソース制約下において精度と効率の両方に最適化された一連の物体検出モデルを導入した。これはスケーラブルな機械視覚設計の古典的な事例として今なお位置づけられている。
モデル詳細
著者: Mingxing Tan, Ruoming Pang, Quoc V. Le
所属組織: Google
日付: 2019-11-20
リンク:Arxiv,GitHub,Docs
アーキテクチャと核となる強み
EfficientDetの革新性は、二つの主要な領域に根ざしている:双方向特徴ピラミッドネットワーク(BiFPN)と複合スケーリング手法である。BiFPNは、学習可能な重みを導入して異なる入力特徴の重要性を学習させると同時に、トップダウンおよびボトムアップのマルチスケール特徴融合を反復的に適用することで、簡便かつ高速なマルチスケール特徴抽出を可能にする。複合スケーリング手法は、ネットワークの解像度、深さ、幅を同時に均一にスケーリングする。
EfficientDetモデルは超軽量のD0から大規模なD7まで幅広く展開されています。これにより、初期のモバイル拡張現実アプリケーションなど、開発者が限られた計算リソースと精度要件のバランスを取る必要があるエッジAI展開において、高い汎用性を発揮します。
制限事項
EfficientDetは古いアーキテクチャであり、アンカーボックスとNMS パイプラインに大きく依存しています。アンカー生成プロセスには慎重なハイパーパラメータ調整が必要であり、NMS はRaspberry Piのような組み込みハードウェアでのデプロイメントのボトルネックとなる可能性があります。また、姿勢推定や方向付き境界ボックス(OBB)といった現代的なタスクに対するネイティブサポートも欠いています。
パフォーマンスとメトリクスの比較
これらのモデル間の正確なトレードオフを理解するには、スループットとパラメータ効率を分析する必要がある。下表は、最新のRTDETRv2シリーズがスケーラブルなEfficientDetファミリーとどのように比較されるかを概説している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
上記のように、RTDETRv2は中規模のEfficientDetモデルと同等のパラメータ数で平均精度(mAP)を大幅に高めており、トランスフォーマーアーキテクチャを多用することで精度を向上させている。
ユースケースと推奨事項
RT-DETR プロジェクト固有の要件、デプロイメント上の制約、およびエコシステムの選好によって決まります。
RT-DETRを選択すべきタイミング
RT-DETR 以下に最適RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
EfficientDetを選択するタイミング
EfficientDetは以下に推奨されます:
- Google およびTPU : Google Vision API またはTPU と深く統合されたシステムで、EfficientDet がネイティブ最適化を実現します。
- 複合スケーリング研究:バランスの取れたネットワークの深さ、幅、および解像度スケーリングの効果を研究する学術的ベンチマーク。
- TFLiteによるモバイル展開: Android 組み込みLinuxデバイス向けにTensorFlow エクスポートを特に必要とするプロジェクト。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
Ultralytics :最先端技術の推進
RTDETRv2とEfficientDetはいずれも優れた利点を有していますが、現代のAI開発には最先端の性能に加え、シームレスな開発者体験を提供するフレームワークが求められています。Ultralytics 、コンピュータビジョンタスクに対して大幅に合理化されたアプローチを提供します。
最先端の検出技術を探求しているなら、新たにリリースUltralytics 、CNNとトランスフォーマーの両方の優れた側面を統合しています。
YOLO26を選ぶ理由
YOLO26はエンドツーエンドNMS設計を採用し、RTDETRv2の展開簡便性を超高効率YOLO にもたらします。さらに、LLMトレーニングの革新に着想を得たMuSGDオプティマイザーを導入し、優れたトレーニング安定性を実現します。DFL除去(簡素化されたエクスポートとエッジ/低電力デバイス互換性向上のため分布焦点損失を除去)により、YOLO26は前世代比最大43CPU を実現。これにより、より重いモデルに比べエッジコンピューティングに最適な選択肢となります。さらにProgLoss + STALは改良された損失関数を提供し、IoT・ロボティクス・航空画像処理において重要な小物体認識性能を顕著に向上させます。
Python 提供する使いやすさは他に類を見ない。開発者は直感的なAPIを使用してモデルをトレーニング、検証、エクスポートでき、研究リポジトリで通常必要とされる定型コードを抽象化している。
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")
Ultralytics 、インスタンスセグメンテーションや画像分類を含む複数のタスクをネイティブにサポートし、多様な業界ニーズに対応する汎用ツールキットを提供します。さらに、Ultralytics 分布焦点損失(DFL)が除去されたことで計算グラフが簡素化され、組み込みNPUやTPUへのエクスポートがよりスムーズに行えるようになりました。
シームレスなデータアノテーションとモデル管理を実現するため、Ultralytics 機械学習ライフサイクル全体を管理する包括的なクラウド環境を提供し、堅牢なコンピュータビジョンソリューションを本番環境に展開する最適な選択肢として確立しています。