EfficientDet vs RTDETRv2: オブジェクト検出アーキテクチャの詳細比較
コンピュータビジョンプロジェクトに最適なアーキテクチャを選択するには、多様なニューラルネットワークの領域をナビゲートする必要があります。本ガイドでは、2つの異なるアプローチの詳細な技術比較を探求します:高度にスケーラブルな畳み込みニューラルネットワーク(CNN)ファミリーであるEfficientDetと、最先端のリアルタイムトランスフォーマーモデルであるRTDETRv2です。構造上の差異、トレーニング手法、および様々なハードウェア環境における展開適性を評価します。
レガシーな効率性と現代的なトランスフォーマー機能のトレードオフを理解することで、開発者は情報に基づいた意思決定が可能となります。さらに、Ultralytics YOLO26のような現代的な代替手法が、比類のない速度、精度、使いやすさを提供しながら、そのギャップを埋める方法を探ります。
効率的な検出の理解
EfficientDetは、モデルスケーリングへの原理に基づいたアプローチを導入することで、物体検出に革命をもたらした。
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織:Google
- 日付: 2019年11月20日
- Arxiv:https://arxiv.org/abs/1911.09070
- GitHub:Google リポジトリ
- ドキュメント:EfficientDet ドキュメント
アーキテクチャと中核概念
EfficientDetは、その中核においてEfficientNetをバックボーンとして利用し、双方向特徴ピラミッドネットワーク(BiFPN)を導入しています。BiFPNは、学習可能な重みを適用して異なる入力特徴の重要性を学習することで、容易かつ高速なマルチスケール特徴融合を可能にします。これは、すべてのバックボーン、特徴ネットワーク、およびボックス/クラス予測ネットワークに対して解像度、深度、幅を同時に均一にスケーリングする複合スケーリング手法と組み合わされています。
長所と限界
EfficientDetの最大の強みはパラメータ効率にある。リリース当時、EfficientDet-D0のようなモデルは、YOLO と比較して、より少ないパラメータとFLOPsで高い精度を達成した。これにより、厳格な計算リソース制限のある環境において非常に魅力的な選択肢となった。
ただし、EfficientDetは後処理において標準的な非最大抑制(NMS)に依存して重複するバウンディングボックスをフィルタリングするため、リアルタイムパイプラインでは遅延のボトルネックが生じる可能性がある。さらに、トレーニングプロセスは十分に文書化されているものの、EfficientDetの微調整は、現代的なツールに見られる高度に最適化された開発者体験と比較すると煩雑になり得る。
レガシーサポート
EfficientDetがスケーラブルなネットワークの基盤を築いた一方で、これらのモデルを現代のNPUにデプロイするには、多くの場合、手作業による大規模な最適化が必要となります。効率的なデプロイを実現するため、Ultralytics ワンクリックでのエクスポート機能を提供しています。
RTDETRv2の探求
RTDETRv2は、トランスフォーマーベースのアーキテクチャの進化を体現し、従来のアンカーベースのCNNからパラダイムを転換するものである。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv:https://arxiv.org/abs/2407.17140
- GitHub:RT-DETR Repository
- ドキュメント:RTDETRv2 ドキュメント
変圧器の進歩
RTDETRv2は、リアルタイム検出トランスフォーマー(RT-DETR)のベースラインを基盤としています。グローバルアテンション機構を活用することで、標準的な畳み込みの局所的な制約なしに複雑なシーンコンテキストを理解可能にします。最も重要なアーキテクチャ上の利点は、ネイティブNMS設計であることです。入力画像から直接オブジェクトを予測することで推論パイプラインを簡素化し、NMS に必要なヒューリスティックな調整を回避します。
長所と短所
RTDETRv2は、物体の重なりが従来のCNNを混乱させる高密度環境において優れた性能を発揮する。 COCOのような複雑なベンチマークデータセットでも高い精度を実現する。
その正確性にもかかわらず、トランスフォーマーモデルは当然ながら膨大なメモリを必要とする。学習効率は著しく低く、より多くのエポックとより高い CUDA メモリ使用量が必要となる。このため、クラウド予算が制約されている開発者や迅速なプロトタイピングを必要とする開発者にとって、RTDETRv2は理想的とは言えない。
トランスフォーマーのメモリ制約
RTDETRv2のようなトランスフォーマーモデルのトレーニングには、通常ハイエンドGPUが必要です。メモリ不足(OOM)エラーが発生した場合は、トレーニング中のメモリ要件が低いモデル(例: Ultralytics YOLO シリーズなどのメモリ要件が低いモデルの使用をご検討ください。
性能ベンチマーク比較
モデルの選択には、生の性能指標を理解することが不可欠です。以下の表は、さまざまなサイズにおけるEfficientDetとRTDETRv2の比較を示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
ユースケースと推奨事項
RT-DETR は、プロジェクト固有の要件、デプロイメント上の制約、およびエコシステム上の好みにRT-DETR 。
EfficientDetを選択するタイミング
EfficientDetは以下に最適な選択肢です:
- Google およびTPU : Google Vision API またはTPU と深く統合されたシステムで、EfficientDet がネイティブ最適化を実現します。
- 複合スケーリング研究:バランスの取れたネットワークの深さ、幅、および解像度スケーリングの効果を研究する学術的ベンチマーク。
- TFLiteによるモバイル展開: Android 組み込みLinuxデバイス向けにTensorFlow エクスポートを特に必要とするプロジェクト。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
Ultralytics :YOLO26のご紹介
EfficientDetとRTDETRv2がコンピュータビジョン史における地位を確立した一方で、現代の生産環境では速度、精度、そして卓越した開発者体験の完璧なバランスが求められています。最近リリースUltralytics は、これらの異なるアーキテクチャの優れた側面を統合しています。
YOLO26は、合理化されたエコシステムを組み合わせることで際立っている Ultralytics が誇る革新的な内部メカニズムを融合させた点で際立っています。
なぜ競合他社ではなくYOLO26を選ぶべきなのか?
- エンドツーエンドNMS設計:RTDETRv2などのトランスフォーマーに着想を得たYOLO26は、ネイティブにエンドツーエンドです。NMS 排除し、純粋なトランスフォーマーのような膨大なパラメータ増加なしに、より高速でシンプルなデプロイメントパイプラインを保証します。
- MuSGDオプティマイザ:大規模言語モデル訓練の革新(Moonshot AIのKimi K2など)に着想を得たYOLO26は、SGD ミューオンのハイブリッド手法を採用。これにより、RTDETRv2で必要とされる長期スケジュールと比較して、前例のない訓練安定性と大幅に高速な収束速度を実現する。
- エッジ向けに最適化:最大43%高速CPU を実現するYOLO26は、エッジAI向けに設計されています。スマートフォンやスマートカメラなどの制約のあるハードウェア上でも、重いトランスフォーマーモデルを容易に凌駕します。
- DFL除去:分布焦点損失の除去によりモデルグラフが簡素化され、シームレスな TensorRT および ONNX エクスポートを容易にします。
- ProgLoss + STAL:これらの高度な損失関数は、航空画像とロボティクスにおける一般的なボトルネックを解決し、小規模物体認識において顕著な改善をもたらす。
- 汎用性:主に検出に特化したRTDETRv2とは異なり、YOLO26はインスタンスセグメンテーション、姿勢推定、画像分類、および向き付き境界ボックス(OBB)をネイティブにサポートし、姿勢推定にはRLE、OBBには専用角度損失関数といったタスク特化型の改良が施されている。
統合されたエコシステム
Ultralytics を活用すれば、データセットの管理やYOLO26や YOLO11 などのモデルをクラウド上でトレーニングし、柔軟なAPIを介してシームレスにデプロイできます。
Ultralyticsによるコードの簡素化
Ultralytics Python 整備が行き届いており、モデルのトレーニングと推論を容易にします。開発者は最小限の定型コードでモデルを簡単にベンチマークしたり、トレーニングスクリプトを実行したりできます。
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on a test image
predictions = model.predict("image.jpg")
レガシーインフラを管理する方々にとって、高く評価されている Ultralytics YOLOv8 は安定した強力な選択肢であり、Ultralytics 長期的な信頼性を示しています。複雑なリアルタイム追跡アルゴリズムを実行する場合でも、単純な欠陥検出を行う場合でも、YOLOv6へのアップグレードにより、システムは将来を見据えた設計となり、高い精度とメモリ効率を実現します。