EfficientDet vs. RTDETRv2: 現代的な物体検出のための技術的比較
物体検出に最適なアーキテクチャを選択するには、アーキテクチャの複雑さ、推論遅延、検出精度というトレードオフを慎重に検討する必要がある。本技術比較では、Google複合スケーリングCNNアーキテクチャ「EfficientDet」と、Baiduのリアルタイムトランスフォーマーベースモデル「RTDETRv2」という二つの異なるアプローチを詳細に分析する。
EfficientDetが2019年にスケーラビリティのベンチマークを確立した一方で、RTDETRv2は非最大抑制(NMS)を排除するトランスフォーマーアーキテクチャへの移行を体現しています。2026年に最高のパフォーマンスを追求する開発者に向けて、Ultralytics ネイティブのエンドツーエンド設計でこれらの長所を統合する方法についても探求します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
効率的検出:複合スケーリングの遺産
2019年末にリリースされたEfficientDetは、畳み込みニューラルネットワーク(CNN)をスケーリングする体系的な手法を導入した。モバイルデバイスからデータセンターまで、幅広いリソース制約下で効率を最適化するように設計されている。
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織:Google
- 日付: 2019-11-20
- Arxiv:EfficientDet: スケーラブルで効率的な物体detect
アーキテクチャと主な機能
EfficientDetは、EfficientNetバックボーンと重み付け双方向特徴ピラミッドネットワーク(BiFPN)を組み合わせたモデルである。BiFPNは多階層特徴の融合を容易かつ高速に行うことを可能にし、モデルが異なる入力特徴の重要性を効果的に学習することを実現する。中核となる革新は複合スケーリングであり、ネットワークバックボーン、特徴ネットワーク、ボックス/クラス予測ネットワークの解像度、深さ、幅を均一にスケーリングする。
学術的な成功にもかかわらず、EfficientDetはアンカーボックスと、遅延変動を引き起こしエッジハードウェアへの展開を複雑化する可能性のある非最大抑制(NMS)などの重い後処理ステップに依存している。
RTDETRv2: リアルタイムトランスフォーマー
RTDETRv2(リアルタイム検出トランスフォーマーv2)は、RT-DETR成功を基盤とし、DETRベースのモデルに付随する高い計算コストを解決しつつ、その優れた精度とグローバルな文脈認識能力を維持することを目的としています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Changら
- 組織:Baidu
- 日付:2023年4月17日 (オリジナル)、2024年更新
- Arxiv:RT-DETRv2: Bag-of-Freebiesで改善されたベースライン
アーキテクチャと主な機能
RTDETRv2は、標準的なビジョントランスフォーマー(ViT)よりも効率的にマルチスケール特徴を処理するハイブリッドエンコーダーを採用している。その特徴はNMS設計にある。オブジェクトを集合として直接予測することで、経験則に基づく後処理を不要とし、理論的に推論速度を安定化させる。
しかし、トランスフォーマーベースのモデルはメモリ消費量が非常に大きいことで知られている。RTDETRv2のトレーニングには通常、大量のGPU が必要であり、効率的な収束のためにはNVIDIA のようなハイエンドハードウェアが求められることが多い。一方、CNNベースYOLO コンシューマー向けハードウェアでも比較的柔軟に対応できる。
Ultralyticsの利点: YOLO26の登場
EfficientDetとRTDETRv2が重要なマイルストーンである一方、Ultralytics (2026年1月リリース)は両アーキテクチャの強みを統合した統一された高性能フレームワークにより、新たな基準を確立した。
YOLO26は、トランスフォーマーの精度と軽量CNNの速度を必要とする開発者向けに設計されています。
- エンドツーエンドNMS設計:RTDETRv2と同様に、YOLO26はネイティブにエンドツーエンドです。NMS 排除し、自律走行車のような安全性が極めて重要なアプリケーションに不可欠な決定論的レイテンシを保証します。
- MuSGDオプティマイザー:Moonshot AIによる大規模言語モデル(LLM)トレーニングの革新に着想を得たYOLO26は、MuSGDオプティマイザーを採用しています。SGD 融合したこの手法は、安定したトレーニング動特性と高速な収束を実現し、トランスフォーマーのハイパーパラメータ調整時に必要となる「試行錯誤」を削減します。
- DFL除去:分布焦点損失(Distribution Focal Loss)を除去することで、YOLO26はモデルグラフを簡素化します。この最適化は、CoreML形式へのモデルエクスポートにおいて極めて重要です。複雑な損失層はエッジデバイス上で互換性の問題を引き起こす可能性があるためです。
- パフォーマンスバランス:YOLO26は前世代と比較して最大43%高速CPU を実現し、計算負荷の高いEfficientDet-d7やVRAMを大量に消費するRTDETRv2よりもエッジデプロイメントに極めて適しています。
技術的な詳細
トレーニング効率とメモリ
これらのモデル間の重要な差別化要因は、学習時のリソース消費量である。
- 効率的な検出:パラメータ効率は高いものの、複合スケーリング手法は学習速度が遅い深層ネットワークを生む可能性がある。複雑なBiFPN接続もメモリアクセスコスト(MAC)を増加させ、スループットを低下させる。
- RTDETRv2:トランスフォーマーは注意マップの計算を必要とし、これはシーケンス長に二次的に比例する。これによりVRAM使用量が高くなり、標準GPU(例:RTX 3060/4070)では大きなバッチサイズでの学習が困難となる。
- Ultralytics YOLO :モデル例 YOLO11 やYOLO26などのモデルはメモリ効率を最適化しています。これにより、コンシューマー向けハードウェアでもより大きなバッチサイズが可能となり、高性能AIへのアクセスが民主化されます。さらに、Ultralytics (旧称HUB)はこのプロセスをさらに効率化し、インフラストラクチャの複雑さを自動的に処理するマネージドクラウドトレーニングを提供します。
汎用性とエコシステム
EfficientDetは主に検出専用のアーキテクチャです。これに対し、Ultralytics 単一のコードベース内で多様なタスクをサポートします。
マルチタスク機能
Ultralytics バウンディングボックスに限定されません。同じAPIを使用して、以下のモデルをトレーニングできます: インスタンスセグメンテーション、 姿勢推定、および 方向性物体検出(OBB)を提供し、多様なコンピュータビジョン課題に対応する柔軟なツールキットを実現します。
YOLO26は特に、ProgLossやSTAL(Soft Target Assignment Loss)といったタスク特化型の改良を組み込んでおり、これらは従来型のCNNやトランスフォーマーの弱点であった小物体認識において顕著な改善をもたらす。
実際のユースケース
RTDETRv2の利用シーン
RTDETRv2は、ハードウェアリソースが豊富でグローバルコンテキストが最優先される環境において優れた性能を発揮します。
- 複雑なシーン理解:遮蔽や雑然とした要素が多いシーンにおいて、グローバルな注意機構は局所的な畳み込みよりも遠隔の物体間のtrack 。
- GPU :サーバークラスのGPU(例:T4、A10)でのみ展開する場合、RTDETRv2は競争力のある精度を提供する。
EfficientDetの利用シーン
EfficientDetは主にレガシーアーキテクチャと見なされているが、特定のニッチ分野では依然として有用である。
- レガシーGoogle :古いTensorFlowパイプラインに深く統合されているチームにとって、EfficientDetの維持はフレームワークの移行よりも混乱が少ない可能性があります。
- 研究の基準線:特徴融合ネットワークの効率を比較するための標準的な基準線として依然として用いられている。
最上級の選択:YOLO26
現代のアプリケーションの大半において、汎用性と導入の容易さからYOLO26が推奨される選択肢である。
- エッジコンピューティング:DFL除去とCPU により、YOLO26はバッテリー寿命と熱的制約が重要なIoTデバイスやモバイルアプリケーションに最適です。
- ロボティクス: NMS設計により、ロボット制御ループは知覚データを一定かつ予測可能なレートで確実に受け取ります。
- 航空画像:ProgLoss関数は、ドローン映像における車両や家畜などの小型物体の検出精度を向上させ、標準的なEfficientDetベースラインを上回る性能を発揮する。
結論
EfficientDetが効率的なスケーリングの道を開き、RTDETRv2がリアルタイムトランスフォーマーの威力を示した一方で、状況は進化を遂げました。YOLO26は次世代コンピュータビジョンの本質を体現しています:ネイティブのエンドツーエンド処理、多様なハードウェア向けに高度に最適化され、堅牢なUltralytics によって支えられています。
機械学習パイプラインの効率化を目指す開発者にとって、Ultralytics への移行はパフォーマンス向上だけでなく、Ultralytics 上でのアノテーションからエッジデバイスへのデプロイまで、ワークフローの簡素化をもたらします。
参考資料
- 実装の詳細については、Ultralytics ドキュメントを参照してください。
- mAP IoUなどの性能指標について読みましょう。
- TensorRT OpenVINOへのデプロイについては、モデルエクスポートガイドを参照してください。