Link to this sectionRTDETRv2 と EfficientDet の比較#
最適なニューラルネットワークアーキテクチャの選択は、あらゆるコンピュータビジョンプロジェクトにおいて決定的な要素となります。この包括的な技術比較では、影響力の大きい2つの物体検出モデルを詳しく分析します。1つは最先端のTransformerベースの検出器であるRTDETRv2、もう1つは拡張性の高い畳み込みニューラルネットワークであるEfficientDetです。AIパイプラインでデータに基づいた意思決定を行えるよう、それぞれの異なるアーキテクチャ、パフォーマンス指標、学習手法、および理想的なデプロイメントシナリオを評価します。
Link to this sectionRTDETRv2: リアルタイム検出用Transformer#
オリジナルのRT-DETRの成功を基盤とするRTDETRv2は、Transformerベースの物体検出パラダイムを洗練させたものです。エンコーダーとデコーダーの構造を最適化することで、リアルタイムの推論速度を維持しながら高い精度を実現し、従来のCNNとVision Transformerの間のギャップを効果的に埋めています。
モデル詳細
著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
組織: Baidu
日付: 2024-07-24
リンク: Arxiv, GitHub, Docs
Link to this sectionアーキテクチャと主な利点#
RTDETRv2は、強力なCNNバックボーン(多くの場合ResNetやHGNet)と効率的なTransformerデコーダーを組み合わせたハイブリッドアーキテクチャを採用しています。RTDETRv2の最大の特徴は、NMS(Non-Maximum Suppression)を必要としない独自の設計にあります。従来の検出器では、重複するBBoxを除去するためにNMSが必要であり、後処理において変数となるinference latencyが発生します。RTDETRv2は検出を直接的な集合予測問題として定式化し、二部マッチングを利用して重複のない予測を出力します。
このモデルは、GPUメモリが豊富なサーバーサイドのデプロイメントで優れた性能を発揮します。そのグローバルアテンションメカニズムは卓越したコンテキスト認識を提供し、自動セキュリティ警報システムや密集した群衆監視のような、混雑した環境で重なり合う物体を分離するのに非常に適しています。
Link to this section制限事項#
Transformerアーキテクチャは強力ですが、標準的なCNNと比較して学習中に多くのCUDAメモリを必要とします。さらに、RTDETRv2のファインチューニングにはtraining dataの収束まで時間がかかる場合があり、ラピッドプロトタイピングの際にリソースをやや多く消費します。
Link to this sectionEfficientDet: スケーラブルで効率的なCNN#
EfficientDetは、幅広いリソース制約において精度と効率の両方を最適化した物体検出モデルファミリーを導入しました。これは、スケーラブルなmachine vision設計の古典的な例として今も評価されています。
モデル詳細
著者: Mingxing Tan, Ruoming Pang, and Quoc V. Le
組織: Google
日付: 2019-11-20
リンク: Arxiv, GitHub, Docs
Link to this sectionアーキテクチャと主な利点#
EfficientDetの背後にあるイノベーションは、Bi-directional Feature Pyramid Network (BiFPN)と複合スケーリング手法という2つの重要な領域にあります。BiFPNは、入力特徴量の重要度を学習するための学習可能な重みを導入し、トップダウンおよびボトムアップのマルチスケール特徴融合を繰り返し適用することで、シンプルかつ高速なfeature extractionを可能にします。複合スケーリング手法は、ネットワークの解像度、深さ、幅を同時に一様にスケーリングします。
EfficientDetモデルは、超軽量のD0から大規模なD7まで多岐にわたります。これにより、開発者が厳しい計算予算と精度の要件のバランスを取らなければならないedge AI展開、例えば初期のモバイルaugmented realityアプリケーションなどにおいて、非常に汎用性が高くなっています。
Link to this section制限事項#
EfficientDetは、アンカーボックスと従来のNMS後処理パイプラインに大きく依存する旧式のアーキテクチャです。アンカー生成プロセスには慎重なハイパーパラメータチューニングが必要であり、NMSステップはRaspberry Piのような組み込みハードウェアへのデプロイでボトルネックになる可能性があります。また、姿勢推定や方向付きバウンディングボックス (OBB)のような現代的なタスクに対するネイティブサポートが不足しています。
Link to this sectionパフォーマンスと指標の比較#
これらのモデル間の正確なトレードオフを理解するには、スループットとパラメータ効率を分析する必要があります。以下の表は、最新のRTDETRv2シリーズとスケーラブルなEfficientDetファミリーの比較を示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
上記のように、RTDETRv2はミドルティアのEfficientDetモデルと同等のパラメータ数で、より高いmean Average Precision (mAP)を達成しており、精度を向上させるためにTransformerアーキテクチャを最大限に活用しています。
Link to this sectionユースケースと推奨事項#
RT-DETRとEfficientDetのどちらを選択するかは、特定のプロジェクトの要件、デプロイメントの制約、およびエコシステムの優先順位によって決まります。
Link to this sectionRT-DETRを選択すべき時#
RT-DETRは以下のような場合に強力な選択肢です。
- Transformerベースの検出研究: NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
- 高い精度が求められ、レイテンシに柔軟性があるシナリオ: 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
- 大きな物体の検出: 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。
Link to this sectionEfficientDetを選択すべき場合#
EfficientDetは以下の場合に推奨されます:
- Google CloudおよびTPUパイプライン: Google Cloud Vision APIやTPUインフラストラクチャと深く統合されたシステムであり、EfficientDetのネイティブ最適化が活かせる環境。
- 複合スケーリング研究: ネットワークの深さ、幅、解像度のスケーリングバランスが与える影響を調査することに焦点を当てた学術的なベンチマーク。
- TFLite経由のモバイルデプロイ: Androidまたは組み込みLinuxデバイス向けにTensorFlow Liteのエクスポートを特に必要とするプロジェクト。
Link to this sectionUltralytics (YOLO26) を選択すべき時#
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。
- NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
- 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。
Link to this sectionUltralyticsの選択肢:最先端技術の推進#
RTDETRv2とEfficientDetにはそれぞれの優れた点がありますが、現代のAI開発には、最先端のパフォーマンスとシームレスな開発者体験の両方を提供するフレームワークが求められています。Ultralyticsエコシステムは、コンピュータビジョンのタスクに対して大幅に合理化されたアプローチを提供します。
最先端の検出を検討している場合、新しくリリースされたUltralytics YOLO26は、CNNとTransformerの両方の利点を統合しています。
YOLO26はEnd-to-End NMS-Free Designを実装し、RTDETRv2のデプロイのシンプルさを超効率的なYOLOアーキテクチャにもたらしました。さらに、LLMの学習イノベーションに着想を得たMuSGD Optimizerを導入し、優れた学習安定性を実現しています。DFL Removal(エクスポートの簡素化とエッジ/低電力デバイスへの互換性向上のためにDistribution Focal Lossを削除)により、YOLO26は前世代と比較して最大43%高速なCPU inferenceを誇り、より重いモデルに代わるedge computing向けの極めて優れた選択肢となっています。さらに、ProgLoss + STALは改良された損失関数を提供し、IoT、ロボット工学、航空画像にとって不可欠な小物体認識において顕著な改善を実現します。
Ultralytics Pythonパッケージが提供する使いやすさは比類のないものです。開発者は、研究用リポジトリで通常必要とされるボイラープレートコードを抽象化する直感的なAPIを使用して、モデルの学習、検証、およびエクスポートを行うことができます。
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")Ultralyticsモデルは、インスタンスセグメンテーションや画像分類を含む複数のタスクをネイティブにサポートしており、多様な業界ニーズに対応する汎用的なツールキットを提供します。さらに、最新のUltralyticsモデルにおけるDistribution Focal Loss (DFL) の削除は、計算グラフを簡素化し、NPUおよびTPUへのよりスムーズなエクスポートを保証します。
シームレスなデータアノテーションとモデル管理のために、Ultralytics Platformは機械学習ライフサイクル全体を管理するための包括的なクラウド環境を提供しており、本番環境で堅牢なコンピュータビジョンソリューションをデプロイするための第一の選択肢としての地位を確立しています。