RTDETRv2 対 EfficientDet: リアルタイム検出アーキテクチャの分析

最適なニューラルネットワークアーキテクチャの選択は、あらゆるコンピュータビジョンプロジェクトにおける決定的な選択です。本技術比較では、2つの影響力のある物体検出モデルを詳細に分析します：最先端のトランスフォーマーベース検出器であるRTDETRv2と、高いスケーラビリティを持つ畳み込みニューラルネットワークであるEfficientDetです。それぞれのアーキテクチャ、性能指標、トレーニング手法、理想的な展開シナリオを評価し、AIパイプラインにおけるデータ駆動型の意思決定を支援します。

RTDETRv2: リアルタイム検出トランスフォーマー

オリジナルのRT-DETRの成功を基盤とし、RTDETRv2はトランスフォーマーベースの物体検出パラダイムを洗練させます。エンコーダーとデコーダーの構造を最適化することで、リアルタイムの推論速度を維持しながら高い精度を実現し、従来のCNNとビジョントランスフォーマー間のギャップを効果的に埋めます。

モデル詳細 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
組織: Baidu 日付: 2024-07-24 リンク: Arxiv, GitHub, Docs

アーキテクチャと核となる強み

RTDETRv2は、強力なCNNバックボーン（多くの場合ResNetまたはHGNet）と効率的なトランスフォーマーデコーダーを組み合わせたハイブリッドアーキテクチャを採用しています。RTDETRv2の最も特徴的な点は、非最大抑制（NMS）をバイパスするネイティブな能力です。従来の検出器は重複バウンディングボックスNMS 必要とし、後処理段階で変動する推論遅延を生じます。RTDETRv2は検出を直接集合予測問題として定式化し、二部マッチングを用いて一意の予測を出力します。

このモデルは、GPU 豊富なサーバーサイド展開において特に優れています。そのグローバルアテンション機構は卓越した文脈認識能力を提供し、自動警報システムや密集した群衆監視など、密集した雑然とした環境において重なり合う物体を分離することに非常に長けています。

制限事項

トランスフォーマーアーキテクチャは強力である一方、標準的なCNNと比較して学習時に本質的にCUDA 必要とする。さらに、RTDETRv2の微調整には学習データの収束時間が長くなる場合があり、迅速なプロトタイピングがややリソース集約的になる。

RTDETRv2の詳細について。

EfficientDet: スケーラブルで効率的なCNN

EfficientDetは、幅広いリソース制約において精度と効率の両方に最適化された物体検出モデルのファミリーを導入しました。これは、スケーラブルなマシンビジョン設計の古典的な例として残っています。

モデル詳細 著者: Mingxing Tan, Ruoming Pang, and Quoc V. Le
組織: Google
日付: 2019-11-20
リンク: Arxiv, GitHub, Docs

アーキテクチャと核となる強み

EfficientDetの革新性は、二つの主要な領域に根ざしている：双方向特徴ピラミッドネットワーク（BiFPN）と複合スケーリング手法である。BiFPNは、学習可能な重みを導入して異なる入力特徴の重要性を学習させると同時に、トップダウンおよびボトムアップのマルチスケール特徴融合を反復的に適用することで、簡便かつ高速なマルチスケール特徴抽出を可能にする。複合スケーリング手法は、ネットワークの解像度、深さ、幅を同時に均一にスケーリングする。

EfficientDetモデルは、超軽量のD0から大規模なD7まで多岐にわたります。これにより、初期のモバイル拡張現実アプリケーションのように、開発者が厳密な計算予算と精度要件のバランスを取る必要があるエッジAIデプロイメントにおいて非常に汎用性が高くなります。

制限事項

EfficientDetは、アンカーボックスと従来のNMS後処理パイプラインに大きく依存する古いアーキテクチャです。アンカー生成プロセスには慎重なハイパーパラメータチューニングが必要であり、NMSステップはRaspberry Piのような組み込みハードウェアでのデプロイメントのボトルネックになる可能性があります。また、姿勢推定やoriented bounding boxes (OBB)のような最新のタスクに対するネイティブサポートも欠いています。

EfficientDetの詳細について。

パフォーマンスとメトリクスの比較

これらのモデル間の正確なトレードオフを理解するには、スループットとパラメータ効率を分析する必要がある。下表は、最新のRTDETRv2シリーズがスケーラブルなEfficientDetファミリーとどのように比較されるかを概説している。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

上記で示されているように、RTDETRv2は、ミドルティアのEfficientDetモデルと同等のパラメータ数で、大幅に高い平均平均精度 (mAP)を達成し、そのトランスフォーマーアーキテクチャを最大限に活用して精度を向上させています。

ユースケースと推奨事項

RT-DETRとEfficientDetの選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

RT-DETRを選択すべきタイミング

RT-DETR 以下に最適RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

EfficientDetを選択するタイミング

EfficientDetは以下の用途に推奨されます。

Google CloudおよびTPUパイプライン: EfficientDetがネイティブ最適化されているGoogle Cloud Vision APIまたはTPUインフラストラクチャと深く統合されたシステム。
複合スケーリング研究：バランスの取れたネットワークの深さ、幅、解像度のスケーリング効果を研究することに焦点を当てた学術的なベンチマーク。
TFLiteを介したモバイルデプロイメント: Androidまたは組み込みLinuxデバイス向けにTensorFlow Liteのエクスポートを特に必要とするプロジェクト。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

Ultralytics ：最先端技術の推進

RTDETRv2とEfficientDetはいずれも優れた利点を有していますが、現代のAI開発には最先端の性能に加え、シームレスな開発者体験を提供するフレームワークが求められています。Ultralytics 、コンピュータビジョンタスクに対して大幅に合理化されたアプローチを提供します。

最先端の検出技術を探求しているなら、新たにリリースUltralytics 、CNNとトランスフォーマーの両方の優れた側面を統合しています。

YOLO26を選ぶ理由

YOLO26はエンドツーエンドNMS設計を採用し、RTDETRv2の展開簡便性を超高効率YOLO にもたらします。さらに、LLMトレーニングの革新に着想を得たMuSGDオプティマイザーを導入し、優れたトレーニング安定性を実現します。DFL除去（簡素化されたエクスポートとエッジ／低電力デバイス互換性向上のため分布焦点損失を除去）により、YOLO26は前世代比最大43CPU を実現。これにより、より重いモデルに比べエッジコンピューティングに最適な選択肢となります。さらにProgLoss + STALは改良された損失関数を提供し、IoT・ロボティクス・航空画像処理において重要な小物体認識性能を顕著に向上させます。

Python 提供する使いやすさは他に類を見ない。開発者は直感的なAPIを使用してモデルをトレーニング、検証、エクスポートでき、研究リポジトリで通常必要とされる定型コードを抽象化している。

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

Ultralytics 、インスタンスセグメンテーションや画像分類を含む複数のタスクをネイティブにサポートし、多様な業界ニーズに対応する汎用ツールキットを提供します。さらに、Ultralytics 分布焦点損失（DFL）が除去されたことで計算グラフが簡素化され、組み込みNPUやTPUへのエクスポートがよりスムーズに行えるようになりました。

シームレスなデータアノテーションとモデル管理のために、Ultralytics Platformは機械学習ライフサイクル全体を監督するための包括的なクラウド環境を提供し、堅牢なコンピュータビジョンソリューションを本番環境にデプロイするための最有力候補としての地位を確立しています。

RTDETRv2 対 EfficientDet: リアルタイム検出アーキテクチャの分析

RTDETRv2: リアルタイム検出トランスフォーマー

アーキテクチャと核となる強み

制限事項

EfficientDet: スケーラブルで効率的なCNN

アーキテクチャと核となる強み

制限事項

パフォーマンスとメトリクスの比較

ユースケースと推奨事項

RT-DETRを選択すべきタイミング

EfficientDetを選択するタイミング

Ultralytics YOLO26）を選択すべきタイミング

Ultralytics ：最先端技術の推進

コメント