EfficientDet vs RTDETRv2: オブジェクト検出アーキテクチャの詳細な比較

コンピュータービジョンプロジェクトに最適なアーキテクチャを選択するには、ニューラルネットワークの多様な状況を把握する必要があります。このガイドでは、2つの異なるアプローチ、すなわち、高度にスケーラブルな畳み込みニューラルネットワーク（CNN）ファミリーであるEfficientDetと、最先端のリアルタイムトランスフォーマーモデルであるRTDETRv2の詳細な技術比較を探ります。これら2つの構造上の違い、トレーニング手法、およびさまざまなハードウェア環境でのデプロイメントの適合性を評価します。

従来の効率性と最新のトランスフォーマー機能の間のトレードオフを理解することで、開発者は情報に基づいた意思決定を行うことができます。さらに、新しいUltralytics YOLO26のような現代的な代替手段がどのようにギャップを埋め、比類のない速度、精度、使いやすさを提供するかを探ります。

効率的な検出の理解

EfficientDetは、モデルスケーリングに対する原則に基づいたアプローチを導入することで、オブジェクト検出に革命をもたらしました。

著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
組織:Google
日付: 2019年11月20日
Arxiv:https://arxiv.org/abs/1911.09070
GitHub:Google リポジトリ
ドキュメント:EfficientDet ドキュメント

アーキテクチャと中核概念

その核となるのは、EfficientDetがEfficientNetをバックボーンとして利用し、双方向特徴ピラミッドネットワーク（BiFPN）を導入していることです。BiFPNは、異なる入力特徴の重要性を学習するために学習可能な重みを適用することで、簡単かつ迅速なマルチスケール特徴融合を可能にします。これは、すべてのバックボーン、特徴ネットワーク、およびボックス/クラス予測ネットワークの解像度、深さ、幅を同時に均一にスケーリングする複合スケーリング手法と組み合わされています。

長所と限界

EfficientDetの主な強みは、そのパラメータ効率にあります。リリース当時、EfficientDet-D0のようなモデルは、以前のYOLOバージョンと比較して、より少ないパラメータとFLOPsで高い精度を達成しました。このため、厳格な計算リソース制限のある環境において非常に魅力的でした。

ただし、EfficientDetは後処理において標準的な非最大抑制（NMS）に依存して重複するバウンディングボックスをフィルタリングするため、リアルタイムパイプラインでは遅延のボトルネックが生じる可能性がある。さらに、トレーニングプロセスは十分に文書化されているものの、EfficientDetの微調整は、現代的なツールに見られる高度に最適化された開発者体験と比較すると煩雑になり得る。

EfficientDetの詳細について。

レガシーサポート

EfficientDetがスケーラブルなネットワークの基盤を築いた一方で、これらのモデルを現代のNPUにデプロイするには、多くの場合、手作業による大規模な最適化が必要となります。効率的なデプロイを実現するため、Ultralytics ワンクリックでのエクスポート機能を提供しています。

RTDETRv2の探索

RTDETRv2は、トランスフォーマーベースのアーキテクチャの進化を体現し、従来のアンカーベースのCNNからパラダイムを転換するものである。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織:Baidu
日付: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RT-DETR Repository
ドキュメント:RTDETRv2 ドキュメント

トランスフォーマーの進歩

RTDETRv2は、リアルタイム検出トランスフォーマー（RT-DETR）のベースラインに基づいて構築されています。グローバルアテンションメカニズムを活用し、標準的な畳み込みの局所的な制約なしに、モデルが複雑なシーンコンテキストを理解できるようにします。最も重要なアーキテクチャ上の利点は、ネイティブなNMSフリー設計です。入力画像から直接オブジェクトを予測することで、推論パイプラインを簡素化し、NMS後処理に必要なヒューリスティックな調整を回避します。

長所と短所

RTDETRv2は、物体の重なりが従来のCNNを混乱させる高密度環境において優れた性能を発揮する。 COCOのような複雑なベンチマークデータセットでも高い精度を実現する。

その精度にもかかわらず、Transformerモデルは本質的にかなりのメモリを必要とします。トレーニング効率は著しく低く、CNNと比較して収束にははるかに多くのエポックとより高いCUDAメモリフットプリントが必要です。このため、RTDETRv2は、クラウド予算が限られている開発者や、迅速なプロトタイピングを必要とする開発者にはあまり理想的ではありません。

RTDETRv2の詳細について。

トランスフォーマーのメモリ制約

RTDETRv2のようなトランスフォーマーモデルのトレーニングには、通常ハイエンドGPUが必要です。メモリ不足（OOM）エラーが発生した場合は、トレーニング中のメモリ要件が低いモデル（例： Ultralytics YOLO シリーズなどのメモリ要件が低いモデルの使用をご検討ください。

性能ベンチマーク比較

モデルの選択には、生の性能指標を理解することが不可欠です。以下の表は、さまざまなサイズにおけるEfficientDetとRTDETRv2の比較を示しています。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

ユースケースと推奨事項

EfficientDetとRT-DETRの選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

EfficientDetを選択するタイミング

EfficientDetは、以下の用途に強力な選択肢です。

Google CloudおよびTPUパイプライン: EfficientDetがネイティブ最適化されているGoogle Cloud Vision APIまたはTPUインフラストラクチャと深く統合されたシステム。
複合スケーリング研究：バランスの取れたネットワークの深さ、幅、解像度のスケーリング効果を研究することに焦点を当てた学術的なベンチマーク。
TFLiteを介したモバイルデプロイメント: Androidまたは組み込みLinuxデバイス向けにTensorFlow Liteのエクスポートを特に必要とするプロジェクト。

RT-DETRを選択すべきタイミング

RT-DETR 以下に推奨RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

Ultralytics ：YOLO26のご紹介

EfficientDetとRTDETRv2がコンピュータビジョン史における地位を確立した一方で、現代の生産環境では速度、精度、そして卓越した開発者体験の完璧なバランスが求められています。最近リリースUltralytics は、これらの異なるアーキテクチャの優れた側面を統合しています。

YOLO26は、合理化されたエコシステムを組み合わせることで際立っている Ultralytics が誇る革新的な内部メカニズムを融合させた点で際立っています。

なぜ競合他社ではなくYOLO26を選ぶべきなのか？

エンドツーエンドのNMSフリー設計: RTDETRv2のようなトランスフォーマーから着想を得て、YOLO26はネイティブにエンドツーエンドです。NMS後処理を排除することで、純粋なトランスフォーマーのような大規模なパラメータ肥大化を伴わずに、より高速でシンプルなデプロイメントパイプラインを保証します。
MuSGDオプティマイザ: 大規模言語モデルの学習革新 (Moonshot AIのKimi K2など) に触発され、YOLO26はSGDとMuonのハイブリッドを利用しています。これにより、RTDETRv2で必要とされた長時間のスケジュールと比較して、前例のない学習安定性と著しく速い収束率がもたらされます。
エッジ向けに最適化: 最大43%高速なCPU推論により、YOLO26はエッジAI向けに構築されています。携帯電話やスマートカメラのような制約のあるハードウェア上で、重いトランスフォーマーモデルを容易に凌駕します。
DFLの削除: Distribution Focal Lossの削除によりモデルグラフが簡素化され、シームレスなTensorRTおよびONNXエクスポートを容易にします。
ProgLoss + STAL: これらの高度な損失関数は、航空画像やロボティクスにおける一般的なボトルネックを解決し、小物体認識において顕著な改善をもたらします。
多様性: 主にdetectに焦点を当てているRTDETRv2とは異なり、YOLO26は、姿勢推定のためのRLEやobbのための特殊な角度損失といったタスク固有の改善を伴い、インスタンスセグメンテーション、姿勢推定、画像分類、そしてoriented bounding boxes (obb)をネイティブにサポートします。

統合されたエコシステム

Ultralytics を活用すれば、データセットの管理やYOLO26や YOLO11 などのモデルをクラウド上でトレーニングし、柔軟なAPIを介してシームレスにデプロイできます。

Ultralyticsによるコードのシンプルさ

Ultralytics Python 整備が行き届いており、モデルのトレーニングと推論を容易にします。開発者は最小限の定型コードでモデルを簡単にベンチマークしたり、トレーニングスクリプトを実行したりできます。

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

レガシーインフラを管理している方には、高く評価されているUltralytics YOLOv8は、安定した強力な選択肢であり続け、Ultralyticsエコシステムの長期的な信頼性を示しています。複雑なリアルタイムトラッキングアルゴリズムを実行している場合でも、シンプルな欠陥検出を行っている場合でも、YOLO26へのアップグレードは、システムが将来性があり、高精度で、メモリ効率が高いことを保証します。