EfficientDet vs DAMO-YOLO: 物体検出アーキテクチャの技術比較

スケーラブルなコンピュータビジョンパイプラインを構築する際、適切なモデルアーキテクチャを選択することは、デプロイの実現可能性と検出精度の両方に影響を与える重要な決定事項です。本ガイドでは、視覚認識の分野でよく知られている2つのアーキテクチャであるEfficientDetとDAMO-YOLOについて、深く技術的な比較を行います。

両モデルとも物体検出の分野に重要な革新をもたらしましたが、ビジョンAIの急速な進歩により、より統合されたエコシステムへの道が開かれました。本分析では、これらレガシーネットワークの核となるメカニズムを探るとともに、なぜUltralytics PlatformUltralytics YOLO26のようなモダンなソリューションが本番環境における業界標準となったのかを解説します。

EfficientDet: スケーラブルかつ効率的な物体検出

Googleの研究者によって発表されたEfficientDetは、高い効率性を維持しながらモデルアーキテクチャを体系的にスケールさせるよう設計されました。これは、ネットワークの深さ、幅、入力解像度にわたる複合スケーリングを活用することで達成されています。

EfficientDetの詳細: 著者: Mingxing Tan, Ruoming Pang, Quoc V. Le
組織: Google Brain
日付: 2019-11-20
Arxiv: 1911.09070
GitHub: google/automl

アーキテクチャの革新

EfficientDetの主な貢献は、Bi-directional Feature Pyramid Network (BiFPN)です。従来のFPNとは異なり、BiFPNは学習可能な重みを利用して異なる入力特徴量の重要度を把握することで、簡単かつ高速なマルチスケール特徴融合を実現します。これにEfficientNetバックボーンを組み合わせることで、予測可能なスケーリングが可能なモデル群(D0〜D7)が誕生しました。

長所と短所

EfficientDetの主な強みは、そのパラメータ効率にあります。制約の厳しいクラウド環境においてmean Average Precision (mAP)を最大化する必要があるタスクでは、その複合スケーリング手法は非常に予測可能性が高いものです。しかし、EfficientDetはゼロからの学習が極めて複雑であり、多くの場合、広範なハイパーパラメータ調整を必要とします。さらに、特定のTensorFlow演算への依存度が強いため、モダンなYOLOモデルが備える洗練されたエクスポート機能と比較して、ONNXやTensorRTを通じたエッジ環境への移行はより困難です。

EfficientDetの詳細はこちら

DAMO-YOLO: 自動化されたアーキテクチャ探索の実践

DAMO-YOLOは、ニューラルアーキテクチャ探索 (NAS) を利用して、リアルタイム推論に最適なネットワーク構造を自動設計するという異なるアプローチを体現しています。

DAMO-YOLOの詳細: 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO

アーキテクチャの革新

DAMO-YOLOは、いくつかの新しい技術を導入しています。NASによって生成されたMAE-NASと呼ばれるバックボーン、ネックには効率的なRepGFPN、そして検出ヘッドの計算コストを劇的に削減するZeroHead設計を利用しています。さらに、ラベル割り当てにはAlignedOTAを採用し、小型バリアントの性能を向上させるために知識蒸留を多用しています。

長所と短所

DAMO-YOLOは、特にTensorRTを使用したNVIDIAアーキテクチャへのデプロイ向けに設計されたGPU推論速度に強みがあります。重いヘッド構造を排除することで、低遅延の予測を実現します。その反面、自動アーキテクチャ探索によってモデル構造が不透明になりやすく、カスタムエッジデバイス向けの手動デバッグや微調整が困難になる場合があります。非常に多用途なUltralytics YOLO11とは異なり、DAMO-YOLOは標準的なバウンディングボックス検出に主眼を置いており、姿勢推定指向性バウンディングボックス (OBB)のような高度なタスクのネイティブサポートは備えていません。

DAMO-YOLOの詳細はこちら

パフォーマンスの比較

経験的なトレードオフを理解することは、モデルを選択する上で不可欠です。以下の表では、EfficientDetファミリとDAMO-YOLOシリーズを、重要なパフォーマンス指標に基づいて比較しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
データの分析

EfficientDet-d7は理論上最高の精度を達成しますが、膨大な計算リソースを必要とするためエッジAIには不向きです。DAMO-YOLOは優れたTensorRT速度を提供しますが、同等の精度を得るには通常、下位層のEfficientDetモデルよりも多くのパラメータを必要とします。

ユースケースと推奨事項

EfficientDetとDAMO-YOLOのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの優先順位によって決まります。

EfficientDetを選択すべき場合

EfficientDetは以下の場合に強力な選択肢となります:

  • Google CloudおよびTPUパイプライン: Google Cloud Vision APIやTPUインフラストラクチャと深く統合されたシステムで、EfficientDetがネイティブ最適化されている環境。
  • Compound Scalingの研究: ネットワークの深さ、幅、解像度のバランスの取れたスケーリングが与える影響を研究することに焦点を当てた学術的なベンチマーク。
  • TFLiteによるモバイルデプロイ: Androidまたは組み込みLinuxデバイス向けにTensorFlow Liteへのエクスポートを特に必要とするプロジェクト。

DAMO-YOLOを選択すべきとき

DAMO-YOLOは以下の場合に推奨されます。

  • 高スループットビデオ分析: バッチ1のスループットが主要な指標となる、固定されたNVIDIA GPUインフラストラクチャ上で高FPSビデオストリームを処理する場合。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上で厳しいGPUレイテンシ制約があるシナリオ。
  • ニューラルアーキテクチャ探索の研究: 検出性能に対する自動アーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンの影響を研究する場合。

Ultralytics (YOLO26) を選択すべき場合

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:

  • NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
  • 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。

Ultralyticsの利点:レガシーモデルを超えて

EfficientDetやDAMO-YOLOは貴重な学術的知見を提供しますが、現代のエンジニアには、最先端のパフォーマンスとエンジニアリングの快適さを両立させるフレームワークが必要です。そこで活躍するのがUltralyticsエコシステムです。

比類なき使いやすさとエコシステム

個別かつ高度にカスタマイズされた研究用リポジトリからモデルをデプロイすると、統合の悪夢を招くことがよくあります。Ultralyticsは、広範なドキュメントとPythonライクなAPIを備えた、統合的で適切に管理されたエコシステムを提供します。Google Colabでの学習から、モバイル推論のためのCoreMLへのエクスポートに至るまで、パイプラインはわずか数行のコードで完了します。

from ultralytics import YOLO

# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX for production
model.export(format="onnx")

YOLO26の革命

EfficientDetやDAMO-YOLOを評価している開発者にとって、Ultralytics YOLO26は究極の進化ステップです。2026年初頭にリリースされた本モデルは、パラダイムシフトをもたらす機能を導入しました。

  • エンドツーエンドのNMSフリー設計: YOLOv10によって初めて先駆的に導入されたYOLO26は、Non-Maximum Suppression (NMS) 後処理の必要性をネイティブに排除しました。これにより、デプロイアーキテクチャが劇的に簡素化され、多様なハードウェア間で一貫したレイテンシが実現します。
  • 最大43%高速なCPU推論: DAMO-YOLOが苦手とするような、強力なGPUを持たないエッジ環境でのデプロイにおいても、YOLO26は高度に最適化されており、標準的なCPU上で劇的な高速化を実現します。
  • MuSGDオプティマイザ: LLMの革新とコンピュータビジョンの架け橋として、YOLO26にはMuSGDオプティマイザ(Moonshot AIに着想を得たもの)が組み込まれています。これにより、EfficientDetの不安定な学習ループと比較して、非常に安定した学習と高速な収束が保証されます。
  • DFL削除: Distribution Focal Lossの削除によりエクスポートプロセスが簡素化され、低電力マイクロコントローラやRaspberry Piデバイスとの優れた互換性が保証されました。
  • ProgLoss + STAL: これらの高度な損失関数は、従来のアーキテクチャでは対応が困難だった小物体認識において劇的な改善をもたらします。

メモリ効率とタスクの汎用性

Transformerモデルや複雑に融合されたNASネットワークとは異なり、Ultralyticsモデルは厳格なメモリ効率を特徴としています。学習時のCUDAメモリ消費量が驚くほど低いため、一般消費者向けのハードウェア上でも迅速なイテレーションが可能です。

さらに、EfficientDetやDAMO-YOLOはバウンディングボックスに厳格に縛られていますが、Ultralyticsは同一の直感的なフレームワーク内でインスタンスセグメンテーション画像分類をネイティブサポートしています。古いプロジェクトを保守しているユーザー向けには、Ultralytics YOLOv8が非常に信頼性が高く、広くデプロイされている選択肢として検討に値します。

結論

適切なビジョンアーキテクチャを選択するには、理論上の生のパフォーマンスと、デプロイにおける現実を天秤にかける必要があります。EfficientDetは数学的に洗練されたスケーリングアプローチを提供し、DAMO-YOLOは魅力的なGPU速度を実現します。しかし、迅速な開発、信頼性の高いデプロイ、そして最先端機能を優先するチームにとっては、Ultralyticsモデルが明らかに一歩先を行っています。NMSフリーの推論やMuSGD最適化といった革新を組み合わせることで、YOLO26は、現在のコンピュータビジョンプロジェクトを、最も有能で保守性が高く、効率的な基盤の上に構築することを確実にします。

コメント