DAMO-YOLO vs. EfficientDet:技術比較
急速に進化するコンピュータビジョンにおいて、適切な物体検出アーキテクチャを選択することは、アプリケーションの成功に不可欠である。この包括的な分析では、Alibaba社の高性能モデルであるYOLO-YOLOと、Google社のスケーラブルで効率的なアーキテクチャであるEfficientDetを対比しています。両モデルとも、速度、精度、計算コストの間の永遠のトレードオフに対処し、この分野に重要な革新をもたらしました。
モデル概要
パフォーマンス・メトリクスに飛び込む前に、各モデルの背景にある血統とアーキテクチャ哲学を理解することが不可欠である。
DAMO-YOLO
アリババ・グループによって開発されたYOLO -YOLO(Distillation-Enhanced Neural Architecture Search-basedYOLO)は、精度を落とすことなく推論速度を最大化することに重点を置いている。バックボーンにNAS(Neural Architecture Search)、効率的なRepGFPN(Reparameterized Generalized Feature Pyramid Network)、ZeroHeadと呼ばれる軽量な検出ヘッドなどの技術を導入している。
DAMO-YOLO 詳細:
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織アリババグループ
- Date: 2022-11-23
- Arxiv:YOLO: リアルタイム物体検出設計の報告
- GitHubYOLO
EfficientDet
Google Brainチームによって開発されたEfficientDetは、複合スケーリング法を提案することで物体検出に革命をもたらした。このアプローチは、バックボーン、特徴ネットワーク、予測ネットワークの解像度、深さ、幅を均一にスケーリングする。BiFPN(Bi-directional Feature Pyramid Network)が特徴で、簡単かつ高速な特徴フュージョンが可能。
エフィシェントデットの詳細
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織Google
- Date: 2019-11-20
- Arxiv:EfficientDet:スケーラブルで効率的な物体検出
- GitHubgoogle
性能分析:速度、精度、効率
以下のグラフと表は、COCO データセットにおけるEfficientDetモデルとDAMO-YOLO モデルの定量的比較です。これらのベンチマークは、各アーキテクチャの明確な最適化目標を浮き彫りにしています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
主なポイント
データから、各モデルファミリーに明確な強みがあることがわかる:
- GPU レイテンシー: DAMO-YOLO GPU 推論速度で圧倒している。例えば
DAMO-YOLOmを達成する。 平均平均精度mAP T4GPU49.2、レイテンシはわずか5.09msだった。対照的だ、EfficientDet-d4mAP 49.7であるのに対し、33.55msと大幅に遅い。 - パラメータ効率: EfficientDetは、パラメータと 浮動小数点演算(FLOPs).
EfficientDet-d0DAMO-YOLOようなアーキテクチャに最適化されたモデルと比較すると、最新のGPUでは必ずしも高速な推論ができるわけではないが。 - CPU パフォーマンス:EfficientDetは信頼性の高いCPU ベンチマークを提供しており、GPU アクセラレーションが利用できないレガシーハードウェアにとって、依然として有効な選択肢であることを示唆している。
建築ノート
DAMO-YOLO 速度の優位性は、EfficientDetが理論上のFLOP数に対して最適化するのに対し、NAS(Neural Architecture Search:ニューラル・アーキテクチャ・サーチ)を使用してハードウェアのレイテンシに対して特別に最適化することに起因しており、これは必ずしも現実のレイテンシと線形に相関するわけではない。
アーキテクチャの詳細
エフィシェントデット複合スケーリングの威力
EfficientDetは、モバイル逆ボトルネック畳み込み(MBConv)を利用するEfficientNetをバックボーンとして構築されている。EfficientDetの特徴は、BiFPNと呼ばれる重み付き双方向特徴ピラミッドネットワークです。従来のFPNがトップダウンで特徴量の和をとるのに対し、BiFPNはトップダウンとボトムアップの両方向に情報を流し、各特徴層に学習可能な重みを持たせている。これにより、ネットワークは異なる入力特徴の重要性を理解することができる。
このモデルは、ネットワークの幅、深さ、解像度を一様に増加させる複合係数φを用いてスケーリングする。 d7)は、正確さと効率のバランスを保っている。
DAMO-YOLO:スピード重視のイノベーション
DAMO-YOLO 、リアルタイムのレイテンシーに注目することで、異なるアプローチをとっている。MAE-NAS(アーキテクチャ探索の自動化手法)を採用し、特定のレイテンシ制約の下で最適なバックボーン構造を見つける。
主なイノベーションは以下の通り:
- RepGFPN:標準的なGFPNを改良したもので、再パラメータ化によって特徴融合パスを最適化し、高速化を図っている。
- ZeroHead:通常、最終予測層に関連する計算負荷を軽減する簡素化された検出ヘッド。
- AlignedOTA:学習中の分類タスクと回帰タスクの間のずれを解決するラベル割り当て戦略。
ユースケースと応用
アーキテクチャー上の違いによって、それぞれのモデルが実際のシナリオでどこが優れているかが決まる。
- EfficientDetは、ストレージに制約のある環境や、FLOPsを最小化することが重要なCPU 推論に依存するアプリケーションに最適です。EfficientDetは、バッテリ寿命(FLOPsと相関)が最大の関心事であるモバイルアプリケーションや組み込みシステムでよく使用されます。
- DAMO-YOLO、GPU上でのリアルタイム推論が必要とされる産業オートメーション、自律走行、セキュリティ監視において優れている。レイテンシーが低いため、高フレームレートのビデオストリームでもフレームを落とすことなく処理できます。
Ultralytics 優位性
DAMO-YOLO EfficientDetは有能なモデルだが Ultralyticsエコシステムは、最新のAI開発により包括的なソリューションを提供します。最先端の YOLO11や汎用性の高い YOLOv8のようなモデルは、使いやすさ、パフォーマンス、機能セットにおいて大きな利点を提供する。
Ultralytics選ぶ理由
- パフォーマンスのバランス: Ultralytics モデルは、速度と精度の間で最高のトレードオフを提供するように設計されています。例えばYOLO11、CPUと GPUの両方で卓越した推論速度を維持しながら、前世代と比較して優れたmAP 提供します。
使いやすさ: Ultralytics 「バッテリー込み」の理念のもと、シンプルなPython APIと強力なコマンドラインインターフェース(CLI)を提供します。開発者はインストールからトレーニングまで数分で行うことができます。
from ultralytics import YOLO # Load a pre-trained YOLO11 model model = YOLO("yolo11n.pt") # Run inference on an image results = model("path/to/image.jpg")整備されたエコシステム: Ultralytics 、発表後に放棄される多くの研究モデルとは異なり、頻繁な更新、バグ修正、GitHubの課題やディスカッションを通じたコミュニティサポートなど、アクティブなリポジトリを維持しています。
- 汎用性: Ultralytics モデルはバウンディングボックスに限定されません。インスタンスのセグメンテーション、ポーズ推定、画像分類、そしてオリエンテッド・バウンディング・ボックス(OBB)、これらすべてを単一の統一されたフレームワークの中でネイティブにサポートします。
- メモリ効率: Ultralytics YOLO モデルは、学習時のメモリ効率が高くなるように設計されています。これは、トランスフォーマーベースのモデルや、多くの場合CUDA メモリを必要とする旧アーキテクチャとは対照的であり、Ultralytics モデルをコンシューマーグレードのハードウェアで利用できるようにしています。
- トレーニングの効率化:フレームワークは、自動混合精度(AMP)、マルチGPU トレーニング、キャッシングなどの機能をサポートしており、カスタムデータセットのトレーニングを高速かつコスト効率よく行うことができます。
結論
YOLO-YOLOと EfficientDetはともに、コンピュータビジョンの歴史における重要なマイルストーンである。EfficientDetは原理的なスケーリングと効率的な特徴融合の力を実証し、DAMO-YOLO 待ち時間を考慮したアーキテクチャ探索の限界を押し広げた。
しかし、高いパフォーマンスと卓越した開発者エクスペリエンスを併せ持つ、本番稼動可能なソリューションを求める開発者にとっては、Ultralyticsは非常に重要なソリューションです、 Ultralytics YOLO11をお勧めします。堅牢なエコシステムへの統合、複数のコンピューター・ビジョン・タスクのサポート、継続的な改良により、ビジュアル・データを実用的な洞察に変換するための最も実用的なツールとなっている。
その他のモデル比較
Ultralytics ドキュメントにある関連する比較をご覧ください: