EfficientDet vs. YOLOv9:技術的比較
最適な物体検出モデルの選択は、コンピュータビジョンタスクにおいて、精度、速度、および計算リソースのバランスを取る上で非常に重要です。このページでは、物体検出分野における2つの重要なモデルであるGoogleのEfficientDetとUltralytics YOLOv9との詳細な技術比較を提供します。お客様のプロジェクトで情報に基づいた意思決定を行えるよう、アーキテクチャ設計、パフォーマンスベンチマーク、および適切なアプリケーションについて解説します。
EfficientDet:スケーラブルで効率的なアーキテクチャ
EfficientDetは、Google Researchの研究者によって2019年に発表され、すぐに効率的なオブジェクト検出のベンチマークとなりました。体系的な複合スケーリング法を使用して、軽量のエッジ互換バージョンから高精度のクラウドベースのバージョンまでスケーリングできるモデルのファミリーが提案されました。
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織: Google
- Date: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- ドキュメント: https://github.com/google/automl/tree/master/efficientdet#readme
アーキテクチャと主な機能
EfficientDetのアーキテクチャは、3つの主要なコンポーネントに基づいて構築されています。
- EfficientNet Backbone: 特徴抽出のバックボーンとして、非常に効率的なEfficientNetを使用しています。これは、精度とFLOPsの両方を最適化するためにニューラルアーキテクチャ探索(NAS)を用いて設計されました。
- BiFPN (双方向特徴ピラミッドネットワーク): EfficientDetは、従来のFPNの代わりにBiFPNを使用します。BiFPNは、重み付けされた接続により、より豊富なマルチスケール特徴融合を可能にし、最小限の計算オーバーヘッドで精度を向上させます。
- Compound Scaling: バックボーン、特徴ネットワーク、および検出ヘッドの深さ、幅、解像度を均一にスケーリングする新しい手法。これにより、さまざまなリソース制約に対応するモデルファミリー(D0からD7)を作成できます。
長所
- スケーラビリティ: EfficientDetの主な強みは、そのモデルファミリーにあり、モバイルデバイスからデータセンターまで、さまざまな展開ターゲットに対応する幅広いオプションを提供します。
- 先駆的な効率性: リリース当時、競合モデルよりも少ないパラメーターとFLOPで高い精度を達成し、効率性の新しい標準を打ち立てました。
弱点
- 年数とパフォーマンス: 基本的なアーキテクチャですが、2019年のものです。YOLOv9のような新しいモデルは、特にGPUのような最新のハードウェアでは、速度と精度の両方でそれを上回っています。
- 推論速度: EfficientDetの大型モデルは、特にYOLOモデルの高度に最適化された推論速度と比較すると、処理が遅くなることがあります。
- タスクの特異性: EfficientDetは物体検出専用に設計されており、インスタンスセグメンテーションや姿勢推定のような他のタスクに対する組み込みの汎用性がありません。これらのタスクは、最新のフレームワークに見られます。
- エコシステム: 公式リポジトリは、ユーザーエクスペリエンスにあまり重点を置いておらず、包括的なUltralyticsエコシステムほど活発にメンテナンスまたはサポートされていません。
ユースケース
EfficientDetは、以下の用途において、依然として実行可能な選択肢です。
- そのスケーリングされたバリアント(D0-D7)のいずれかによって提供される特定のトレードオフポイントが完全に適合するアプリケーション。
- より小型のモデルで競争力のあるパフォーマンスを示す CPU でのデプロイメントを必要とするプロジェクト。
- モデルがすでに統合されており、適切に機能しているレガシーシステム。
YOLOv9:最新鋭の精度と効率
Ultralytics YOLOv9は、Chien-Yao WangとHong-Yuan Mark Liaoによって2024年に発表され、リアルタイム物体検出における重要な進歩を代表するものです。革新的なアーキテクチャ要素を通じて、深層ネットワークにおける情報損失の課題に対処し、新たな最先端のベンチマークを確立しています。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- Date: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Docs: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主な機能
YOLOv9の優れたパフォーマンスは、2つの主要なイノベーションに由来します。
- Programmable Gradient Information (PGI): この概念は、深層ニューラルネットワークにおける情報ボトルネックの問題に対処するように設計されています。PGIは、モデルが完全な情報を学習できるように、信頼性の高い勾配を生成し、より正確な特徴表現につながります。
- Generalized Efficient Layer Aggregation Network (GELAN): YOLOv9 は、CSPNet と ELAN の原則に基づいて構築された、新しい高効率アーキテクチャである GELAN を導入します。パラメータ利用率と計算効率を最適化し、モデルがより少ないリソースでより高い精度を達成できるようにします。
長所
- 最先端の精度: YOLOv9は物体検出において優れた精度を達成し、論文「YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information」で詳述されているように、類似またはより少ないパラメータ数でEfficientDetのような競合製品を上回ります。
- 卓越したパフォーマンスバランス: 精度、推論速度、モデルサイズの間の優れたトレードオフを提供し、エッジAIから高性能クラウドサーバーまで、幅広いアプリケーションに適しています。
- 使いやすさ: Ultralyticsフレームワーク内で使用すると、YOLOv9は、効率化されたユーザーエクスペリエンス、シンプルなPython API、および豊富なドキュメントの恩恵を受けます。
- 優れたメンテナンス体制: Ultralyticsエコシステムは、活発な開発、大規模で支援的なコミュニティ、頻繁なアップデート、そしてノーコードトレーニングとMLOpsのためのUltralytics HUBのようなツールとの統合を提供します。
- Training Efficiency: YOLO モデルは通常、他のアーキテクチャと比較して、トレーニング中のメモリ要件が低くなっています。このフレームワークは、効率的なトレーニングプロセスとすぐに利用できる事前学習済みウェイトを提供します。
- 多様性: 元の論文は検出に焦点を当てていますが、基盤となるGELANアーキテクチャは汎用性があります。元のリポジトリは、インスタンスセグメンテーションやパノプティックセグメンテーションなどのタスクのサポートを示唆しており、YOLOv8のような他のUltralyticsモデルのマルチタスク機能と一致しています。
弱点
- 新規性: より新しいモデルであるため、実際のデプロイメントの例は、EfficientDetのような古い確立されたモデルよりも少ない可能性がありますが、Ultralyticsコミュニティ内での採用は急速に進んでいます。
- 学習リソース: パフォーマンスレベルに対して計算効率が高い一方で、最大のYOLOv9バリアント(YOLOv9-Eなど)の学習には、依然としてかなりの計算リソースが必要になる場合があります。
ユースケース
YOLOv9は、特に精度と効率が最も重要なアプリケーションに最適です。例:
- 衛星画像のような高解像度画像解析。
- 自動運転車やロボティクスに求められる複雑なシーン理解。
- 製造業における品質管理のようなタスクのための詳細な物体認識。
性能分析:YOLOv9 vs. EfficientDet
以下の表は、COCOデータセットでベンチマークされた、EfficientDetとYOLOv9のさまざまなモデルサイズの性能指標の直接的な比較を示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
データから、いくつかの重要な洞察が得られます。
- 精度と効率: YOLOv9は一貫して優れたトレードオフを提供します。たとえば、YOLOv9-Cは、EfficientDet-D6(52.6)よりも高いmAP(53.0)を、ほぼ半分のパラメータ数とFLOPsで達成します。
- 推論速度: TensorRT最適化を備えた最新のGPUでは、YOLOv9モデルは大幅に高速です。YOLOv9-Eは、EfficientDet-D7よりも7倍以上高速であり、精度も向上しています。最小のYOLOv9tモデルでさえ、最小のEfficientDet-d0よりもはるかに高速です。
- リソース使用量: YOLOv9モデルは、パラメータ効率が向上しています。YOLOv9-S(7.1Mパラメータ)は、EfficientDet-D3(12.0Mパラメータ)の精度を上回ります。この効率は、リソースが限られたデバイスへのデプロイメントに不可欠です。
結論と推奨事項
EfficientDetは効率の限界を押し広げた画期的なモデルでしたが、コンピュータビジョンの分野は急速に進歩しました。今日から始める新しいプロジェクトにとって、YOLOv9が明らかに最適な選択肢です。最先端の精度、最新のハードウェアでの優れた推論速度、およびより優れた計算効率を提供します。
UltralyticsエコシステムへのYOLOv9の統合は、その利点をさらに強固にし、トレーニングからデプロイメントまでのワークフロー全体を加速する、ユーザーフレンドリーで、十分にサポートされた、汎用性の高いフレームワークを開発者に提供します。EfficientDetは依然として歴史的に重要なモデルであり、レガシーシステムの維持に適している可能性がありますが、新しい高性能アプリケーションの場合、YOLOv9は決定的な優位性を提供します。
その他のモデルを見る
他の最先端モデルを検討されている場合は、必ず他の比較ページもご確認ください。