YOLOv9 vs. EfficientDet: 詳細な比較
最適な物体検出モデルの選択は、コンピュータビジョンタスクにおいて、精度、速度、および計算リソースのバランスを取る上で非常に重要です。このページでは、物体検出分野における2つの重要なモデルであるUltralytics YOLOv9とEfficientDetとの詳細な技術比較を提供します。お客様のプロジェクトで情報に基づいた意思決定を行えるよう、アーキテクチャ設計、パフォーマンスベンチマーク、および適切なアプリケーションについて掘り下げて解説します。
YOLOv9:最新鋭の精度と効率
2024年に台湾のAcademia Sinica情報科学研究所のChien-Yao WangとHong-Yuan Mark Liaoによって発表されたYOLOv9は、YOLOシリーズにおける重要な進歩を表しています。これは、彼らの論文「YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information」で詳しく説明されており、彼らのGitHubリポジトリに実装されています。YOLOv9は、Programmable Gradient Information (PGI) やGeneralized Efficient Layer Aggregation Network (GELAN) のような革新的なアーキテクチャ要素を通じて、深層ネットワークにおける情報損失の課題に対処します。これらのイノベーションにより、モデルは効果的に学習し、より少ないパラメータで高い精度を維持し、パフォーマンスと効率の強力なバランスを示します。
技術詳細:
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織: 台湾 Academia Sinica 情報科学研究所
- Date: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Docs: https://docs.ultralytics.com/models/yolov9/
長所
- 最先端の精度: YOLOv9は物体検出において優れた精度を達成し、多くの場合、類似のパラメータ数で競合製品を上回ります。
- 効率的なパラメータ利用: PGIおよびGELANアーキテクチャは、特徴抽出を強化し、情報損失を削減し、より少ないパラメータとFLOPでより優れたパフォーマンスを実現します。
- スケーラビリティ: YOLOv9ファミリーには、さまざまなモデルサイズ(YOLOv9tからYOLOv9e)が含まれており、さまざまな計算能力に柔軟に対応できます。
- Ultralyticsエコシステム: 元の研究はAcademia Sinicaからのものですが、Ultralyticsフレームワーク内での統合は多大なメリットをもたらします。これには、シンプルなPython APIによる使いやすさ、広範なドキュメント、およびすぐに利用できる事前トレーニング済みの重みによる効率的なトレーニングプロセスが含まれます。適切にメンテナンスされたエコシステムは、活発な開発、強力なコミュニティサポート、およびノーコードトレーニングのためのUltralytics HUBのようなツールとの統合を保証します。
- 低いメモリフットプリント: YOLOモデルは通常、他の多くのアーキテクチャ、特にRT-DETRのようなTransformerベースのモデルと比較して、トレーニング中のメモリ要件が低くなっています。
弱点
- 新規性: より新しいモデルであるため、実際のデプロイメントの例は、EfficientDetのような古い確立されたモデルよりも少ない可能性がありますが、Ultralyticsコミュニティ内での採用は急速に進んでいます。
- タスク特化性: 元のYOLOv9の論文は主に物体検出に焦点を当てています。しかし、Ultralyticsのエコシステムへの統合は、Ultralytics YOLOv8のようなモデルのマルチタスク機能と連携し、より広範な可能性を示唆しています。
ユースケース
YOLOv9は、特に精度と効率が最も重要なアプリケーションに最適です。例:
- コンピュータビジョンを使用して衛星画像を解析するような高解像度画像解析。
- 自動運転車に求められる複雑なシーン理解。
- 製造業における品質管理のようなタスクのための詳細な物体認識。
EfficientDet:スケーラブルで効率的な物体検出
EfficientDetは、Google Researchのチームによって2019年に発表されました。精度を犠牲にすることなく効率を優先する、スケーラブルなオブジェクト検出器の新しいファミリーが提案されました。このモデルのアーキテクチャは、高効率のEfficientNetバックボーン、特徴融合のための新しい双方向特徴ピラミッドネットワーク(BiFPN)、およびモデルのすべての部分の解像度、深度、および幅を均一にスケーリングする複合スケーリング法に基づいています。
技術詳細:
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織: Google
- Date: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
長所
- Compound Scaling: EfficientDetの重要なイノベーションは、体系的なスケーリングへのアプローチであり、さまざまなリソース制約に対応するモデルファミリー(D0-D7)を作成できます。
- BiFPN: 双方向特徴ピラミッドネットワークは、従来のFPNと比較して、より豊富なマルチスケール特徴融合を可能にし、検出精度を向上させます。
- 歴史的意義: EfficientDet は、リリース当時、オブジェクト検出における効率の新基準を打ち立て、その後の多くのアーキテクチャに影響を与えました。
弱点
- 旧世代のパフォーマンス: EfficientDetはその時代においては画期的でしたが、YOLOv9のような新しいモデルによって、精度と速度の両方で上回られています。パフォーマンスの表に示すように、YOLOv9モデルは、より少ないパラメータと大幅に高速な推論速度で、一貫してより高いmAPを達成しています。
- 推論が遅い: NVIDIA T4のような最新のハードウェアでは、最小のEfficientDetモデルでさえ、同等またはより正確なYOLOv9バリアントよりも遅くなります。
- 限定的なエコシステム: EfficientDetは主に研究リポジトリです。合理化されたトレーニング、デプロイメント、コミュニティサポートを含む、Ultralyticsが提供する包括的でユーザーフレンドリーなエコシステムが不足しています。
- タスク特化型: EfficientDetは物体検出専用に設計されており、Ultralyticsフレームワークにあるインスタンスセグメンテーションや姿勢推定のような他のタスクに対する組み込みの多様性を提供しません。
ユースケース
EfficientDetは、レガシーシステムや学術的な比較のベースラインとして依然として検討できます。その応用例は以下のとおりです。
- 高速推論が主な制約ではない汎用物体検出。
- 特徴ピラミッドネットワークとモデルのスケーリング原理を理解するための教育目的。
- オリジナルの実装が存在する TensorFlow フレームワークで標準化されているプロジェクト。
性能分析:YOLOv9 vs. EfficientDet
YOLOv9とEfficientDetの性能比較は、近年の物体検出における進歩を明確に示しています。YOLOv9は、精度、速度、モデルサイズのバランスにおいて、一貫して優位性を示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.30 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
表から、いくつかの重要な洞察が得られます。
- 精度 vs. 効率: YOLOv9cモデルは、わずか25.3Mのパラメータと、T4 GPU上で7.16 msという驚異的な高速推論時間で53.0 mAPを達成しています。対照的に、同様の精度を持つEfficientDet-d6(52.6 mAP)は、2倍以上のパラメータ(51.9M)を必要とし、89.29 msと12倍以上遅くなっています。
- 最高レベルの性能: 最大のモデルであるYOLOv9eは、印象的な55.6 mAPに達し、最大のEfficientDet-d7モデル(53.7 mAP)さえも上回り、7倍以上高速で、必要なFLOPも大幅に少なくなっています。
- 軽量モデル: 小型のエンドでは、YOLOv9s(46.8 mAP)はEfficientDet-d3(47.5 mAP)と同等の精度を提供しますが、パラメータはほぼ半分で、GPUでの速度は5倍以上です。
結論: どのモデルを選ぶべきか?
ほぼすべての最新の物体検出アプリケーションにおいて、YOLOv9が明確な勝者です。その高度なアーキテクチャは、卓越した推論速度とパラメータ効率を維持しながら、最先端の精度を実現します。Ultralyticsエコシステムへの統合は、その価値をさらに高め、堅牢なドキュメントと活発なコミュニティに支えられた、トレーニングからデプロイメントまでの合理化されたワークフローを提供します。
EfficientDetは、モデルのスケーリングと特徴融合における先駆的なコンセプトとして、歴史的および学術的な観点から重要なモデルであり続けています。ただし、実用的な開発とデプロイメントに関しては、そのパフォーマンスはYOLOv9のようなより新しく、より効率的なアーキテクチャによって凌駕されています。新しいプロジェクトを開始する場合、または既存のプロジェクトをアップグレードする場合は、YOLOv9を選択することで、優れたパフォーマンス、より高速な開発サイクル、および将来の進歩に対するより良いサポートが得られます。
その他のモデルを見る
他の最先端モデルを検討されている場合は、YOLOv10、YOLOv8、およびRT-DETRのようなトランスフォーマーベースのアーキテクチャとの比較をご検討ください。詳細な分析は、モデル比較ページでご覧いただけます。