YOLOv5 vs. EfficientDet:詳細な技術比較
このページでは、影響力のある2つの物体検出モデル、Ultralytics YOLOv5とGoogleのEfficientDetの包括的な技術比較を提供します。どちらのモデルも高いパフォーマンスを目指して設計されていますが、その起源は異なる研究理念とアーキテクチャ設計にあります。アーキテクチャ、パフォーマンス指標、理想的なユースケースにおける主な違いを掘り下げ、コンピュータビジョンプロジェクトに最適なモデルを選択できるよう支援します。
Ultralytics YOLOv5:汎用性が高く、広く採用されているモデル
Author: Glenn Jocher
Organization: Ultralytics
Date: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Docs: https://docs.ultralytics.com/models/yolov5/
Ultralytics YOLOv5は、その卓越したスピード、精度、そして使いやすさにより、すぐに業界標準となったシングルステージの物体検出器です。PyTorchで完全に構築されており、そのアーキテクチャは、CSPDarknet53 バックボーン、効果的な特徴集約のためのPANetネック、および効率的なアンカーベースの検出ヘッドを備えています。YOLOv5は高度にスケーラブルであり、ナノ(n)から特大(x)までの範囲のモデルを提供し、開発者は特定の計算およびパフォーマンスのニーズに合わせて最適なトレードオフを選択できます。
長所
- 卓越した速度: YOLOv5は高速な推論のために高度に最適化されており、ビデオ監視など、低遅延が重要なリアルタイムアプリケーションに最適な選択肢となっています。
- 使いやすさ: 主な利点は、合理化されたユーザーエクスペリエンスです。シンプルなPython APIとCLI、豊富なドキュメント、および簡単なトレーニングワークフローにより、YOLOv5はカスタムオブジェクト検出への参入障壁を大幅に下げます。
- 充実したエコシステム: YOLOv5は、活発な開発、大規模で役立つコミュニティ、頻繁なアップデート、およびノーコードモデルのトレーニングと管理のためのUltralytics HUBのような強力なツールを含む、堅牢なUltralyticsエコシステムによってサポートされています。
- 学習効率: このモデルは効率的な学習のために設計されており、COCOのようなデータセット上のすぐに利用できる事前学習済みのウェイトと、より速い収束時間の恩恵を受けています。また、Transformerのようなより複雑なアーキテクチャと比較して、学習および推論中により低いメモリ要件があります。
- 多様性: YOLOv5は、物体検出だけでなく、インスタンスセグメンテーションや画像分類などのタスクもサポートしており、単一のフレームワーク内で柔軟なソリューションを提供します。
弱点
- 非常に高精度ですが、より大型のEfficientDetモデルは、特に非常に小さな物体を検出する場合、学術的なベンチマークでより高いmAPスコアを達成することがあります。
- 定義済みのアンカーボックスに依存しているため、最適なパフォーマンスを得るには、特殊な形状やサイズのオブジェクトを持つデータセットに合わせて調整が必要になる場合があります。
理想的なユースケース
- セキュリティシステムおよび交通監視のためのリアルタイムビデオ分析。
- NVIDIA JetsonやRaspberry Piのような、リソース制約のあるエッジデバイスへのデプロイメント。
- ロボティクスおよび自動運転車向けの低遅延認識。
- 高速なオンデバイス推論を必要とするモバイルアプリケーション。
EfficientDet:スケーラブルで効率的なアーキテクチャ
著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
組織: Google
日付: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
ドキュメント: https://github.com/google/automl/tree/master/efficientdet#readme
Google Brainチームによって開発されたEfficientDetは、スケーラブルで効率的な物体検出器のファミリーを導入しました。その中核となる革新には、バックボーンとして非常に効率的なEfficientNetの使用、高速なマルチスケール特徴融合のための新しい双方向特徴ピラミッドネットワーク(BiFPN)、および複合スケーリング手法が含まれます。この手法は、モデルの深度、幅、および解像度を均一にスケーリングし、さまざまな計算予算に最適化されたモデルの範囲(D0-D7)を作成できます。
長所
- High Accuracy and Efficiency: EfficientDetモデルは、リリース当時、他のモデルと比較して、より少ないパラメータとFLOPsで最先端の精度を達成することで知られています。
- スケーラビリティ: 複合スケーリングアプローチにより、モデルをスケールアップまたはスケールダウンするための明確な方法が提供され、モバイルからクラウドサーバーまで、さまざまなハードウェア制約に適応可能です。
- 効果的な特徴融合: BiFPNは、重み付けされた双方向接続を組み込むことで、より豊かな特徴融合を可能にし、その高い精度に貢献します。
弱点
- 推論速度が遅い: EfficientDetはパラメータ効率が良いにもかかわらず、特に実際のデプロイメントシナリオではYOLOv5よりも一般的に遅いです。そのため、リアルタイムパフォーマンスを必要とするアプリケーションにはあまり適していません。
- 複雑さ: アーキテクチャ、特にBiFPNは、YOLOv5のシンプルな設計よりも複雑です。これにより、開発者が理解、カスタマイズ、およびデバッグすることがより困難になる可能性があります。
- 統合されたエコシステムが少ない: Googleによってサポートされていますが、オープンソースリポジトリはUltralyticsのエコシステムほど活発にメンテナンスされておらず、ユーザーフレンドリーではありません。 MLOpsライフサイクルを簡素化する広範なドキュメント、チュートリアル、および統合ツールがありません。
理想的なユースケース
- 最大限の精度が最重要となる高解像度画像のオフライン分析。
- わずかな異常を検出するための医用画像解析。
- 推論をバッチ処理できる製造業における高精度品質管理。
- 精度が主要な指標となる学術研究およびベンチマーク。
性能とベンチマーク:直接対決
YOLOv5とEfficientDetのどちらを選択するかは、多くの場合、速度と精度のトレードオフになります。次の表と分析は、COCO val2017データセットでのパフォーマンスの明確な比較を提供します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
この表は、2つのモデルの異なる設計上の優先順位を明確に示しています。EfficientDetモデル、特にD7のような大型のバリアントは、53.7という最高のmAPスコアを達成しています。また、計算コストの面でも高い効率を示しており、EfficientDet-d0は最も低いFLOPsを持っています。しかし、リアルタイムアプリケーションへの展開となると、推論速度が最も重要になります。ここでは、Ultralytics YOLOv5が決定的な優位性を示しており、特にGPUハードウェアにおいて顕著です。YOLOv5nモデルは、TensorRTを使用したT4 GPU上で1.12 msという驚異的な推論時間を達成しており、最も軽量なEfficientDetモデルよりも3倍以上高速です。さらに、YOLOv5モデルは非常に軽量で、YOLOv5nはわずか2.6Mのパラメータしか持たないため、リソースに制約のあるエッジデバイスへの展開に最適です。この速度、精度、および小型モデルサイズというパフォーマンスのバランスにより、YOLOv5は幅広い本番環境にとって非常に実用的な選択肢となります。
結論: どのモデルを選ぶべきか?
EfficientDetとUltralytics YOLOv5はどちらも強力な物体検出モデルですが、異なる優先順位に対応しています。EfficientDetは、最大の精度が主な目標であり、推論レイテンシがあまり重要でない場合に優れています。そのスケーラブルなアーキテクチャは、学術的なベンチマークやオフライン処理タスクに適しています。
しかし、実際の多くのアプリケーションにおいては、Ultralytics YOLOv5が優れた選択肢として際立っています。その卓越した速度と精度のバランスは、リアルタイムシステムに最適です。YOLOv5の主な利点は、使いやすさ、包括的で適切にメンテナンスされたエコシステム、そして驚くべきトレーニング効率にあります。開発者は迅速に開始し、最小限の労力でカスタムモデルをトレーニングし、幅広いハードウェアにデプロイできます。活発なコミュニティとUltralytics HUBのようなツールは、比類のないサポートを提供し、非常に実用的で開発者にとって使いやすいフレームワークとなっています。
最新の進歩を活用したいと考えている方は、汎用性の高いYOLOv8や、YOLOv5 の強力な基盤の上に構築され、さらに優れた性能とより多くの機能を提供する最先端のYOLO11など、Ultralytics エコシステム内のより新しいモデルを検討する価値もあります。詳細な比較については、Ultralytics のモデル比較ページをご覧ください。