EfficientDet vs. YOLOv6-3.0:詳細な比較
最適な物体検出モデルの選択は、コンピュータビジョンアプリケーションのパフォーマンスと効率に直接影響する非常に重要な決定事項です。このページでは、Googleが開発したEfficientDetと、MeituanのYOLOv6-3.0という2つの影響力のあるモデルとの詳細な技術比較を提供します。どちらも強力な物体検出器ですが、異なる設計思想から生まれています。EfficientDetは、複合スケーリングを通じてスケーラブルな効率と精度を優先し、YOLOv6-3.0は、高速な産業用アプリケーション向けに設計されたシングルステージ検出器です。お客様が情報に基づいた選択を行えるよう、アーキテクチャ、パフォーマンス指標、および理想的なユースケースについて掘り下げて解説します。
EfficientDetの概要
EfficientDetは、Google Brainチームによって導入された、スケーラブルで効率的なオブジェクト検出モデルのファミリーです。モデルアーキテクチャを体系的にスケーリングすることにより、計算効率を維持しながら高い精度を達成することで有名です。
詳細:
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織: Google
- Date: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- ドキュメント: https://github.com/google/automl/tree/master/efficientdet#readme
アーキテクチャと主な機能
EfficientDetの設計は、精度と効率の両方を最適化することに重点を置いています。その核となるイノベーションには、以下が含まれます。
- EfficientNet Backbone: 非常に効率的なEfficientNetを特徴抽出のためのバックボーンとして使用します。EfficientNetモデルは、ネットワークの深さ、幅、解像度を均一にバランスさせる複合メソッドを使用してスケーリングされます。
- BiFPN (双方向特徴ピラミッドネットワーク): 特徴融合のために、EfficientDetは新しいネックアーキテクチャであるBiFPNを導入しました。従来のトップダウンFPNとは異なり、BiFPNは異なる入力特徴の重要度を学習する重み付けされた接続を組み込むことで、簡単かつ高速なマルチスケール特徴融合を可能にします。
- Compound Scaling: EfficientDetの重要な原則は、Compound Scaling(複合スケーリング)手法です。この戦略は、バックボーン、特徴ネットワーク(BiFPN)、および検出ヘッドの深さ、幅、解像度を同時に調整し、EfficientDet-D0からD7まで、さまざまなリソース制約に合わせてモデルを調整できます。
EfficientDetの長所
- 高精度: EfficientDetモデルは、その優れた精度で知られており、類似またはそれ以上のパラメータ数を持つ他のモデルよりも優れた性能を発揮することがよくあります。
- スケーラビリティ: このモデルファミリーは、幅広いサイズ(D0〜D7)を提供しており、さまざまな計算予算を持つ多様なハードウェアに柔軟に展開できます。
- その精度に対する効率性: 精度と計算コスト(FLOPs)のバランスが良く、非常に効率的なアーキテクチャとなっています。
EfficientDet の弱点
- 推論速度: 特に大型のバリアントでは、YOLOv6-3.0のようなシングルステージ検出器よりも一般的に遅いです。これは、リアルタイムアプリケーションにとって制約となる可能性があります。
- 複雑さ: アーキテクチャ、特にBiFPNは、よりシンプルなシングルステージ検出器よりも複雑であり、モデルの修正または理解がより困難になる可能性があります。
- タスク特化型: EfficientDetは主に物体検出用に設計されており、Ultralytics YOLOのような最新のフレームワークにあるセグメンテーションや姿勢推定のような他のタスクに対する組み込みの多様性がありません。
YOLOv6-3.0の概要
Meituanが開発したYOLOv6-3.0は、産業用アプリケーション向けに設計されたシングルステージの物体検出フレームワークであり、高いパフォーマンスと効率のバランスを重視しています。当社のサイトでドキュメント化されているYOLOファミリーの一部として、Ultralytics YOLOv8やYOLOv5などの他のモデルと比較されることがよくあります。
詳細:
- 著者: Chuyi Li、Lulu Li、Yifei Geng、Hongliang Jiang、Meng Cheng、Bo Zhang、Zaidan Ke、Xiaoming Xu、Xiangxiang Chu
- 組織: Meituan
- Date: 2023-01-13
- Arxiv: https://arxiv.org/abs/2301.05586
- GitHub: https://github.com/meituan/YOLOv6
- ドキュメント: https://docs.ultralytics.com/models/yolov6/
アーキテクチャと主な機能
YOLOv6-3.0は、精度を大幅に損なうことなく、推論速度の最適化に重点を置いています。主なアーキテクチャの側面は次のとおりです。
- 効率的なバックボーン: 推論速度を加速するために、効率的な再パラメータ化バックボーンを採用しています。
- ハイブリッドブロック: 特徴抽出レイヤーにおける精度と効率のバランスを取ります。
- 最適化されたトレーニング戦略: より高速な収束と強化されたパフォーマンスのために、改善されたトレーニング技術を利用します。
YOLOv6-3.0は、リソースに制約のあるエッジデバイスから高性能サーバーまで、さまざまなデプロイメントシナリオに対応するために、さまざまなモデルサイズ(n、s、m、l)を提供します。
YOLOv6-3.0の強み
- 高速な推論速度: 高速な推論に最適化されており、リアルタイムアプリケーションに非常に適しています。
- Good Accuracy: 特に大規模モデルにおいて、競合性のあるmAPを達成しています。
- 産業用フォーカス: 量子化を適切にサポートし、実用的な産業展開向けに設計されています。
YOLOv6-3.0の弱点
- 精度 vs. より新しいモデル: 強力ではありますが、Ultralytics YOLO11のようなより新しいモデルは、より優れた精度と速度のトレードオフを提供する傾向があります。
- 汎用性の制限: 主に物体検出に重点を置いており、Ultralyticsエコシステムで標準となっているインスタンスセグメンテーション、分類、姿勢推定などの他のビジョンタスクに対するネイティブサポートがありません。
- エコシステムとサポート: オープンソースですが、そのエコシステムは、Ultralyticsプラットフォームほど包括的または活発にメンテナンスされていません。Ultralyticsプラットフォームは、広範なドキュメント、チュートリアル、およびUltralytics HUBのようなツールとのシームレスな統合を提供します。
性能とベンチマーク
EfficientDetとYOLOv6-3.0を比較すると、主なトレードオフは精度と速度の間にあります。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
表が示すように、YOLOv6-3.0モデルはTensorRTを使用したGPUで大幅に高速な推論速度を示しており、厳格なレイテンシ要件を持つアプリケーションにとって明確な選択肢となっています。たとえば、YOLOv6-3.0lは52.8のmAPをわずか8.95 msの推論時間で達成していますが、同等のEfficientDet-d6は52.6のmAPに達するものの、89.29 msかかります。これはほぼ10倍遅いです。
一方、EfficientDetは非常に高いmAP(D7の場合53.7)を達成できますが、その推論レイテンシは大幅に高く、リアルタイムビデオ処理にはあまり適していません。ただし、最大の精度が目標であり、レイテンシが問題にならないオフライン処理タスクの場合、より大きなEfficientDetモデルは強力なオプションです。より小さなEfficientDetモデルも、特定の精度に対してパラメータとFLOPの点で優れた効率を示しています。
理想的なユースケース
EfficientDet
EfficientDetは、精度が最も重要であり、推論をオフラインで実行できるか、厳密なリアルタイム制約なしに強力なハードウェアで実行できるアプリケーションに最適です。
- 医療画像解析: 精度が重要な高解像度医療スキャンにおける腫瘍または異常の検出。
- 衛星画像: 環境モニタリングや情報収集のために、衛星写真内のオブジェクトや変化を識別します。
- 高精度品質管理: 製造業において、速度よりもすべての欠陥を検出することが重要な詳細な検査タスクに。
YOLOv6-3.0
YOLOv6-3.0は、高速かつ効率的なオブジェクト検出が要求されるシナリオに優れています。
- リアルタイム監視: セキュリティシステムまたは交通管理のためのビデオフィードの監視。
- 産業オートメーション: 生産ラインでの高速品質管理とプロセス監視。
- ロボティクスとエッジAI: NVIDIA Jetsonのような計算リソースが限られたデバイス上でのナビゲーションとインタラクションのための物体検出。
結論と推奨事項
EfficientDetとYOLOv6-3.0はどちらも非常に有能な物体検出モデルですが、異なるニーズに対応します。EfficientDetは優れた精度とスケーラビリティを提供し、精度が重要な非リアルタイムタスクに最適です。YOLOv6-3.0は印象的な速度を提供し、産業用およびリアルタイムアプリケーションに最適です。
ただし、高性能、汎用性、および卓越したユーザーエクスペリエンスを兼ね備えた最先端のソリューションを探している開発者および研究者には、最新の Ultralytics YOLO11 など、Ultralytics YOLO シリーズのモデルを検討することをお勧めします。
Ultralyticsモデルには、いくつかの重要な利点があります。
- 優れたパフォーマンスバランス: YOLO11は、速度と精度の最先端のトレードオフを実現し、多くの場合、両方の指標で他のモデルを上回ります。
- 比類なき汎用性: シングルタスクモデルとは異なり、YOLO11は、単一の統合フレームワーク内で、物体検出、インスタンスセグメンテーション、ポーズ推定、分類、および指向性バウンディングボックスをサポートします。
- 使いやすさ: シンプルなPython API、充実したドキュメント、多数のチュートリアルにより、Ultralyticsモデルの利用開始は簡単です。
- 適切に管理されたエコシステム: アクティブな開発、強力なコミュニティ、頻繁なアップデート、および合理化されたトレーニングとデプロイメントのためのUltralytics HUBのようなMLOpsツールとのシームレスな統合を活用できます。
- 学習効率: Ultralyticsモデルは効率的な学習のために設計されており、多くの場合、より少ないメモリと収束までの時間を必要とし、COCOデータセット上のすぐに利用できる事前学習済みのウェイトを備えています。
YOLOv6-3.0 は速度、EfficientDet は精度において強力な候補ですが、Ultralytics YOLO11 は最新のコンピュータビジョンプロジェクトの大部分に対して、より全体的で強力なソリューションを提供します。
その他のモデルを見る
さらに詳しく知りたい場合は、これらのモデルに関する他の比較にご興味があるかもしれません。
- YOLOv8 vs. EfficientDet
- YOLO11 vs. EfficientDet
- YOLOv5 vs. YOLOv6
- YOLOv7 vs. YOLOv6
- RT-DETR vs. EfficientDet