PP-YOLOE+ vs. EfficientDet:オブジェクト検出に関する技術的比較
最適な物体検出モデルの選択は、コンピュータビジョンアプリケーションにとって重要です。このページでは、プロジェクトの要件に基づいて情報に基づいた意思決定を行うのに役立つように、2つの重要なモデルであるPP-YOLOE+とEfficientDetの詳細な技術比較を提供します。アーキテクチャ設計、パフォーマンスベンチマーク、およびアプリケーションの適合性について詳しく説明します。どちらのモデルも重要な貢献をしていますが、効率的な物体検出器の進化における異なる段階を表しています。
PP-YOLOE+: 効率と精度に最適化
PP-YOLOE+は、BaiduのPaddlePaddle Authorsによって開発され、2022年4月2日にリリースされた、PP-YOLOEシリーズの強化版です。特にPaddlePaddleのエコシステムにおいて、高い精度と効率的なデプロイメントを提供することに重点を置いています。アンカーフリーのシングルステージ検出器として、物体検出タスクにおいて優れた性能と速度のバランスを実現するように設計されています。
- 著者: PaddlePaddle Authors
- 組織: Baidu
- Date: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Docs: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
アーキテクチャと主な機能
PP-YOLOE+は、アンカーフリーのアプローチを採用しており、事前定義されたアンカーボックスの必要性をなくすことで、モデル構造とトレーニングプロセスを簡素化しています。そのアーキテクチャは、分類タスクとローカリゼーションタスクを分離する分離された検出ヘッドを備えており、全体的な精度を向上させています。このモデルは、正のサンプルと負のサンプル間の不均衡をより適切に処理するために、特殊な損失関数であるVariFocal Lossを利用し、分類とバウンディングボックスの精度をさらに向上させています。アーキテクチャには、精度と推論速度の両方を向上させるために、バックボーン、Path Aggregation Network(PAN)を備えたネック、およびヘッドの改善が含まれています。
長所と短所
- 長所: パラメータ数に対する精度が高く、アンカーフリー設計により実装が容易で、PaddlePaddleフレームワーク内で十分にサポートされています。TensorRTで最適化すると、モデルは優れたGPU推論速度を示します。
- 弱点:主にPaddlePaddleのエコシステム向けに最適化されているため、PyTorchのような他の一般的なフレームワークのユーザーにとっては柔軟性が制限される可能性があります。コミュニティサポートと利用可能なリソースは、Ultralytics YOLOシリーズのようなグローバルに採用されているモデルよりも少ない場合があります。
ユースケース
バランスの取れたパフォーマンスと最新のアンカーフリー設計により、PP-YOLOE+ はさまざまなアプリケーションに多用途に対応できます。産業品質検査、リサイクル自動化、スマートリテール業務の強化などのタスクに最適です。
EfficientDet:スケーラブルで効率的なアーキテクチャ
EfficientDetは、2019年11月にGoogle Brainチームによって導入されました。エッジデバイスから大規模なクラウドサーバーまで拡張できるモデルファミリーを導入することで、オブジェクト検出における効率の新標準を確立しました。その核となるイノベーションは、高度に効率的でスケーラブルなアーキテクチャの作成に焦点を当てています。
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織: Google
- Date: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- Docs: https://github.com/google/automl/tree/master/efficientdet
アーキテクチャと主な機能
EfficientDetのアーキテクチャは、3つの重要なアイデアに基づいて構築されています。
- EfficientNet Backbone: 特徴抽出のバックボーンとして、非常に効率的なEfficientNetを使用しています。これは、精度とFLOPsを最適化するためにニューラルアーキテクチャ探索を用いて設計されました。
- BiFPN (双方向特徴ピラミッドネットワーク): EfficientDetは、標準的なFPNの代わりに、より効率的なマルチスケール特徴融合手法であるBiFPNを導入しました。BiFPNは、重み付けされた接続により、異なる特徴レベル間で簡単かつ高速な情報伝達を可能にします。
- Compound Scaling: バックボーン、特徴ネットワーク、および検出ヘッドの深度、幅、および解像度を、単純なcompound係数を使用して均一にスケールする新しいスケーリング手法。これにより、モデルは小規模なD0バリアントから大規模なD7バリアントまで、原則に基づいた効果的な方法でスケールできます。
パフォーマンス分析
以下の表は、詳細なパフォーマンス比較を示しています。EfficientDetはリリース時に最先端でしたが、ベンチマークは、PP-YOLOE+のような新しいモデルが、特にGPUでの推論速度の点で、大幅に優れたパフォーマンスを提供することを示しています。たとえば、PP-YOLOE+lはEfficientDet-d5(51.5)よりも高いmAP(52.9)を達成していますが、TensorRTを搭載したT4 GPUでは8倍以上高速です。これは、モデルアーキテクチャと最適化技術の急速な進歩を浮き彫りにしています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
長所と短所
- 長所: BiFPNと複合スケーリングを備えた画期的なアーキテクチャは、その後の多くのモデルに影響を与えました。幅広い計算リソースに対応でき、高いスケーラビリティを発揮します。
- 弱点:最新のアーキテクチャと比較して、推論速度が遅いです。アンカーベースの設計は、アンカーフリーの代替手段よりも複雑です。元の実装はTensorFlowで行われており、PyTorchが主流の研究コミュニティにとってはハードルになる可能性があります。
ユースケース
EfficientDetは、モデルのスケーラビリティが重要であり、極めてリアルタイムな性能が最優先ではないアプリケーションにとって、依然として実行可能な選択肢です。画像のオフラインバッチ処理、クラウドベースのビジョンAPI、および小型のバリアント(D0-D2)が良好な精度とリソースのトレードオフを提供できる特定のエッジAIシナリオで使用できます。
結論: どのモデルを選ぶべきか?
PP-YOLOE+とEfficientDetはどちらも強力なモデルですが、異なるニーズに対応し、物体検出研究のタイムラインにおける異なる時点を表しています。
- PP-YOLOE+ は、PaddlePaddleエコシステム内で作業しており、最新の高速かつ正確なアンカーフリー検出器が必要な場合に最適な選択肢です。
- EfficientDet は、そのアーキテクチャの革新性により、画期的なモデルであり続けています。ただし、新しいプロジェクトの場合、そのパフォーマンスは新しいモデルに大きく追い越されています。
最高の性能、汎用性、使いやすさの組み合わせを求める開発者や研究者には、Ultralytics YOLOシリーズを検討することをお勧めします。YOLOv8や最新のYOLO11などのモデルは、いくつかの重要な利点を提供します。
- パフォーマンスのバランス:Ultralytics YOLOモデルは、速度と精度の間で最先端のトレードオフを提供し、リアルタイムエッジデプロイメントと高精度クラウドアプリケーションの両方に適しています。
- 多様性: オブジェクト検出だけでなく、インスタンスセグメンテーション、ポーズ推定、分類など、複数のタスクを単一の統合フレームワーク内でサポートするマルチタスクモデルです。
- 使いやすさ: モデルには、シンプルなPython APIとCLI、充実したドキュメント、および簡単なトレーニングプロセスが付属しています。
- 優れたエコシステム: Ultralyticsは、活発な開発、強力なコミュニティサポート、およびデータセット管理からデプロイメントまでの合理化されたMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合を備えた、堅牢なエコシステムを提供します。
- 学習効率: Ultralytics YOLOモデルは、効率的な学習で知られており、多くの代替手段と比較して必要なメモリと時間が少なく、カスタムプロジェクトを加速するための幅広い事前学習済みの重みが付属しています。
より詳細な比較については、YOLO11 vs. EfficientDetやPP-YOLOE+ vs. YOLOv10のように、これらのモデルが他の一般的なアーキテクチャとどのように比較されるかをご覧ください。