PP-YOLOE+ vs. EfficientDet:オブジェクト検出に関する技術的比較
適切な物体検出モデルを選択することは、コンピュータビジョンアプリケーションの性能、スケーラビリティ、効率に影響を与える重要な決定である。この技術比較では、2つの著名なアーキテクチャを分析する:PP-YOLOE+はBaiduのPaddlePaddle エコシステムによる高性能なアンカーフリー検出器であり、EfficientDetは複合スケーリング方式で知られるGoogleスケーラブルなアーキテクチャである。
PP-YOLOE+:スピードと精度の最適化
PP-YOLOE+は、YOLO シリーズを大きく進化させ、精度と推論速度の最適なバランスを実現するために開発されました。アンカーフリーパラダイムに基づき、タスクアライメント学習(TAL)のような高度な技術を活用しながら、検出パイプラインを簡素化します。
- 著者: PaddlePaddle Authors
- 組織百度
- Date: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- ドキュメントhttps://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
主な建築上の特徴
PP-YOLOE+は、CSPRepResNetバックボーンを統合しており、CSPNetの効率性とResNetの再パラメータ化機能を兼ね備えています。これにより、過剰な計算コストをかけることなく、豊富な特徴表現を取り込むことができる。ネックは、効果的なマルチスケール特徴フュージョンのためにPAN(Path Aggregation Network)を利用し、小さな物体がより高い信頼性で検出されることを保証する。
際立った特徴は、効率的なタスクアライメントヘッド(ET-Head)です。従来の結合ヘッドとは異なり、ETヘッドは分類とローカリゼーションのタスクを切り離し、TALを使用して最適なアンカーをグラウンドトゥルースオブジェクトと動的に整列させます。このアプローチにより、収束速度と最終的な精度が大幅に向上します。
EfficientDet:スケーラブルな効率性
EfficientDetは、精度と効率を同時に最適化することに焦点を当てた、モデルのスケーリングに対する新しいアプローチを導入した。EfficientNetのバックボーン上に構築され、重み付けされた双方向特徴ピラミッドネットワーク(BiFPN)を導入しています。
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織Google
- Date: 2019-11-20
- Arxiv:https://arxiv.org/abs/1911.09070
- GitHub:https://github.com/google/automl/tree/master/efficientdet
- ドキュメントhttps://github.com/google/automl/tree/master/efficientdet#readme
主な建築上の特徴
EfficientDetの核となる革新的な技術はBiFPNであり、これによって簡単かつ高速なマルチスケール特徴フュージョンが可能になった。特徴を均等に合計する以前のFPNとは異なり、BiFPNは各入力特徴に重みを割り当て、ネットワークが異なる入力特徴の重要性を学習することを可能にします。さらに、EfficientDetは、すべてのバックボーン、特徴ネットワーク、およびボックス/クラス予測ネットワークの解像度、深さ、および幅を均一にスケーリングする複合スケーリング手法を採用しており、さまざまなリソース制約に合わせたモデルファミリー(D0~D7)を提供します。
性能分析:速度 vs. 精度
これらのモデルを評価する際、推論速度と平均平均精度mAPトレードオフが明らかになります。EfficientDetはリリース時に高い基準を設定しましたが、PP-YOLOE+のような新しいアーキテクチャは、ハードウェアを考慮した設計を活用することで、最新のGPU上で優れたパフォーマンスを達成しています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
このデータは、GPU 推論のレイテンシにおいて、PP-YOLOE+がEfficientDetを大幅に上回ることを強調しています。例えば、PP-YOLOE+lは、EfficientDet-d6(52.6)よりも高いmAP (52.9)を達成する一方で、T4GPU 上で10倍以上高速です(8.36 ms対89.29 ms)。EfficientDetは、非常に低消費電力のモバイルCPUなど、FLOPが主な制約となるシナリオでは妥当性を維持していますが、高スループットのサーバー環境では苦戦を強いられています。
ハードウェアの最適化
PP-YOLOE+のアーキテクチャの選択は、特に次のようなGPU ハードウェアアクセラレータに友好的に設計されています。 TensorRT.EfficientDetのBiFPNでは、複雑な接続がGPUのメモリアクセスのボトルネックになることがありますが、演算は並列性を最大化するように構造化されています。
長所と短所
各モデルの長所と短所を理解することは、特定のコンピュータビジョンタスクに適したツールを選択するのに役立ちます。
PP-YOLOE+
- 長所:
- 高精度-高速比:GPU上でリアルタイム推論機能を備えた最先端のmAP 実現。
- アンカーフリー:複雑なアンカーボックスのチューニングが不要になり、トレーニングのセットアップが簡素化されます。
- 動的ラベル割り当て:分類とローカライゼーションの整合性を高めるためにTALを使用する。
- 弱点:
- エコシステム特異性: PaddlePaddle フレームワーク用に最適化されているため、PyTorch慣れたユーザーには学習曲線があるかもしれない。
- リソース強度:大きなバリアント(LとX)はかなりのメモリを必要とするため、RAM制限の厳しいエッジデバイスでの展開が制限される可能性があります。
EfficientDet
- 長所:
- パラメータ効率:旧式の検出器と比較して、比較的少ないパラメータで高精度を達成。
- スケーラビリティ:複合スケーリング方式により、利用可能な計算量に応じてモデルサイズ(d0~d7)を簡単に切り替えることができます。
- BiFPN:様々なスケールのオブジェクトを効率的に扱う革新的な特徴フュージョン。
- 弱点:
- 遅い推論:FLOP数が少ないにもかかわらず、複雑なグラフ構造は、特にGPU上で、実世界での推論時間の遅さにつながることが多い。
- トレーニング速度:アーキテクチャーが複雑なため、最新の1段検出器と比較すると訓練に時間がかかることがある。
実際のユースケース
これらのモデルは、その建築的な強みに基づいて、さまざまな環境で優れている。
製造および産業オートメーション:PP-YOLOE+は、製造業の品質管理に最適です。推論速度が速いので、ミリ秒単位で動く組立ラインでもリアルタイムで欠陥を検出できます。
スマートな小売と在庫管理:PP-YOLOE+の精度は、自動レジや棚監視などの小売分析において、乱雑な現場でも商品を正しく識別できることを保証します。
リモートセンシングと航空画像:EfficientDetは、高解像度(D7など)へのスケールアップが可能なため、処理速度が大きな画像内の小さな特徴を検出することよりも重要でない、高解像度の衛星画像やドローン画像の分析に役立ちます。
低消費電力エッジ・デバイス:小型のEfficientDetバリアント(D0-D1)は、総FLOP数が厳しい制限であり、GPU アクセラレーションが利用できないレガシー・エッジAIハードウェアに好まれることがあります。
Ultralyticsの利点:YOLO11を選ぶ理由
PP-YOLOE+とEfficientDetが堅牢なソリューションを提供する一方で Ultralytics YOLO11モデルは、ほとんどの開発者や研究者に優れた体験を提供します。これは、最新のアーキテクチャーの革新とユーザー中心のエコシステムの長所を組み合わせたものです。
YOLO11 際立つ理由
- 使いやすさ: Ultralytics モデルは、「すぐに使える」使いやすさで有名です。シンプルなPython APIと直感的なCLI、他のフレームワークがしばしば要求する複雑な設定ファイルとは対照的に、数分でモデルをトレーニング、検証、デプロイすることができます。
- 整備されたエコシステム: Ultralytics コミュニティは活発で成長しています。定期的なアップデートにより、PyTorch、ONNX、CUDA最新バージョンとの互換性が確保され、長期的なプロジェクトに安定した基盤を提供します。
- パフォーマンス・バランス: YOLO11 、PP-YOLOE+を上回るスピードと、精度に匹敵する、あるいはそれを上回るパフォーマンスを両立させています。ハードウェアにとらわれないように設計されており、CPU、GPU、NPU上で非常に優れたパフォーマンスを発揮します。
- メモリ効率:トランスフォーマーベースのモデルや古いアーキテクチャと比較して、Ultralytics YOLO モデルは、トレーニング中のメモリ消費量が少なくなるように最適化されています。これにより、標準的なハードウェア上で、より大きなバッチサイズとより速い収束が可能になります。
- 汎用性:主に物体検出を行うEfficientDetとは異なり、YOLO11 、インスタンス分割、姿勢推定、指向性物体検出(OBB)、分類など、幅広いタスクを単一の統一されたフレームワークでサポートしている。
- トレーニングの効率化:高度な拡張機能と最適化されたデータローダーにより、YOLO11 モデルのトレーニングは高速かつ効率的です。豊富な事前学習済みウェイトを利用できるため、最小限のデータで強力な転移学習結果を得ることができます。
例Python YOLO11 実行する
訓練済みのYOLO11 モデルをロードして推論を実行するのに必要なコードはわずか数行であり、Ultralytics ワークフローがシンプルであることを示している。
from ultralytics import YOLO
# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
結論
PP-YOLOE+とEfficientDetはともに、コンピュータ・ビジョンの分野に大きく貢献している。PP-YOLOE+は、高いGPU スループットを必要とするBaiduエコシステムに深く組み込まれたユーザーにとって強力な候補です。EfficientDetは、パラメータ効率とスケーラブルな設計の典型的な例であり続けています。
しかし、汎用性が高く、高性能で、開発者に優しいソリューションをお探しの方には、Ultralyticsがおすすめです、 Ultralytics YOLO11をお勧めします。最先端の精度、リアルタイムのスピード、そしてエコシステムのサポートが組み合わさって、次世代のAIアプリケーションを構築するための理想的なプラットフォームとなっている。
YOLO11 EfficientDet、またはPP-YOLOE+とYOLOv10比較し、これらのモデルが他の最先端アーキテクチャに対してどのような位置づけにあるかを確認することを検討する。