DAMO-YOLO vs. PP-YOLOE+:技術比較
適切な物体検出モデルの選択は、精度、推論速度、計算コストのバランスを取る上で重要な決定です。このページでは、Alibaba Groupが開発したDAMO-YOLOと、Baiduが開発したPP-YOLOE+との詳細な技術比較を提供します。アーキテクチャ、パフォーマンス指標、理想的なユースケースを分析し、開発者や研究者がコンピュータビジョンプロジェクトに最適な選択をするためにお役立てください。
どちらのモデルも大きな進歩を提供していますが、Ultralytics YOLOシリーズのような代替手段を検討することも重要です。Ultralytics YOLO11のようなモデルは、パフォーマンスと効率の非常に競争力のあるバランスを提供し、ユーザーフレンドリーで適切にメンテナンスされたエコシステムと組み合わさって、研究から本番環境までの開発を加速します。
DAMO-YOLO:Alibabaによる高速かつ高精度な手法
DAMO-YOLOは、Alibaba Groupによって、高速かつ高精度なオブジェクト検出手法として発表されました。これは、いくつかの新しい技術を活用して、速度と精度の優れたバランスを実現します。YOLOの理念に基づいて構築されていますが、パフォーマンスの限界を押し上げるために高度なコンポーネントが組み込まれています。
技術詳細:
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織: Alibaba Group
- Date: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Docs: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
アーキテクチャと主な機能
DAMO-YOLOのアーキテクチャは、Neural Architecture Search (NAS)やその他の最適化を通じて発見された、最先端の技術を統合している点が特徴です。
- NAS搭載バックボーン: DAMO-YOLOは、AlibabaのMAE-NASによって生成されたバックボーンを採用しており、オブジェクト検出に特化した、非常に効率的な特徴抽出器を実現します。
- Efficient RepGFPN Neck: 新しいネックであるGeneralized Feature Pyramid Network(GFPN)を導入し、再パラメータ化により、低遅延を維持しながら異なるスケール間の特徴融合を強化します。
- ZeroHead: このモデルは、分類タスクと回帰タスクを分離する、簡素化されたゼロパラメータヘッドを使用しており、計算量のオーバーヘッドを削減し、パフォーマンスを向上させています。
- AlignedOTA ラベル割り当て: 動的でアライメントに重点を置いたラベル割り当て戦略であるAlignedOTAは、トレーニング中に最適なアンカーが選択されるようにするために使用され、より正確な予測につながります。
- Distillation Enhancement: DAMO-YOLOは、ナレッジ蒸留を活用して、より大きく強力な教師モデルからより小さな生徒モデルに知識を伝達し、推論コストを増加させることなく精度を高めます。
長所と短所
長所:
- 優れた速度と精度のトレードオフ: DAMO-YOLOは、非常に高速な推論速度で高い精度を提供することに優れており、リアルタイムアプリケーションに最適です。
- 計算効率: このモデルは、パラメータと FLOP の点で軽量になるように設計されており、リソースに制約のあるデバイスへのデプロイメントに役立ちます。
- 革新的なアーキテクチャ: NAS、RepGFPN、およびZeroHeadの使用は、効率的なモデル設計における重要な進歩を表しています。
弱点:
- エコシステムとの統合: このモデルは主にMMDetectionに基づくフレームワーク内に実装されており、標準的なPyTorchワークフローに統合するには、追加の労力が必要になる場合があります。
- コミュニティサポート: 企業の研究室からの研究に焦点を当てたモデルであるため、より広く採用されているモデルと比較して、コミュニティが小さく、サードパーティのリソースが少ない可能性があります。
PP-YOLOE+: PaddlePaddleエコシステム内での高精度
Baiduが開発したPP-YOLOE+は、PP-YOLOEシリーズの改良版です。アンカーフリーのシングルステージ検出器であり、特にPaddlePaddle深層学習フレームワーク内での妥当な効率を維持しながら、高い精度を達成することを優先しています。
技術詳細:
- 著者: PaddlePaddle Authors
- 組織: Baidu
- Date: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Docs: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
アーキテクチャと主な機能
PP-YOLOE+は、パフォーマンスを向上させることを目的としたいくつかの重要な改善により、堅牢なアンカーフリーの基盤の上に構築されています。
- Anchor-Free Design: PP-YOLOE+は、定義済みのアンカーボックスを排除することで、検出パイプラインを簡素化し、調整が必要なハイパーパラメータの数を減らします。
- CSPRepResNetバックボーン: 強力でありながら効率的な特徴抽出器を作成するために、CSPNetとRepVGGの原則を組み合わせた強力なバックボーンを利用しています。
- 高度な損失とヘッド: このモデルは、Varifocal Lossと効率的なET-Head(Efficient Task-aligned Head)を組み込んで、分類タスクとローカリゼーションタスク間のアラインメントを改善し、検出精度を向上させます。
- PaddlePaddleの最適化: PP-YOLOE+はPaddlePaddleフレームワークに深く統合され、最適化されているため、そのエコシステム内のユーザーはシームレスなトレーニング、推論、デプロイメントが可能です。
長所と短所
長所:
- 高精度: PP-YOLOE+の大型バリアントは、COCOデータセットで最高水準の精度を達成しています。
- スケーラブルなモデル: さまざまなサイズ(t、s、m、l、x)で利用可能で、ユーザーは特定の計算予算に適合するモデルを選択できます。
- 強力なエコシステムサポート: PaddleDetectionツールキット内で十分に文書化され、サポートされています。
弱点:
- フレームワークの依存関係: PaddlePaddleフレームワークへの依存度が高いため、PyTorchで標準化された開発者やチームにとって大きな障壁となる可能性があります。
- 効率が低い: DAMO-YOLOと比較して、PP-YOLOE+モデルは、同程度の精度に対してより多くのパラメータとより高いFLOPsを持つことが多く、計算負荷が高くなります。
性能分析:DAMO-YOLO vs. PP-YOLOE+
DAMO-YOLOとPP-YOLOE+の性能は、それぞれの異なる設計思想を明確に示しています。DAMO-YOLOは、最大の効率を実現するように設計されており、より優れた速度と精度のトレードオフを提供します。対照的に、PP-YOLOE+は、特に大型モデルにおいて、より高い計算要件を犠牲にして、精度の限界を押し広げることに重点を置いています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
表から、以下を観察できます。
- 精度 (mAP): PP-YOLOE+xは54.7%という最高のmAPを達成し、すべてのDAMO-YOLOバリアントを上回っています。ただし、より小さいスケールでは、DAMO-YOLOモデルは非常に競争力があります。
- 速度: DAMO-YOLOモデルは、同様のサイズのPP-YOLOE+モデルと比較して、T4 GPU上で一貫して高速な推論速度を示します。
- 効率性(パラメータとFLOPs): DAMO-YOLOは一般的に効率的です。例えば、DAMO-YOLOmは28.2Mのパラメータで49.2%のmAPを達成しますが、わずかに高精度なPP-YOLOE+m(49.8%のmAP)は23.43Mのパラメータを必要とし、より低速です。最大のPP-YOLOE+xモデルは、パラメータとFLOPsの両方で大幅に大きくなります。
Ultralyticsの利点:YOLO11を選ぶ理由
DAMO-YOLOとPP-YOLOE+は強力なモデルですが、エコシステムの制約があります。汎用性、使いやすさ、高性能なソリューションを求める開発者にとって、Ultralytics YOLO11は優れた代替手段となります。
Ultralyticsモデルは、開発者のエクスペリエンスを最優先事項として設計されています。主な利点は次のとおりです。
- 使いやすさ: 合理化されたPython API、包括的なドキュメント、および簡単なCLIにより、トレーニング、検証、およびデプロイメントが非常に簡単になります。
- 充実したエコシステム: Ultralyticsは、活発な開発、GitHubでの強力なコミュニティサポート、エンドツーエンドのMLOpsのためのUltralytics HUBとの統合により、堅牢なエコシステムを提供します。
- 多様性: 特殊な検出器とは異なり、YOLO11は、物体検出、セグメンテーション、分類、ポーズ推定をすぐにサポートするマルチタスクモデルです。
- Training Efficiency: Ultralytics YOLO モデルは効率的なトレーニングのために最適化されており、多くの場合、必要なメモリと時間が少なくなります。また、あらゆるプロジェクトをすぐに開始できるように、豊富な事前学習済みウェイトが用意されています。
結論: どのモデルが最適か?
DAMO-YOLOとPP-YOLOE+のどちらを選択するかは、プロジェクト固有の優先順位と既存のテクノロジースタックに大きく依存します。
-
DAMO-YOLOを選択 するのは、リアルタイム推論、特にエッジデバイスで可能な限り最高の速度と精度のトレードオフを達成することが主な目標である場合です。 計算効率を重視し、MMDetectionベースのフレームワークでの作業に慣れている方にとって、優れた選択肢となります。
-
最高の精度が要求されるアプリケーションで、Baidu PaddlePaddleエコシステム内ですでに作業しているか、採用を計画している場合は、PP-YOLOE+を選択してください。その大型モデルは、精度が最も重要なハイステークスなアプリケーションに最適です。
-
ほとんどの開発者と研究者には、Ultralytics YOLO11をお勧めします。 高いパフォーマンス、複数のビジョンタスクにわたる汎用性、そして比類のない使いやすさを兼ね備えています。堅牢でメンテナンスが行き届いたエコシステムにより、フレームワーク固有のモデルに関連する摩擦が解消され、革新的なAIソリューションの構築と展開に、より迅速に集中できます。