PP-YOLOE+ vs YOLO11:オブジェクト検出に関する技術的比較
最適な物体検出モデルの選択は、精度、速度、およびデプロイメントの制約のバランスを取る上で非常に重要な決定事項です。このページでは、BaiduのPaddlePaddleエコシステムの強力なモデルであるPP-YOLOE+と、Ultralyticsの最新の最先端モデルであるUltralytics YOLO11との包括的な技術比較を提供します。どちらのモデルも優れたパフォーマンスを発揮しますが、YOLO11は、その優れた効率、汎用性、およびユーザーフレンドリーなエコシステムで際立っており、幅広い最新のコンピュータビジョンアプリケーションに推奨される選択肢となっています。
PP-YOLOE+: PaddlePaddleエコシステム内での高精度
PP-YOLOE+(Practical PaddlePaddle You Only Look One-level Efficient Plus)は、BaiduがPaddleDetectionスイートの一部として開発した物体検出モデルです。2022年にリリースされ、特にPaddlePaddle深層学習フレームワーク内で、妥当な効率を維持しながら高い精度を達成することに重点を置いています。
技術詳細:
- 著者: PaddlePaddle Authors
- 組織: Baidu
- Date: 2022-04-02
- ArXiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Docs: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
アーキテクチャと主な機能
PP-YOLOE+は、いくつかの重要な機能強化によりYOLOアーキテクチャを基盤とするアンカーフリーなシングルステージ検出器です。その設計は、速度と精度のトレードオフを改善することを目的としています。
- Anchor-Free Design: 定義済みのアンカーボックスを排除することで、モデルは検出パイプラインを簡素化し、ハイパーパラメータ調整の複雑さを軽減します。
- 効率的なコンポーネント: アーキテクチャは、効果的な特徴融合のために、CSPRepResNetのようなバックボーンとPath Aggregation Network (PAN) ネックをよく採用します。
- Task Alignment Learning (TAL): 特殊な損失関数とラベル割り当て戦略を使用して、分類タスクとローカリゼーションタスクをより適切に調整し、全体的な検出精度を向上させるのに役立ちます。
- PaddlePaddleの統合: このモデルはPaddlePaddleフレームワーク向けに深く統合され、最適化されているため、すでにそのエコシステム内で作業している開発者にとって自然な選択肢となります。
長所と短所
長所:
- 高精度: PP-YOLOE+モデル、特に大型バリアントは、COCOデータセットのような標準的なベンチマークで、競争力のあるmAPスコアを達成しています。
- 効率的なアンカーフリーヘッド: 検出ヘッドの設計は、効率を重視して合理化されています。
弱点:
- フレームワークの依存関係: PaddlePaddleに最適化されているため、PyTorchを使用する大多数の開発者にとって制約となる可能性があり、フレームワークの変換が必要となり、パフォーマンスの最適化が失われる可能性があります。
- 高いリソース使用率: パフォーマンスの表に示すように、PP-YOLOE+ モデルは一般に、同等の精度レベルの YOLO11 モデルと比較して、パラメータ数が多く、FLOPs が多いため、計算コストが高くなります。
- 汎用性の制限: PP-YOLOE+は主に物体検出に焦点を当てていますが、他の最新のフレームワークはより広範なビジョンタスクに対する統合サポートを提供しています。
Ultralytics YOLO11:最先端のパフォーマンスと汎用性
Ultralytics YOLO11は、UltralyticsのGlenn JocherとJing Qiuによって開発されたYOLOシリーズの最新の進化です。2024年にリリースされ、速度、精度、効率の優れたバランスを提供することにより、リアルタイムオブジェクト検出の新しい標準を打ち立てます。汎用性が高く、使いやすく、幅広いハードウェアに展開できるようにゼロから設計されています。
技術詳細:
- 著者: Glenn Jocher、Jing Qiu
- 組織: Ultralytics
- 日付: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- ドキュメント: https://docs.ultralytics.com/models/yolo11/
アーキテクチャと主な機能
YOLO11は、YOLOv8のような前モデルの成功した基盤の上に構築されており、特徴抽出と処理速度を向上させる洗練されたアーキテクチャを備えています。
- 最適化されたアーキテクチャ: YOLO11は、PP-YOLOE+のような競合製品よりも、パラメータ数とFLOPsを大幅に削減し、より高い精度を達成する合理化されたネットワーク設計を特徴としています。この効率性は、リアルタイム推論やリソース制約のあるエッジデバイスへの展開に不可欠です。
- 多様性: YOLO11の主な利点は、単一の統合フレームワーク内で複数のコンピュータビジョンタスクをネイティブにサポートしていることです。これには、オブジェクト検出、インスタンスセグメンテーション、画像分類、ポーズ推定、およびOriented Bounding Boxes(OBB)が含まれます。
- 使いやすさ: YOLO11は、ユーザーエクスペリエンスを優先する、適切にメンテナンスされたUltralyticsエコシステムの一部です。シンプルなPython APIとCLI、包括的なドキュメント、すぐに利用できる事前学習済みの重みを提供します。
- 学習効率: このモデルは、より高速な学習時間のために設計されており、より少ないメモリを必要とするため、最先端のAIを開発者や研究者がより利用しやすくします。これは、多くの場合学習に時間がかかり、より多くの計算リソースを必要とするTransformerのような他のモデルタイプとは対照的です。
- 活発なエコシステム: ユーザーは、活発な開発、GitHubやDiscordによる強力なコミュニティサポート、そしてエンドツーエンドのMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合の恩恵を受けられます。
長所と短所
長所:
- 優れたパフォーマンスバランス: すべてのモデルサイズで、速度と精度の優れたトレードオフを提供します。
- 計算効率: パラメータ数と FLOP が少ないため、推論が高速になり、ハードウェア要件が軽減されます。
- マルチタスク対応: 5つの主要なビジョンタスクを組み込みサポートし、他に類を見ない汎用性を実現。
- ユーザーフレンドリーなエコシステム: インストール、トレーニング、デプロイが簡単で、豊富なリソースと強力なコミュニティによってサポートされています。
- Deployment Flexibility: Raspberry Piからクラウドサーバーまで、幅広いハードウェア向けに最適化されています。
弱点:
- ワンステージ検出器として、一部の特殊なツーステージ検出器と比較して、極端に小さいオブジェクトに対して課題が生じる可能性があります。
- 最大のモデル(例えば、YOLO11x)は、リアルタイム性能のために依然としてかなりの計算能力を必要としますが、同等の競合モデルよりも少なくなっています。
性能分析:PP-YOLOE+ vs. YOLO11
COCOデータセットでの性能ベンチマークは、YOLO11の利点を明確に示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
- 精度 vs. 効率: ハイエンドでは、YOLO11xはPP-YOLOE+xの54.7 mAPに匹敵しますが、パラメータは58%(56.9M vs. 98.42M)しかなく、FLOPも少なくなっています。この傾向はスケールダウンしても続き、たとえば、YOLO11lはPP-YOLOE+lよりも精度が高く(53.4 vs. 52.9 mAP)、パラメータは半分以下です。
- 推論速度: YOLO11モデルは、GPUで一貫してより高速な推論速度を示しています。たとえば、YOLO11lはT4 GPUでPP-YOLOE+lよりも25%以上高速であり、YOLO11xはPP-YOLOE+xよりも20%以上高速です。この速度の利点は、自動運転車やロボティクスなど、リアルタイム処理を必要とするアプリケーションにとって非常に重要です。
- スケーラビリティ: YOLO11は、はるかに効率的なスケーリングカーブを提供します。開発者は、PP-YOLOE+の大型モデルに関連する大規模な計算オーバーヘッドなしに、高い精度を達成できるため、高度なAIをより利用しやすくすることができます。
結論と推奨事項
PP-YOLOE+は有能な物体検出器ですが、その強みは、すでにBaidu PaddlePaddleエコシステムにコミットしているユーザーにとって最も顕著です。
圧倒的多数の開発者、研究者、および企業にとって、Ultralytics YOLO11が明確で優れた選択肢です。最先端の精度と効率の組み合わせを提供し、計算コストを大幅に削減し、より幅広いハードウェアへのデプロイメントを可能にします。5つの異なるビジョンタスクにわたる比類のない汎用性と、使いやすく十分にサポートされたエコシステムと相まって、ユーザーはより複雑で強力なAIソリューションをより少ない労力で構築できます。
エッジまたはクラウド向けに開発しているかどうかにかかわらず、YOLO11は、コンピュータビジョンの可能性を押し広げるために必要なパフォーマンス、柔軟性、およびアクセシビリティを提供します。
検討すべきその他のモデル
他のアーキテクチャを検討されている場合は、Ultralyticsフレームワーク内でサポートされているYOLOv10、YOLOv9、RT-DETRのようなモデルとの比較にも興味があるかもしれません。