YOLO11対PP-YOLOE+: リアルタイム検出器の技術比較
コンピュータービジョンアプリケーションを本番環境に展開する場合、最適なニューラルネットワークアーキテクチャを選択することが重要です。本技術比較では、リアルタイム物体検出分野における2つの主要なモデル、Ultralytics YOLO11とBaiduのPP-YOLOE+を検証します。両アーキテクチャとも強力なパフォーマンスを提供しますが、精度、推論速度、開発者エコシステムの課題に対するアプローチは大きく異なります。
以下は、ハードウェアの制約に対して最適なモデルを見つけるための、各モデルのパフォーマンス限界を示すインタラクティブなチャートです。
モデルの起源と技術的系譜
これらのモデルの起源と設計哲学を理解することは、それぞれの強みと最適なユースケースを判断する上で有益な背景情報となります。
YOLO11の詳細
Ultralyticsによって開発されたYOLO11は、YOLOシリーズを高度に洗練させた反復モデルであり、高速な推論、極めて高いパラメータ効率、そして比類のない使いやすさのバランスを優先しています。YOLO11は、その統合されたマルチタスク機能と、開発者に優しいPython APIで広く認識されています。
- 著者: Glenn Jocher および Jing Qiu
- 組織: Ultralytics
- 日付: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- ドキュメント: YOLO11 Documentation
PP-YOLOE+の詳細
PP-YOLOE+は、PaddlePaddleフレームワークに基づいて構築されたPP-YOLOv2の進化版です。CSPRepResNetバックボーンやTask Alignment Learning (TAL) などのアーキテクチャの変更を導入し、特にハイエンドGPUにおける精度の限界を押し上げています。
- 著者: PaddlePaddleの著者
- 組織: Baidu
- 日付: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- ドキュメント: PP-YOLOE+ 設定ドキュメント
アーキテクチャの違い
YOLO11とPP-YOLOE+の基本的なアーキテクチャ設計は、コンピュータービジョン分野における両者の異なる優先順位を反映しています。
YOLO11は、高度に最適化されたバックボーンとアンカーフリーの検出ヘッドを基盤としています。C3k2ブロックとSpatial Pyramid Pooling - Fast (SPPF) を活用して、最小限の計算オーバーヘッドでマルチスケールの特徴を抽出します。この設計は、エッジNPUやモバイルCPUのようなリソースが制限されたデバイスにおける推論レイテンシを削減する上で非常に有利です。さらに、YOLO11はマルチタスク学習用にネイティブ設計されており、インスタンスセグメンテーション、姿勢推定、指向性バウンディングボックス (OBB) 検出を標準でサポートしています。
**PP-YOLOE+**は、CSPRepResNetバックボーンとEfficient Task-aligned head (ET-head) を導入しています。トレーニング中に表現能力を高めるためにrep-parameterization技術を多用し、推論時にはそれらのパラメータを標準的な畳み込みに統合します。これにより優れた平均適合率 (mAP)が得られますが、結果として得られるモデルはパラメータ数やメモリ使用量の点で重くなる傾向があり、軽量なエッジデバイスよりも堅牢なサーバーGPUへのデプロイに適しています。
標準的なバウンディングボックスを超える機能がプロジェクトに必要な場合、Ultralytics YOLO11はセグメンテーション、姿勢推定、分類をまったく同じAPI内でネイティブにサポートしており、複数の異なるリポジトリを統合する場合と比較して開発オーバーヘッドを大幅に削減できます。
パフォーマンスとベンチマーク
パフォーマンスを評価する際には、精度 (mAP)、さまざまなハードウェア間での推論速度、そしてモデル効率 (パラメータ数とFLOPs) に注目します。下の表は比較指標を強調したものであり、最も効率的または最高パフォーマンスの値は太字で示されています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
分析
YOLO11は、パフォーマンスバランスとパラメータ効率において明確な優位性を示しています。例えば、YOLO11mはPP-YOLOE+m (49.8) よりも高いmAP (51.5) を達成しながら、より少ないパラメータ数 (20.1M対23.43M) で、TensorRT上での推論速度も大幅に高速 (4.7ms対5.56ms) です。YOLO11モデルの軽量性は、モデルトレーニングおよびデプロイ時のメモリ要件の低減にそのまま直結します。
トレーニングエコシステムと使いやすさ
モデルの真の価値は、開発者がカスタムのコンピュータービジョンデータセットでトレーニングし、それをいかに簡単に本番環境に展開できるかという点にあります。
Ultralyticsの利点
Ultralyticsは、合理化された開発者体験を優先しています。YOLO11のトレーニングは、複雑なボイラープレートコードを抽象化したシンプルなPython APIまたはCLIを通じて管理されます。Ultralytics Platformは、ノーコードトレーニング、自動化されたデータセット管理、ONNX、CoreML、TensorRTなどのフォーマットへのワンクリックエクスポートを提供することで、これをさらに強化しています。
さらに、YOLOモデルはトレーニング中のメモリ効率が非常に高く、Transformerベースのアーキテクチャや重いrep-parameterizedモデルに典型的な大規模なVRAMオーバーヘッドを回避できるため、消費者向けのハードウェアでのトレーニングが可能です。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()PP-YOLOE+のエコシステム
PP-YOLOE+はPaddleDetectionエコシステム内で動作します。このフレームワークは強力でBaiduの産業ソリューションと深く統合されていますが、開発者は特定のPaddlePaddleディープラーニングフレームワークを採用する必要があります。これは、すでにPyTorchで標準化されているチームにとって学習コストを高める可能性があります。さらに、PP-YOLOE+モデルをエッジデバイス用の標準的な汎用フォーマットにエクスポートする場合、Ultralyticsワークフローにあるネイティブエクスポートパイプラインと比較して、追加の変換ステップが必要になることがあります。
理想的な使用ケース
これらのモデルのどちらを選択するかは、特定のデプロイ環境に依存します。
- アジャイル開発、エッジコンピューティング、モバイルアプリケーションにはYOLO11を選択してください。高速な推論速度、低いメモリフットプリント、広範なエクスポート機能により、標準CPU上でのリアルタイムの小売在庫管理、ドローンベースの航空画像解析、複雑なマルチタスクパイプラインといったタスクに最適です。
- 本番パイプライン全体がすでにPaddlePaddleエコシステムに多額の投資を行っている場合、あるいはメモリの制約やハードウェアの互換性 (Paddleの最適化済みハードウェア以外) が主な懸念事項ではないハイエンドの専用推論サーバーにデプロイする場合は、PP-YOLOE+を選択してください。
次世代: YOLO26の紹介
YOLO11は依然として非常に強力ですが、AIの分野は急速に進化しています。物体検出における真の最先端技術として、Ultralyticsは新しい**YOLO26**を導入しました。2026年1月にリリースされたYOLO26は、前モデルの成功を基盤としており、かつてない効率と精度を実現しています。
YOLO26の主な革新:
- エンドツーエンドのNMSフリー設計: YOLO26はNon-Maximum Suppression (NMS)のポストプロセッシングをネイティブに排除します。これにより推論が大幅に高速化され、デプロイロジックが簡素化されます。これはYOLOv10で初めて採用されたアーキテクチャ上の飛躍です。
- CPU推論が最大43%高速化: GPUを持たないエッジデバイス向けに特化して最適化されており、低電力ハードウェアでのリアルタイムパフォーマンスを保証します。
- MuSGDオプティマイザ: LLMトレーニングの安定性に触発された、SGDとMuonのこのハイブリッド手法により、収束の高速化とより安定したトレーニングが保証されます。
- ProgLoss + STAL: Improved loss functions drastically enhance small-object recognition, which is critical for drone applications and security surveillance.
- DFLの削除: Distribution Focal Lossを削除したことで、モデルのエクスポートが簡素化され、さまざまなエッジデバイス間での互換性が劇的に向上しました。
速度、シームレスなエクスポート、そして最高の精度を優先する新しいプロジェクトには、Ultralytics Platformを通じてYOLO26の機能を利用することを強くお勧めします。
他のアーキテクチャを評価されている場合は、YOLO11とRT-DETRの比較や、レガシーなYOLOv8が最新のベンチマークでどの程度の性能かを確認することにも興味があるかもしれません。