YOLO11 PP-YOLOE+: リアルタイム検出器の技術的比較
コンピュータービジョンアプリケーションを本番環境に展開する際、最適なニューラルネットワークアーキテクチャの選択は極めて重要です。本技術比較では、リアルタイム物体検出分野における二つの主要モデルを検証します: Ultralytics YOLO11 とBaiduのPP-YOLOE+を検証します。両アーキテクチャは堅牢な性能を提供しますが、精度・推論速度・開発者エコシステムへの対応において全く異なるアプローチを取っています。
以下は、これらのモデルのパフォーマンス境界を示すインタラクティブなチャートで、ハードウェアの制約に最適なものを特定するのに役立ちます。
モデルの起源と技術的系譜
これらのモデルの起源と設計思想を理解することは、それぞれの強みと理想的な使用事例を理解する上で貴重な背景情報を提供します。
YOLO11
Ultralyticsによって開発されたYOLO11は、YOLOシリーズの高度に洗練されたイテレーションであり、高速推論、極めて高いパラメータ効率、そして比類のない使いやすさのバランスを優先しています。統一されたマルチタスク機能と開発者フレンドリーなPython APIで広く認識されています。
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2024-09-27
- GitHub:https://github.com/ultralytics/ultralytics
- ドキュメント:YOLO11ドキュメント
PP-YOLOE+ 詳細
PP-YOLOE+は、PaddlePaddle を基盤として構築されたPP-YOLOv2の進化版です。CSPRepResNetバックボーンやタスクアラインメント学習(TAL)といったアーキテクチャの変更を導入し、特に高性能GPUにおいて精度限界の突破を図っています。
- 著者: PaddlePaddle Authors
- 組織:Baidu
- 日付: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- ドキュメント:PP-YOLOE+ 設定ドキュメント
アーキテクチャの違い
YOLO11 の基本的なアーキテクチャ設計は、コンピュータビジョン分野における両者の異なる優先順位を反映している。
YOLO11は、高度に最適化されたバックボーンとアンカーフリーの検出ヘッドを基盤としています。C3k2ブロックとSpatial Pyramid Pooling - Fast (SPPF) を利用して、最小限の計算オーバーヘッドでマルチスケール特徴を捉えます。この設計は、エッジNPUやモバイルCPUのようなリソース制約のあるデバイスでの推論レイテンシを削減する上で非常に有利です。さらに、YOLO11はマルチタスク学習向けにネイティブに設計されており、instance segmentation、pose estimation、およびoriented bounding box (OBB) detectionをすぐにサポートします。
PP-YOLOE+は、CSPRepResNetバックボーンとEfficient Task-aligned head (ETヘッド) を導入しています。学習中に表現能力を高めるためにrep-parameterization技術を多用し、推論時にはこれらのパラメータを標準的な畳み込みに統合します。これにより、目覚ましい平均精度 (mAP)が得られますが、結果として得られるモデルは、パラメータ数とメモリフットプリントの点で重くなる傾向があり、軽量なエッジデバイスよりも堅牢なサーバーGPUへの展開に適しています。
マルチタスクの汎用性
プロジェクトで標準的なバウンディングボックスを超える拡張が必要な場合、Ultralytics YOLO11 セグメンテーション、姿勢推定、分類を同一API内でネイティブYOLO11 。これにより、複数の別々のリポジトリを統合する場合と比較して開発オーバーヘッドを大幅に削減できます。
性能とベンチマーク
性能評価においては、精度(mAP)、各種ハードウェアにおける推論速度、およびモデルの効率性(パラメータ数とFLOPs)を検証します。下表は比較指標をまとめたもので、最も効率的または高性能な値を太字で示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
分析
YOLO11 明らかな優位性をYOLO11 性能バランス パラメータ効率。例えば、 YOLO11m より高いmAP(51.5)を達成し、よりも PP-YOLOE+m (49.8) であり、より少ないパラメータ (20.1M vs 23.43M) を利用し、TensorRT上で大幅に速い推論速度 (4.7ms vs 5.56ms) を達成しています。YOLO11モデルの軽量な性質は、本質的に両方の間でのメモリ要件の低減につながります。 モデルのトレーニング およびデプロイメント。
トレーニングエコシステムと使いやすさ
モデルの真の価値は、開発者がカスタムのコンピュータビジョンデータセットでどれだけ容易に学習させ、本番環境にデプロイできるかにしばしばある。
Ultralyticsの利点
Ultralytics 、効率化された開発者体験をUltralytics 。YOLO11 トレーニングYOLO11 Python CLIを通じてYOLO11 、複雑な定型コードを抽象化します。Ultralytics はさらに、ノーコードトレーニング、自動化されたデータセット管理、ワンクリックでの ONNX、CoreML、 TensorRTなどの形式へのワンクリックエクスポートを提供することで、これをさらに強化します。
さらに、YOLO トレーニング中に非常にメモリ効率が高く、トランスフォーマーベースのアーキテクチャや重厚な反復パラメータ化モデルに典型的な膨大なVRAMオーバーヘッドを回避するため、コンシューマーグレードのハードウェアでのトレーニングを可能にします。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
PP-YOLOE+ エコシステム
PP-YOLOE+はPaddleDetectionエコシステム内で動作します。このフレームワークは強力で百度の産業ソリューションと深く統合されていますが、開発者はPaddlePaddle を採用する必要があります。これにより、PyTorch標準化しているチームにとっては学習曲線が急峻になる可能性があります。 さらに、PP-YOLOE+モデルをエッジデバイス向けの標準的な汎用フォーマットにエクスポートする場合、Ultralytics に組み込まれたネイティブエクスポートパイプラインと比較して、追加の変換ステップが必要となる場合があります。
理想的なユースケース
これらのモデルの選択は、特定のデプロイ環境に依存します。
- アジャイル開発、エッジコンピューティング、およびモバイルアプリケーションには、YOLO11を選択してください。その高い推論速度、低いメモリフットプリント、および広範なエクスポート機能は、標準CPUでのリアルタイム小売在庫管理、ドローンベースの航空画像分析、複雑なマルチタスクパイプラインなどのタスクに最適です。
- PP-YOLOE+を選択してください。生産パイプライン全体がすでにPaddlePaddleエコシステムに深く投資されている場合、またはメモリ制約やハードウェア互換性(Paddleの最適化されたハードウェア以外)が主要な懸念事項ではないハイエンドの専用推論サーバーにデプロイする場合に最適です。
次世代:YOLO26のご紹介
YOLO11 非常に強力YOLO11 、AI分野は急速に進化しています。物体検出における絶対的な最先端技術として、Ultralytics 新たな YOLO26を発表しました。2026年1月にリリースされたYOLO26は、前世代の成功を基盤としつつ、これまでにない効率性と精度を実現しています。
YOLO26の主な革新点:
- エンドツーエンドのNMSフリー設計: YOLO26は、Non-Maximum Suppression (NMS) の後処理をネイティブに排除します。これにより、推論が大幅に高速化され、デプロイメントロジックが簡素化されます。これはYOLOv10で初めて開拓されたアーキテクチャ上の飛躍です。
- 最大43%高速なCPU推論: GPUを持たないエッジデバイス向けに特化して最適化されており、低電力ハードウェアでのリアルタイム性能を保証します。
- MuSGD オプティマイザ: LLMトレーニングの安定性から着想を得たSGDとMuonのこのハイブリッドは、より高速な収束とより安定したトレーニングを保証します。
- ProgLoss + STAL: 改善された損失関数は、小オブジェクト認識を劇的に強化し、ドローンアプリケーションおよびセキュリティ監視にとって不可欠です。
- DFLの削除: Distribution Focal Lossの削除によりモデルのエクスポートが簡素化され、幅広いエッジデバイスとの互換性が劇的に向上します。
速度、シームレスなエクスポート、および最高の精度を優先する新規プロジェクトの場合、私たちは、Ultralytics Platformを介してYOLO26の機能を活用することを強くお勧めします。
他のアーキテクチャを評価している場合、YOLO11 RT-DETR や、従来の YOLOv8 が現代のベンチマークでどの程度通用するかを探るのも興味深いでしょう。