PP-YOLOE+ 対 YOLOv5:物体検出アーキテクチャの探索
コンピュータビジョンのために適切なディープラーニングフレームワークを選択する際、開発者はスピード、精度、そしてデプロイの容易さの完璧なバランスを求めて、さまざまなアーキテクチャの能力を比較することがよくあります。本記事では、PP-YOLOE+ と YOLOv5 の技術的な違いについて深く掘り下げます。それぞれのアーキテクチャ、パフォーマンスメトリクス、および理想的なデプロイシナリオを分析することで、リアルタイムロボティクス、エッジデプロイ、クラウドベースのビデオ解析など、次のプロジェクトに向けて十分な情報に基づいた意思決定ができるようになります。
モデルの起源とメタデータ
どちらのモデルも非常に有能なエンジニアリングチームによって開発されましたが、ターゲットとするエコシステムはわずかに異なります。それぞれの背景を理解することは、アーキテクチャ設計の選択理由を把握する上で有用なコンテキストとなります。
PP-YOLOE+の詳細:
- 作成者:PaddlePaddle作成者
- 組織: Baidu
- 日付:2022年4月2日
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- ドキュメント: PaddleDetection README
YOLOv5の詳細:
- 著者: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- ドキュメント: https://docs.ultralytics.com/models/yolov5/
アーキテクチャの比較
PP-YOLOE+ アーキテクチャ
PP-YOLOE+ は Baidu エコシステムにおける進化版であり、PP-YOLOv2 のような従来モデルの基盤の上に構築されています。このモデルは、大幅に最適化された CSPRepResNet バックボーンを採用しており、Cross Stage Partial (CSP) ネットワークの原則と再パラメータ化技術を組み合わせることで特徴抽出を強化しています。これにより、モデルはトレーニング中の高精度を維持しながら、より効率的なアーキテクチャへと収束し、推論の高速化を実現しています。
さらに、PP-YOLOE+ は Task Alignment Learning (TAL) と Efficient Task-aligned head (ET-head) を採用しています。この組み合わせは、密な物体検出器における共通のボトルネックである、分類タスクとローカライゼーションタスク間の不整合を解決することを目的としています。構造的には非常に優れていますが、このアーキテクチャは PaddlePaddle framework と密接に結合されているため、他の主要な ML ライブラリで標準化を進めているチームにとっては、統合上の課題となる可能性があります。
YOLOv5 アーキテクチャ
対照的に、YOLOv5 は学術研究と企業向け本番環境の両方で業界標準となっている PyTorch 上でネイティブにエンジニアリングされました。このモデルは、優れた勾配フローとパラメータ効率で知られる改良型の CSPDarknet53 バックボーンを利用しています。
YOLOv5 の特徴の一つは、トレーニング前に特定のカスタムデータセットに基づいてアンカーボックスのサイズを動的にチェックおよび調整する AutoAnchor アルゴリズムです。これにより、バウンディングボックスに対する手動のハイパーパラメータ調整が不要になります。モデルの Path Aggregation Network (PANet) ネックは堅牢なマルチスケール特徴融合を確実にするため、サイズの異なる物体を検出するのに非常に効果的です。
YOLOv5 は PyTorch 上に直接構築されているため、ONNX や TensorRT といった最適化フォーマットへのエクスポートにおいて、特定のフレームワークに固定されたモデルよりもミドルウェアの設定が大幅に少なくて済みます。
性能分析
これらのモデルを評価するには、平均適合率 (mAP) とレイテンシのトレードオフを考慮する必要があります。以下の表は、各モデルサイズにおけるメトリクスを示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
PP-YOLOE+ はより大きなスケール(X バリアントなど)において非常に競争力のある mAP スコアを達成しますが、YOLOv5 はより小さなスケールの領域において優れた速度と少ないパラメータ数を提供します。YOLOv5 Nano (YOLOv5n) はわずか 260 万個のパラメータしか必要とせず、メモリ要件が厳しい制約のあるエッジデバイスに最適です。さらに、YOLO モデルのトレーニングは、RT-DETR のような重い Transformer ベースの代替モデルと比較して、通常 CUDA メモリの消費が少なくて済みます。
Ultralyticsの利点
アーキテクチャを選択する際、生のメトリクスは評価の一部に過ぎません。プロジェクトの現実的な成功は、開発者エクスペリエンス、エコシステムのサポート、およびデプロイパイプラインによって決まることがよくあります。ここで Ultralytics モデルが真価を発揮します。
比類のない使いやすさ
Ultralytics 用の Python API は、複雑な定型コードを抽象化します。開発者はトレーニングの開始、パフォーマンスの検証、モデルのデプロイをシームレスに行うことができます。ドキュメントは広範囲にわたり、しっかりとメンテナンスされており、巨大な世界規模のオープンソースコミュニティによってサポートされています。
タスクの汎用性
PP-YOLOE+ は専用の物体検出器ですが、Ultralytics エコシステムでは、ユーザーは単一の統一された API の下で複数のコンピュータビジョンタスクに取り組むことができます。YOLOv5 およびその後継モデルを使用することで、標準的なバウンディングボックスから 画像セグメンテーション や分類ワークフローへシームレスに移行できます。
コード例: YOLOv5 のトレーニング
開始するには、わずか数行のコードが必要です。このシンプルさが、研究開発サイクルを大幅に加速させます。
from ultralytics import YOLO
# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()実際のユースケース
PP-YOLOE+ を選択すべき場面: 組織が Baidu ソフトウェアスタックに深く組み込まれている場合や、PaddlePaddle フレームワークを必須とする特殊なハードウェアに大きく依存している場合、PP-YOLOE+ は堅実なパフォーマンスを発揮します。アジア全域の特殊な製造ラインにおいて、Paddle とのレガシー統合が必要な現場で頻繁に利用されています。
YOLOv5 を選択すべき場面: 世界中の大多数の開発者、研究者、企業にとって、YOLOv5 は依然として強力なツールです。PyTorch に根ざしているため、トラッキング用の Weights & Biases などのツールと即座に互換性があり、NVIDIA GPU アクセラレーション用の TensorRT や Apple デバイス用の CoreML へときれいにエクスポートできます。農作物の監視から高速ドローンのナビゲーションまで、多岐にわたる分野で優れています。
検出の未来: Ultralytics YOLO26
YOLOv5 は象徴的なモデルですが、コンピュータビジョンの最前線は進歩しています。すべての新規開発には、2026 年 1 月にリリースされた YOLO26 への移行を強くお勧めします。Ultralytics Platform を通じてシームレスに利用可能な YOLO26 は、効率性を完全に再定義します。
YOLO26 の主な技術革新:
- エンドツーエンドの NMS フリー設計: YOLO26 は非最大値抑制 (NMS) の後処理を完全に排除しました。これにより、レイテンシの変動が低減し、デプロイパイプラインが大幅に簡素化されます。
- CPU 推論速度が最大 43% 向上: Distribution Focal Loss (DFL) を戦略的に削除することで、YOLO26 は GPU を搭載していないエッジデバイス上での処理速度を劇的に向上させます。
- MuSGD オプティマイザ: 主要な大規模言語モデルに着想を得たこのハイブリッドオプティマイザは、トレーニングの安定性を高め、カスタムデータセット上での収束を大幅に高速化します。
- タスク固有の強化: ProgLoss や STAL といった高度な損失関数を搭載しており、小さな物体に対して前例のない精度を実現します。また、航空画像用の 回転バウンディングボックス (OBB) 検出もネイティブでサポートしています。
最先端のビジョンモデルを検討されている場合は、前世代の YOLO11 や、RT-DETR のような Transformer ベースのアプローチを比較することも有用です。最終的に、堅牢なエコシステムと最先端のアーキテクチャの進歩が組み合わさることで、Ultralytics は現代のコンピュータビジョンタスクにとって最高の選択肢となります。