YOLOv5 . PP-YOLOE+:現代的な物体検出技術への深い考察
適切なニューラルネットワークアーキテクチャの選択は、現代のコンピュータビジョンプロジェクトにおいて不可欠である。開発者や研究者がリアルタイム物体検出モデルを評価する際、その決定は精度、推論速度、導入の容易さのバランスを取ることに帰着することが多い。本技術比較では YOLOv5とPP-YOLOE+を比較検討し、そのアーキテクチャ、性能指標、およびトレーニング手法を探求することで、アプリケーションに最適なソリューションを選択する手助けをします。
アーキテクチャの理解
両モデルは視覚AIの分野に大きな影響を与えたが、物体検出の課題に対しては異なる構造的手法とフレームワーク依存性を通じてアプローチしている。
Ultralytics YOLOv5: 業界標準
2020年半ばにリリースされた、 Ultralytics YOLOv5 は、最先端のビジョンモデルのアクセシビリティに革命をもたらしました。初のネイティブ PyTorch 実装として、世界中のPython や機械学習エンジニアにとっての参入障壁を劇的に低下させましたYOLO
YOLOv5 :
- 著者: グレン・ヨーカー
- 組織: Ultralytics
- 日付: 2020年6月26日
- GitHub:yolov5
- ドキュメント:YOLOv5
YOLOv5 改良型CSPDarknetバックボーンYOLOv5 、軽量なパラメータ数を維持しながら豊富な特徴表現を効率的に捕捉する。自動学習アンカーボックスを導入し、トレーニング開始前にカスタムデータセット向けの最適アンカーサイズを自動計算する。さらにモザイクデータ拡張を統合することで、detect と複雑な空間的文脈における汎化能力を大幅に向上させている。
YOLOv5 最大の強みのひとつは、その驚異的なYOLOv5 。標準的な物体検出器とは異なり、YOLOv5 統一されたAPI内で画像分類、インスタンスセグメンテーション、バウンディングボックス検出をシームレスにサポートする。高度に最適化されたアーキテクチャにより、重厚なトランスフォーマーベースのネットワークと比較して、学習時および推論時のメモリ使用量が大幅に低減される。
PP-YOLOE+:PaddlePaddle
約2年後に導入されたPP-YOLOE+は、YOLO 基盤をさらに発展させたものである。百度の深層学習フレームワークの能力を実証するために開発され、平均精度(MAP)を向上させるための複数のアーキテクチャ改良を導入している。
PP-YOLOE+の詳細:
- 著者: PaddlePaddle Authors
- 組織:Baidu
- 日付: 2022-04-02
- Arxiv:2203.16250
- GitHub:PaddlePaddle
- ドキュメント:PP-YOLOE+ README
PP-YOLOE+はアンカーフリーパラダイムを採用し、CSPRepResNetバックボーンを活用する。強力なタスクアラインメント学習技術と効率的なタスクアラインヘッドを組み込み、精度を向上させる。PP-YOLOE+は高い精度スコアを達成する一方、その主な弱点は厳密な依存関係にある。 PaddlePaddle フレームワークへの依存が主な弱点である。これにより、PyTorch TensorFlow 深く投資している研究チームや企業にとって、急峻な学習曲線やエコシステム上の摩擦が生じることが多い。
性能とベンチマーク
これらのモデルを本番環境で評価する際には、精度、推論速度、パラメータのフットプリントの間のトレードオフを理解することが極めて重要です。以下の表は、異なるサイズバリエーションにおける主要な性能指標をまとめたものです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
PP-YOLOE+は高い精度限界を達成する一方、YOLOv5 制約のあるハードウェア上でYOLOv5 優れたパラメータ効率と高速推論を実現する。メモリが限られるエッジ展開においては、YOLOv5nが比類のない速度と極めて小さなフットプリントを提供する。
メモリ効率
Ultralytics 、トレーニング効率を特に考慮して設計されています。 RT-DETRなどの重いビジョン・トランスフォーマーと比較して、YOLOv5 CUDA 大幅に少なくYOLOv5 、より大きなバッチサイズやコンシューマー向けハードウェアでのトレーニングが可能になります。
Ultralytics :エコシステムと使いやすさ
機械学習アーキテクチャの真の価値は、生データの数値を超え、開発者体験全体に及ぶ。Ultralytics と対応するオープンソースツールは、高度に洗練され、適切に維持されたエコシステムを提供し、開発サイクルを劇的に加速させる。
- 使いやすさ: Ultralytics 複雑な定型コードをUltralytics 。 Python CLIモデルのトレーニング、検証、テストが可能です。
- デプロイの柔軟性:モデルのエクスポートは非常に簡単です。単一のコマンドで、YOLOv5 ONNX、 TensorRT、OpenVINO、エッジとクラウド環境の両方で幅広い互換性を確保します。
- 活発なコミュニティ:活気あるコミュニティが頻繁な更新、充実したドキュメント、そして一般的なコンピュータビジョン課題に対する堅牢な解決策を保証します。
一方、PP-YOLOE+はPaddleDetection固有の複雑な設定ファイルに大きく依存しており、これが迅速なプロトタイピングの速度を低下させ、現代的なMLOpsパイプラインへの統合を複雑化する可能性がある。
実用的な実装とコード例
Ultralytics 開始は非常にUltralytics 。以下は、事前学習済みYOLOv5 を読み込み、カスタムデータセットでトレーニングし、結果をエクスポートする完全な実行可能例です:
from ultralytics import YOLO
# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset for 50 epochs
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on a sample image
predict_results = model("https://ultralytics.com/images/bus.jpg")
# Export the optimized model to ONNX format
path = model.export(format="onnx")
ユースケースと推奨事項
YOLOv5 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの選好によって決まります。
YOLOv5を選択すべき時
YOLOv5 以下に最適YOLOv5 :
- 実績ある生産システム: YOLOv5 track 、豊富なドキュメント、大規模なコミュニティサポートが評価される既存の展開環境。
- リソース制約下でのトレーニング: GPU 限られた環境において、YOLOv5効率的なトレーニングパイプラインと低いメモリ要件が有利に働く。
- 幅広いエクスポート形式のサポート:複数の形式での展開を必要とするプロジェクトに対応 ONNX、 TensorRT、 CoreML、および TFLite。
PP-YOLOE+を選択するタイミング
PP-YOLOE+は以下の方におすすめです:
- PaddlePaddle 統合: 百度のPaddlePaddleフレームワークとツール群を基盤に既存インフラを構築している組織。
- Paddle Lite Edge Deployment:Paddle Lite または Paddle 推論エンジン向けに高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
- 高精度サーバーサイド検出:フレームワーク依存を気にせず、高性能GPU 上で最大検出精度を優先するシナリオ。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
検討すべき代替的な最新モデル
YOLOv5 堅牢で実績のあるYOLOv5 、コンピュータビジョン分野は急速に進化しています。新規プロジェクトを開始するチームには、当社の最新アーキテクチャの検討を強く推奨します。
Ultralytics YOLO26
2026年1月にリリースされたYOLO26は、我々の研究の絶対的な頂点を示しています。精度と速度の両面で大幅な改善を実現しました。主な革新点は以下の通りです:
- エンドツーエンドのNMS設計:以下の概念に基づく構築 YOLOv10の概念を基盤とし、YOLO26はノン・マキシマム・サプレッション(NMS)後処理をネイティブに排除。これによりレイテンシを削減し、デプロイロジックを簡素化します。
- DFL除去:分布焦点損失(Distribution Focal Loss)を除去することで、YOLO26CPU 最大43%高速化し、低電力エッジデバイスにおいて驚異的な性能を発揮する。
- MuSGDオプティマイザ:高度なLLMトレーニング技術に着想を得た、SGD ミューオンのハイブリッド手法により、極めて安定したトレーニング実行と高速な収束を実現します。
- ProgLoss + STAL:これらの先進的な損失関数は、ドローン画像やスマート農業において極めて重要な小規模物体認識において顕著な改善をもたらします。
さらに、以下のことも検討してみてください YOLO11を検討する価値があります。優れたパフォーマンスを提供し、レガシーシステムとYOLO26の最先端機能との間を、非常に信頼性の高いブリッジとして機能します。
実際のユースケース
YOLOv5 YOLOE+の選択は、最終的にはデプロイ環境とプロジェクトの制約条件によって決まります。
YOLOv5 理想的なYOLOv5 : YOLOv5最小限のリソース要件と驚異的な使いやすさにより、エッジAIの最適な選択肢です。リアルタイムロボティクス、モバイルアプリケーション統合、マルチカメラ交通監視システムなど、限られたハードウェア上で高いフレームレートを必要とするアプリケーションに特に優れています。同一フレームワーク内で姿勢推定と 方向付き境界ボックス(OBB)タスクを同時に処理できる能力により、高い適応性を発揮します。
理想的なPP-YOLOE+の適用分野: PP-YOLOE+は、リアルタイム処理の制約よりも静止画像における絶対的な最高精度が優先されるシナリオに最適です。産業用検査パイプライン、特に百度(バイドゥ)およびPaddlePaddle に多大な投資を行ってきた既存の技術スタックを有するアジアの製造業セクターにおいて、ニッチな用途を見出しています。
要約すると、PP-YOLOE+は高い精度ベンチマークを実現する一方、Ultralytics YOLO 、パフォーマンスのバランス、シームレスなデプロイメント、開発者フレンドリーな設計という比類のない組み合わせを提供し、コンピュータビジョンプロジェクトを構想から本番運用まで成功に導きます。