YOLOv5 . PP-YOLOE+:現代的な物体検出技術への深い考察
適切なニューラルネットワークアーキテクチャの選択は、あらゆる最新のコンピュータビジョンプロジェクトにとって不可欠です。開発者や研究者がリアルタイム物体検出モデルを評価する際、その決定は多くの場合、精度、推論速度、およびデプロイの容易さのバランスを取ることに帰着します。この技術比較では、YOLOv5とPP-YOLOE+を検証し、そのアーキテクチャ、パフォーマンス指標、およびトレーニング手法を探り、アプリケーションに最適なソリューションを選択できるよう支援します。
アーキテクチャの理解
両モデルはビジョンAIの状況に大きな影響を与えましたが、それらは異なる構造的手法とフレームワーク依存性を通じて物体detectの課題に取り組んでいます。
Ultralytics YOLOv5: 業界標準
2020年半ばにリリースされた、 Ultralytics YOLOv5 は、最先端のビジョンモデルのアクセシビリティに革命をもたらしました。初のネイティブ PyTorch 実装として、世界中のPython や機械学習エンジニアにとっての参入障壁を劇的に低下させましたYOLO
YOLOv5 :
- 著者:Glenn Jocher
- 組織: Ultralytics
- 日付: 2020-06-26
- GitHub:yolov5
- ドキュメント: YOLOv5 ドキュメント
YOLOv5 改良型CSPDarknetバックボーンYOLOv5 、軽量なパラメータ数を維持しながら豊富な特徴表現を効率的に捕捉する。自動学習アンカーボックスを導入し、トレーニング開始前にカスタムデータセット向けの最適アンカーサイズを自動計算する。さらにモザイクデータ拡張を統合することで、detect と複雑な空間的文脈における汎化能力を大幅に向上させている。
YOLOv5 最大の強みのひとつは、その驚異的なYOLOv5 。標準的な物体検出器とは異なり、YOLOv5 統一されたAPI内で画像分類、インスタンスセグメンテーション、バウンディングボックス検出をシームレスにサポートする。高度に最適化されたアーキテクチャにより、重厚なトランスフォーマーベースのネットワークと比較して、学習時および推論時のメモリ使用量が大幅に低減される。
PP-YOLOE+:PaddlePaddle
約2年後に導入されたPP-YOLOE+は、YOLO 基盤をさらに発展させたものである。百度の深層学習フレームワークの能力を実証するために開発され、平均精度(MAP)を向上させるための複数のアーキテクチャ改良を導入している。
PP-YOLOE+の詳細:
- 著者: PaddlePaddle Authors
- 組織:Baidu
- 日付: 2022-04-02
- Arxiv: 2203.16250
- GitHub:PaddlePaddle
- ドキュメント:PP-YOLOE+ README
PP-YOLOE+はアンカーフリーパラダイムを採用し、CSPRepResNetバックボーンを活用する。強力なタスクアラインメント学習技術と効率的なタスクアラインヘッドを組み込み、精度を向上させる。PP-YOLOE+は高い精度スコアを達成する一方、その主な弱点は厳密な依存関係にある。 PaddlePaddle フレームワークへの依存が主な弱点である。これにより、PyTorch TensorFlow 深く投資している研究チームや企業にとって、急峻な学習曲線やエコシステム上の摩擦が生じることが多い。
性能とベンチマーク
これらのモデルを本番環境で評価する際には、精度、推論速度、パラメータのフットプリントの間のトレードオフを理解することが極めて重要です。以下の表は、異なるサイズバリエーションにおける主要な性能指標をまとめたものです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
PP-YOLOE+は高い精度限界を達成する一方、YOLOv5 制約のあるハードウェア上でYOLOv5 優れたパラメータ効率と高速推論を実現する。メモリが限られるエッジ展開においては、YOLOv5nが比類のない速度と極めて小さなフットプリントを提供する。
メモリ効率
Ultralytics 、トレーニング効率を特に考慮して設計されています。 RT-DETRなどの重いビジョン・トランスフォーマーと比較して、YOLOv5 CUDA 大幅に少なくYOLOv5 、より大きなバッチサイズやコンシューマー向けハードウェアでのトレーニングが可能になります。
Ultralytics :エコシステムと使いやすさ
機械学習アーキテクチャの真の価値は、生データの数値を超え、開発者体験全体に及ぶ。Ultralytics と対応するオープンソースツールは、高度に洗練され、適切に維持されたエコシステムを提供し、開発サイクルを劇的に加速させる。
- 使いやすさ: Ultralyticsは複雑なボイラープレートコードを抽象化します。直感的なPython APIまたはCLIを介して、モデルのトレーニング、検証、テストを行うことができます。
- デプロイの柔軟性: モデルのエクスポートは非常に簡単です。単一のコマンドで、トレーニング済みのYOLOv5の重みをONNX、TensorRT、またはOpenVINOのような形式に変換でき、エッジおよびクラウド環境全体での幅広い互換性を確保します。
- 活発なコミュニティ: 活発なコミュニティは、頻繁なアップデート、広範なドキュメント、そして一般的なコンピュータビジョンの課題に対する堅牢なソリューションを保証します。
一方、PP-YOLOE+はPaddleDetection固有の複雑な設定ファイルに大きく依存しており、これが迅速なプロトタイピングの速度を低下させ、現代的なMLOpsパイプラインへの統合を複雑化する可能性がある。
実用的な実装とコード例
Ultralytics 開始は非常にUltralytics 。以下は、事前学習済みYOLOv5 を読み込み、カスタムデータセットでトレーニングし、結果をエクスポートする完全な実行可能例です:
from ultralytics import YOLO
# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset for 50 epochs
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on a sample image
predict_results = model("https://ultralytics.com/images/bus.jpg")
# Export the optimized model to ONNX format
path = model.export(format="onnx")
ユースケースと推奨事項
YOLOv5とPP-YOLOE+のどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みに依存します。
YOLOv5を選択すべき時
YOLOv5 以下に最適YOLOv5 :
- 実績のある本番システム: YOLOv5の長年にわたる安定性、広範なドキュメント、および大規模なコミュニティサポートが評価されている既存のデプロイメント。
- Resource-Constrained Training: 限られたGPUリソースを持つ環境において、YOLOv5の効率的なトレーニングパイプラインと低いメモリ要件が有利です。
- 豊富なエクスポート形式のサポート: ONNX、TensorRT、CoreML、およびTFLiteを含む多くの形式でのデプロイを必要とするプロジェクト。
PP-YOLOE+を選択するタイミング
PP-YOLOE+は以下の方におすすめです:
- PaddlePaddleエコシステム統合: BaiduのPaddlePaddleフレームワークとツールに基づいて既存のインフラストラクチャを構築している組織。
- Paddle Lite Edgeデプロイメント: Paddle LiteまたはPaddle推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
- 高精度サーバーサイドdetect: フレームワークの依存関係が問題とならない、強力なGPUサーバー上での最大限のdetect精度を優先するシナリオ。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
検討すべき代替の最先端モデル
YOLOv5 堅牢で実績のあるYOLOv5 、コンピュータビジョン分野は急速に進化しています。新規プロジェクトを開始するチームには、当社の最新アーキテクチャの検討を強く推奨します。
Ultralytics YOLO26
2026年1月にリリースされたYOLO26は、我々の研究の絶対的な頂点を示しています。精度と速度の両面で大幅な改善を実現しました。主な革新点は以下の通りです:
- エンドツーエンドNMSフリー設計: YOLOv10の概念に基づいて構築されたYOLO26は、Non-Maximum Suppression (NMS)の後処理をネイティブに排除し、レイテンシを削減し、デプロイメントロジックを簡素化します。
- DFLの削除: Distribution Focal Lossを排除することで、YOLO26は最大43%高速なCPU推論を実現し、低電力エッジデバイスにとって非常に強力なものとなります。
- MuSGDオプティマイザ: 高度なLLMトレーニング技術に触発されたSGDとMuonのこのハイブリッドは、非常に安定したトレーニング実行と高速な収束を保証します。
- ProgLoss + STAL: これらの高度な損失関数は、ドローン画像やスマート農業にとって不可欠な小物体認識において、顕著な改善を実現します。
さらに、優れたパフォーマンスを提供し、レガシーシステムとYOLO26の最先端機能との間の非常に信頼性の高いブリッジとして機能するYOLO11も検討できます。
実際のユースケース
YOLOv5 YOLOE+の選択は、最終的にはデプロイ環境とプロジェクトの制約条件によって決まります。
YOLOv5の理想的なアプリケーション: YOLOv5の最小限のリソース要件と驚くべき使いやすさは、エッジAIにとって最高の選択肢となっています。リアルタイムのロボット工学、モバイルアプリケーション統合、マルチカメラ交通監視システムなど、限られたハードウェアで高フレームレートを必要とするアプリケーションで優れた性能を発揮します。同じフレームワーク内で姿勢推定とoriented bounding box (OBB)タスクを同時に処理できるため、高い適応性を持っています。
PP-YOLOE+の理想的なアプリケーション: PP-YOLOE+は、リアルタイム処理の制約よりも静止画像における絶対的な最大精度が優先されるシナリオに最適です。特にBaiduおよびPaddlePaddleエコシステムに多額の投資をしているアジアの製造業において、産業検査パイプラインでニッチな用途を見出しています。
要約すると、PP-YOLOE+は高い精度ベンチマークを実現する一方、Ultralytics YOLO 、パフォーマンスのバランス、シームレスなデプロイメント、開発者フレンドリーな設計という比類のない組み合わせを提供し、コンピュータビジョンプロジェクトを構想から本番運用まで成功に導きます。