PP-YOLOE+ vsYOLOv5: オブジェクト検出アーキテクチャの比較
コンピュータビジョン向けの適切な深層学習フレームワークを選択する際、開発者は速度、精度、導入の容易さの最適なバランスを見出すため、異なるアーキテクチャの機能を比較することがよくあります。 本稿では、PP-YOLOE+YOLOv5技術的差異を詳細に検証します。両者のアーキテクチャ、性能指標、最適な導入シナリオを分析することで、リアルタイムロボティクス、エッジデプロイメント、クラウドベースの映像解析など、今後のプロジェクトに最適な選択が可能となります。
モデルの起源とメタデータ
両モデルとも、高度な技術力を持つエンジニアリングチームによって開発されたが、対象とするエコシステムはわずかに異なる。その起源を理解することは、アーキテクチャ設計上の選択を理解する上で貴重な文脈を提供する。
PP-YOLOE+の詳細:
- 著者: PaddlePaddle Authors
- 組織:Baidu
- 日付: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:PaddlePaddle
- ドキュメント:PaddleDetection README
YOLOv5 :
- 著者: グレン・ヨーカー
- 組織: Ultralytics
- 日付: 2020年6月26日
- GitHub:yolov5
- ドキュメント:yolov5
アーキテクチャの比較
PP-YOLOE+アーキテクチャ
PP-YOLOE+は、PP-YOLOv2などの先行モデルを基盤として構築された、百度エコシステム内における進化形です。高度に最適化された CSPRepResNet バックボーンは、クロスステージ部分(CSP)ネットワークの原理と再パラメータ化技術を組み合わせることで特徴抽出を強化する。これにより、モデルは学習中に高い精度を維持しつつ、より効率的なアーキテクチャへと収束し、高速な推論を実現する。
さらに、PP-YOLOE+はタスクアラインメント学習(TAL)と効率的なタスクアラインメントヘッド(ET-head)を採用している。この組み合わせは、高密度物体検出器における一般的なボトルネックである分類タスクと位置特定タスクのミスマッチを解決することを目的としている。構造的には印象的だが、このアーキテクチャPaddlePaddle 緊密に結合しており、他の主流の機械学習ライブラリを標準化しているチームにとっては統合上の課題となる可能性がある。
YOLOv5アーキテクチャ
対照的に、YOLOv5 PyTorchでネイティブに設計YOLOv5 。 PyTorchでネイティブに設計されています。これは学術研究と企業生産の両方の業界標準です。YOLOv5は、優れた勾配流れとパラメータ効率で知られる改良版CSPDarknet53バックボーンを採用しています。
YOLOv5 、これはトレーニング前に特定のカスタムデータセットに基づいてアンカーボックスのサイズを動的にチェック・調整します。これによりバウンディングボックスの手動ハイパーパラメータ調整が不要になります。モデルのPath Aggregation Network(PANet)ネックは堅牢なマルチスケール特徴融合を保証し、様々なサイズの物体検出に極めて効果的です。
効率化されたPyTorch
YOLOv5 PyTorch直接YOLOv5 ため、最適化された形式(例:ONNX)へのエクスポートは ONNX やTensorRT といった最適化フォーマットへのエクスポートは、ローカル化されたフレームワークに縛られたモデルに比べて、中間ソフトウェアの設定が大幅に少なくてTensorRT 。
パフォーマンス分析
これらのモデルを評価するには、平均精度(mAP)とレイテンシのトレードオフを検討する必要があります。以下の表は、異なるモデルサイズにおける指標を示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
一方、PP-YOLOE+はより大きなスケール(Xバリアントなど)において非常に競争力mAP を達成している。 YOLOv5 優れた速度と少ないパラメータ数YOLOv5 スペクトルの小さい方の端。YOLOv5 (YOLOv5nわずか260万個のパラメータしか必要としないため、メモリ要件が厳しい制約のあるエッジデバイスに非常に適している。さらに、YOLO トレーニングは、重厚なトランスフォーマーベースの代替モデルと比較して、一般的にCUDA 消費量が少ない。 RT-DETR.
Ultralyticsの利点
アーキテクチャを選択する際、生のメトリクスは考慮要素の一部に過ぎません。開発者体験、エコシステムサポート、デプロイメントパイプラインが、プロジェクトの実世界の成功を左右することが多いのです。Ultralytics 発揮されます。
比類のない使いやすさ
Ultralytics Python 複雑な定型コードをUltralytics 。開発者はトレーニングの開始、性能の検証、モデルのデプロイをシームレスに行えます。ドキュメントは充実しており、高度にメンテナンスされ、大規模なグローバルなオープンソースコミュニティによってサポートされています。
タスクを横断する汎用性
PP-YOLOE+は専用の物体検出器ですが、Ultralytics 単一の統合APIのもとで複数のコンピュータビジョンタスクに取り組むことが可能です。YOLOv5その後継モデルを用いれば、標準的なバウンディングボックスから画像セグメンテーションや分類ワークフローへ、シームレスに移行できます。
コード例:YOLOv5トレーニング
開始にはわずか数行のコードのみが必要です。この簡便さにより、研究開発サイクルが大幅に加速されます。
from ultralytics import YOLO
# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
実際のユースケース
PP-YOLOE+を選択すべき場合: 組織が百度ソフトウェアスタックに深く組み込まれている場合、PaddlePaddle 必須とする専用ハードウェアに大きく依存している場合、PP-YOLOE+は確かな性能を発揮します。アジア全域の専用製造パイプラインにおいて、Paddleとのレガシー統合が存在する環境で頻繁に利用されています。
YOLOv5を選択すべき場合: 世界中の開発者、研究者、企業の大多数にとって、YOLOv5 強力なYOLOv5 。PyTorch 、以下のようなツールと即座に互換性があります Weights & Biases などの追跡ツールと即座に互換性があり、 TensorRTNVIDIA GPU CoreML が可能です。農業用作物モニタリングから高速ドローンナビゲーションまで、多様な分野で優れた性能を発揮します。
検知技術の未来:Ultralytics
YOLOv5 象徴的なYOLOv5 、コンピュータビジョンの最先端技術は進化を続けています。新規開発においては、2026年1月にリリースされたYOLO26への移行を強く推奨します。Ultralytics シームレスに利用可能なYOLO26は、効率性を完全に再定義します。
YOLO26の主な革新点:
- エンドツーエンドNMS設計:YOLO26は非最大抑制(NMS)後処理を完全に排除します。これにより遅延変動が低減され、デプロイメントパイプラインが大幅に簡素化されます。
- 最大43%高速CPU :ディストリビューション焦点損失(DFL)を戦略的に除去することで、YOLO26はGPUなしのエッジデバイス上で速度を劇的に向上させます。
- MuSGDオプティマイザー:最先端の大規模言語モデルに着想を得たこのハイブリッドオプティマイザーは、トレーニングの動的挙動を安定化させ、カスタムデータセット上での収束を大幅に高速化します。
- タスク特化型強化機能:ProgLossやSTALといった高度な損失関数を実装し、微小物体において前例のない精度を実現。航空写真向けのオリエンテッド境界ボックス(OBB)検出をネイティブサポート。
最先端のビジョンモデルを探求しているなら、前世代モデルとの比較にも興味があるかもしれません YOLO11 や、トランスフォーマーベースの手法である RT-DETRといった手法との比較も有用でしょう。結局のところ、堅牢なエコシステムと最先端のアーキテクチャ進歩が相まって、Ultralytics 現代のコンピュータビジョンタスクにおける最良の選択肢Ultralytics 地位を確固たるものにしています。