PP-YOLOE+ vsYOLOv5: オブジェクト検出アーキテクチャの比較

コンピュータビジョン向けの適切な深層学習フレームワークを選択する際、開発者は速度、精度、導入の容易さの最適なバランスを見出すため、異なるアーキテクチャの機能を比較することがよくあります。本稿では、PP-YOLOE+YOLOv5技術的差異を詳細に検証します。両者のアーキテクチャ、性能指標、最適な導入シナリオを分析することで、リアルタイムロボティクス、エッジデプロイメント、クラウドベースの映像解析など、今後のプロジェクトに最適な選択が可能となります。

モデルの起源とメタデータ

両モデルは非常に有能なエンジニアリングチームから生まれましたが、わずかに異なるエコシステムをターゲットとしています。その起源を理解することは、それらのアーキテクチャ設計の選択にとって貴重な文脈を提供します。

PP-YOLOE+の詳細:

著者: PaddlePaddle Authors
組織：Baidu
日付: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub:PaddlePaddle
ドキュメント: PaddleDetection README

PP-YOLOE+の詳細について。

YOLOv5 ：

著者：Glenn Jocher
組織: Ultralytics
日付: 2020-06-26
GitHub:yolov5
ドキュメント: https://docs.ultralytics.com/models/yolov5/

YOLOv5について詳しくはこちら

アーキテクチャの比較

PP-YOLOE+アーキテクチャ

PP-YOLOE+は、PP-YOLOv2などの先行モデルを基盤として構築された、百度エコシステム内における進化形です。高度に最適化された CSPRepResNet Cross Stage Partial (CSP) ネットワークの原理と再パラメータ化技術を組み合わせることで特徴抽出を強化するバックボーン。これにより、モデルはトレーニング中に高い精度を維持しつつ、より合理化されたアーキテクチャに集約され、より高速な推論が可能になります。

さらに、PP-YOLOE+はタスクアライメント学習 (TAL) と効率的なタスクアライメントヘッド (ET-head) を採用しています。この組み合わせは、高密度オブジェクト検出器における一般的なボトルネックである、分類タスクとローカライゼーションタスク間の不整合を解決することを目的としています。構造的には優れていますが、このアーキテクチャはPaddlePaddleフレームワークと密接に結合しており、他の主要なMLライブラリを標準化しているチームにとっては統合の課題となる可能性があります。

YOLOv5アーキテクチャ

対照的に、YOLOv5 PyTorchでネイティブに設計YOLOv5 。 PyTorchでネイティブに設計されています。これは学術研究と企業生産の両方の業界標準です。YOLOv5は、優れた勾配流れとパラメータ効率で知られる改良版CSPDarknet53バックボーンを採用しています。

YOLOv5の特長は、トレーニング前に特定のカスタムデータセットに基づいてアンカーボックスサイズを動的にチェックし、調整するAutoAnchorアルゴリズムです。これにより、バウンディングボックスの手動ハイパーパラメータチューニングが不要になります。モデルのPath Aggregation Network (PANet) ネックは、堅牢なマルチスケール特徴融合を保証し、様々なサイズの物体をdetectするのに非常に効果的です。

効率化されたPyTorch

YOLOv5はPyTorch上に直接構築されているため、ONNXやTensorRTのような最適化された形式へのエクスポートは、ローカライズされたフレームワークに縛られたモデルよりも大幅に少ないミドルウェア構成で済みます。

パフォーマンス分析

これらのモデルを評価するには、平均精度（mAP）とレイテンシのトレードオフを考慮する必要があります。以下の表は、異なるモデルサイズにおけるメトリクスを示しています。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

一方、PP-YOLOE+はより大きなスケール（Xバリアントなど）において非常に競争力mAP を達成している。 YOLOv5 優れた速度と少ないパラメータ数YOLOv5 スペクトルのより小さい端で。YOLOv5 Nano（YOLOv5n)はわずか260万のパラメータしか必要とせず、メモリ要件が厳しい制約のあるエッジデバイスに非常に適しています。さらに、YOLOモデルのトレーニングは、重いトランスフォーマーベースの代替モデルと比較して、通常、消費するCUDAメモリが少なくなります。 RT-DETR.

Ultralyticsの利点

アーキテクチャを選択する際、生のメトリクスは考慮要素の一部に過ぎません。開発者体験、エコシステムサポート、デプロイメントパイプラインが、プロジェクトの実世界の成功を左右することが多いのです。Ultralytics 発揮されます。

比類のない使いやすさ

Ultralytics Python 複雑な定型コードをUltralytics 。開発者はトレーニングの開始、性能の検証、モデルのデプロイをシームレスに行えます。ドキュメントは充実しており、高度にメンテナンスされ、大規模なグローバルなオープンソースコミュニティによってサポートされています。

タスクを横断する汎用性

PP-YOLOE+は専用の物体検出器ですが、Ultralytics 単一の統合APIのもとで複数のコンピュータビジョンタスクに取り組むことが可能です。YOLOv5その後継モデルを用いれば、標準的なバウンディングボックスから画像セグメンテーションや分類ワークフローへ、シームレスに移行できます。

コード例：YOLOv5のトレーニング

開始にはわずか数行のコードのみが必要です。この簡便さにより、研究開発サイクルが大幅に加速されます。

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

実際のユースケース

PP-YOLOE+を選択するタイミング: 貴社がBaiduソフトウェアスタックに深く組み込まれている場合、またはPaddlePaddleフレームワークを必須とする特殊なハードウェアに大きく依存している場合、PP-YOLOE+は堅実な性能を発揮します。アジア全域の特殊な製造パイプラインで、Paddleとのレガシー統合が存在する場合に頻繁に利用されています。

YOLOv5を選択するタイミング: 大多数の国際的な開発者、研究者、および企業にとって、YOLOv5は依然として強力な存在です。そのPyTorchを基盤とする特性は、Weights & Biasesのようなツールとのtrack互換性を即座に意味し、NVIDIA GPUアクセラレーション用のTensorRTやAppleデバイス用のCoreMLにきれいにエクスポートできます。農業作物監視から高速ドローン航法まで、多様な分野で優れた性能を発揮します。

検知技術の未来：Ultralytics

YOLOv5 象徴的なYOLOv5 、コンピュータビジョンの最先端技術は進化を続けています。新規開発においては、2026年1月にリリースされたYOLO26への移行を強く推奨します。Ultralytics シームレスに利用可能なYOLO26は、効率性を完全に再定義します。

YOLO26についてさらに詳しく

YOLO26の主な革新点：

エンドツーエンドのNMSフリー設計: YOLO26はNon-Maximum Suppression後処理を完全に排除します。これにより、レイテンシのばらつきが低減され、デプロイメントパイプラインが大幅に簡素化されます。
最大43%高速なCPU推論: Distribution Focal Loss (DFL) を戦略的に削除することで、YOLO26 は GPU を持たないエッジデバイスで劇的に速度を向上させます。
MuSGD オプティマイザ: 主要な大規模言語モデルから着想を得たこのハイブリッドオプティマイザは、トレーニングダイナミクスを安定させ、カスタムデータセットでの大幅な高速収束を可能にします。
タスク固有の強化: ProgLossやSTALのような高度な損失関数を特徴とし、微小オブジェクトに対して前例のない精度を実現します。航空画像に対するOriented Bounding Box (OBB)検出をネイティブにサポートします。

最先端のビジョンモデルを探求しているなら、前世代モデルとの比較にも興味があるかもしれません YOLO11 や、トランスフォーマーベースの手法である RT-DETRといった手法との比較も有用でしょう。結局のところ、堅牢なエコシステムと最先端のアーキテクチャ進歩が相まって、Ultralytics 現代のコンピュータビジョンタスクにおける最良の選択肢Ultralytics 地位を確固たるものにしています。