Link to this sectionPP-YOLOE+ vs YOLOv5#

コンピュータビジョンのために適切なディープラーニングフレームワークを選択する際、開発者はスピード、精度、デプロイの容易さの完璧なバランスを見つけるために、さまざまなアーキテクチャの機能を比較することがよくあります。本記事では、PP-YOLOE+とYOLOv5の技術的な違いについて詳しく解説します。アーキテクチャ、パフォーマンスメトリクス、そして理想的なデプロイシナリオを分析することで、リアルタイムロボティクス、エッジデプロイ、クラウドベースのビデオ解析など、次に行うプロジェクトにとって最適な意思決定ができるようになります。

Link to this sectionモデルの起源とメタデータ#

両モデルとも非常に有能なエンジニアリングチームによって開発されていますが、ターゲットとするエコシステムはわずかに異なります。その背景を理解することは、アーキテクチャ設計の選択に関する貴重なコンテキストを提供します。

PP-YOLOE+の詳細:

著者: PaddlePaddle Authors
組織: Baidu
日付: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/PaddlePaddle/PaddleDetection/
Docs: PaddleDetection README

PP-YOLOE+の詳細はこちら

YOLOv5の詳細:

作成者：Glenn Jocher
組織：Ultralytics
日付：2020年6月26日
GitHub: https://github.com/ultralytics/yolov5
Docs: https://docs.ultralytics.com/models/yolov5/

YOLOv5の詳細はこちら

Link to this sectionアーキテクチャの比較#

Link to this sectionPP-YOLOE+ のアーキテクチャ#

PP-YOLOE+はBaiduエコシステムにおける進化であり、PP-YOLOv2のような以前のモデルの基盤の上に構築されています。これは高度に最適化されたCSPRepResNetバックボーンを導入しており、Cross Stage Partial (CSP) ネットワークの原則と再パラメータ化技術を組み合わせることで、特徴抽出を強化しています。これにより、トレーニング中に高い精度を維持しながら、より高速な推論のためにアーキテクチャを効率化することが可能になります。

さらに、PP-YOLOE+はTask Alignment Learning (TAL) とEfficient Task-aligned head (ET-head) を採用しています。この組み合わせは、密なオブジェクト検出器において共通のボトルネックとなっている、分類タスクと位置特定タスクの不整合を解決することを目的としています。構造的には優れていますが、このアーキテクチャはPaddlePaddle frameworkと密接に結びついており、他の主流のMLライブラリで標準化を進めているチームにとっては統合上の課題となる可能性があります。

Link to this sectionYOLOv5のアーキテクチャ#

対照的に、YOLOv5は学術研究および企業でのプロダクションの両方で業界標準となっているPyTorchでネイティブに設計されました。優れた勾配フローとパラメータ効率で知られる、改良されたCSPDarknet53バックボーンを利用しています。

YOLOv5の特徴は、トレーニング前に特定のカスタムデータセットに基づいてアンカーボックスのサイズを動的に確認および調整するAutoAnchorアルゴリズムです。これにより、バウンディングボックスのハイパーパラメータを手動で調整する必要がなくなります。モデルのPath Aggregation Network (PANet) ネックは堅牢なマルチスケール特徴融合を保証し、さまざまなサイズのオブジェクト検出において非常に高い効果を発揮します。

合理化された PyTorch デプロイメント

YOLOv5はPyTorchで直接構築されているため、ONNXやTensorRTのような最適化されたフォーマットへのエクスポートには、特定のフレームワークに依存したモデルよりも、はるかに少ないミドルウェア構成で済みます。

Link to this sectionパフォーマンス分析#

これらのモデルを評価するには、mean Average Precision (mAP) とレイテンシのトレードオフを考慮する必要があります。以下の表は、異なるモデルサイズ間でのメトリクスを示しています。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	パラメータ ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

PP-YOLOE+は大規模なスケール（Xバリアントなど）で非常に競争力のあるmAPスコアを達成しますが、YOLOv5はスペクトルの小さい側で優れたスピードと少ないパラメータ数を提供します。YOLOv5 Nano (YOLOv5n) はわずか260万パラメータしか必要としないため、メモリ要件が厳しい制約のあるエッジデバイスに非常に適しています。さらに、YOLOモデルのトレーニングは、RT-DETRのような重いTransformerベースの代替手段と比較して、一般的に消費するCUDAメモリが少なくて済みます。

Link to this sectionUltralyticsの利点#

アーキテクチャを選択する際、生のメトリクスは要素の一部に過ぎません。開発者体験、エコシステムのサポート、デプロイパイプラインが、プロジェクトの現実世界での成功を左右することがよくあります。ここでUltralyticsモデルが真価を発揮します。

Link to this section比類なき使いやすさ#

Ultralytics用のPython APIは、複雑なボイラープレートコードを抽象化します。開発者はトレーニングの開始、パフォーマンスの検証、モデルのデプロイをシームレスに行うことができます。ドキュメントは広範かつ高度にメンテナンスされており、世界中の膨大なオープンソースコミュニティによってサポートされています。

Link to this sectionタスク間での汎用性#

PP-YOLOE+は専用のオブジェクト検出器ですが、Ultralyticsエコシステムを使用すると、単一の統合APIの下で複数のコンピュータビジョンタスクに取り組むことができます。YOLOv5とその継承モデルを使用すれば、標準的なバウンディングボックスからImage Segmentationおよび分類ワークフローへ簡単に移行できます。

Link to this sectionコード例: YOLOv5のトレーニング#

開始するには、わずか数行のコードが必要です。このシンプルさが、研究開発サイクルを大幅に加速させます。

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Link to this section実際のユースケース#

PP-YOLOE+を選択すべき場面: 組織がBaiduのソフトウェアスタックに深く組み込まれている場合や、PaddlePaddleフレームワークを必須とする特殊なハードウェアに大きく依存している場合、PP-YOLOE+は堅実なパフォーマンスを発揮します。これは、Paddleとのレガシー統合が存在するアジア各地の特殊な製造パイプラインで頻繁に利用されています。

YOLOv5を選択すべき場面: 世界中の大多数の開発者、研究者、および企業にとって、YOLOv5は依然として強力なツールです。そのPyTorchのルーツは、トラッキングのためのWeights & Biasesのようなツールと即座に互換性があることを意味し、NVIDIA GPUアクセラレーションのためのTensorRTやAppleデバイスのためのCoreMLへクリーンにエクスポートできます。農作物の監視から高速ドローンナビゲーションまで、幅広い分野で優れた性能を発揮します。

Link to this section検出の未来: Ultralytics YOLO26#

YOLOv5は象徴的なモデルですが、コンピュータビジョンの最前線は進歩しています。すべての新規開発については、2026年1月にリリースされたYOLO26への移行を強く推奨します。Ultralytics Platformを通じてシームレスに利用できるYOLO26は、効率性を完全に再定義します。

YOLO26の詳細はこちら

YOLO26における主なイノベーション:

エンドツーエンドのNMSフリー設計: YOLO26はNon-Maximum Suppression (NMS) の後処理を完全に排除しました。これにより、レイテンシの変動が低減され、デプロイパイプラインが大幅に簡素化されます。
最大43%高速なCPU推論: Distribution Focal Loss (DFL) を戦略的に削除することで、YOLO26はGPUのないエッジデバイスでのスピードを劇的に向上させました。
MuSGDオプティマイザ: 主要な大規模言語モデルに触発されたこのハイブリッドオプティマイザは、トレーニングのダイナミクスを安定させ、カスタムデータセット上での収束を大幅に高速化します。
タスク固有の強化: ProgLossやSTALのような高度な損失関数を搭載しており、小さなオブジェクトに対して前例のない精度を実現します。また、航空画像用のOriented Bounding Box (OBB)検出をネイティブでサポートしています。

最新のビジョンモデルを検討している場合は、前世代のYOLO11やRT-DETRのようなTransformerベースのアプローチとの比較にも興味があるかもしれません。最終的に、堅牢なエコシステムと最先端のアーキテクチャの進歩が組み合わさることで、Ultralyticsは現代のコンピュータビジョンタスクにとって最高の選択肢となります。

貢献者

GLglenn-jocher¹⁵

作成日 2025年1月27日更新日 3 週間前