コンテンツにスキップ

PP-YOLOE+とYOLOv7比較:物体検出アーキテクチャの技術的深掘り

最適な物体検出モデルを選択するには、精度、推論速度、展開の複雑さのバランスを取る必要がある。PP-YOLOE+とYOLOv7であり、いずれも最先端の性能の向上を目指して2022年にリリースされた。この包括的な分析では、両者のユニークなアーキテクチャ、ベンチマーク、および実世界のアプリケーションへの適合性を調査し、開発者がデータ駆動型の意思決定を行えるよう支援します。

パフォーマンス指標の比較

以下の表は、サポートされているハードウェア上での平均平均精度(mAP)や推論速度などの主要なパフォーマンスメトリクスの直接比較を示しています。このデータは、PP-YOLOE+のアンカーフリーアプローチとYOLOv77の最適化アーキテクチャのトレードオフを可視化するのに役立ちます。

モデルサイズ
(ピクセル)
mAP
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

PP-YOLOE+:洗練されたアンカーなし検出

PP-YOLOE+は、百度の研究者によって開発されたPPYOLO YOLOシリーズの進化版である。前身であるPP-YOLOEの長所をベースに、学習プロセスとアーキテクチャに改良を加え、収束速度と下流タスクのパフォーマンスをさらに向上させています。アンカーフリー検出器として、事前に定義されたアンカーボックスの必要性を排除し、設計を簡素化し、ハイパーパラメータのチューニングを軽減します。

PP-YOLOE+の詳細について。

建築ハイライト

PP-YOLOE+のアーキテクチャは、様々な受容野を備えたCSPResNetバックボーンを特徴としており、複数のスケールの特徴を効果的に捉えることができる。重要な革新的技術はET-head(Efficient Task-aligned Head)であり、分類タスクと回帰タスクを切り離すと同時に、特定の損失関数によってそれらの整列を保証する。

PP-YOLOE+はタスクアライメント学習(TAL)を利用しており、分類とローカライゼーションの品質の整合性に基づいてポジティブなサンプルを動的に選択するラベル割り当て戦略である。これにより、学習中にモデルが高品質な予測に集中することが保証される。さらに、このモデルは分散学習戦略を採用し、非標準演算子の使用を避けることで、PaddlePaddle エコシステムがサポートするさまざまなハードウェアプラットフォームへの展開を容易にしています。

主な特徴アンカー・フリー設計

アンカーボックスを削除することで、PP-YOLOE+はアンカーのクラスタリングとマッチングのステップに関連する複雑さを軽減します。これにより、オブジェクトが極端なアスペクト比を持つ可能性のある多様なデータセットにおいて、より優れた一般化が可能になります。

YOLOv7:リアルタイムスピードの最適化

YOLOv7は、リリースと同時にリアルタイム物体検出の新たなベンチマークを設定し、アーキテクチャの効率性と「bag-of-freebies」手法(推論コストを増加させることなく精度を向上させる技術)に重点を置いた。YOLORやYOLOv5 ような従来の最先端モデルを、速度と精度の両面で上回るように設計されている。

YOLOv7もっと知る

建築イノベーション

YOLOv7 拡張効率的レイヤ集約ネットワーク(E-ELAN)を導入した。このバックボーン設計により、ネットワークは最短および最長の勾配パスを制御することで、より多様な機能を学習することができ、元の勾配パスを破壊することなく学習能力を高めることができる。

もう一つの大きな貢献は、モデルの再パラメータ化である。学習時、モデルはマルチブランチ構造を使用し、推論時にはよりシンプルなシングルブランチ構造に統合される。これにより、YOLOv7 学習時に豊富な特徴表現の恩恵を受けながら、展開時に高速性を維持することができる。また、このモデルはディープネットワークの学習に補助ヘッドを採用し、「粗から細へ」のリードガイドラベル割り当て戦略を用いている。

比較分析:強みと弱み

この2つの強力なモデルのどちらを選ぶかを決める際には、コンピュータビジョンプロジェクトの具体的な要件を考慮することが不可欠です。

精度とスピードの比較

PP-YOLOE+は、粒ぞろいのモデルを提供している。その PP-YOLOE+s はエッジ・デバイスにとって非常に効率的である。 PP-YOLOE+x は、フレームレートは低いものの、トップレベルのmAP達成している。YOLOv7 、リアルタイム検出の「スイートスポット」において優れており、多くの競合他社と比較して、GPU ハードウェア上で一定の精度レベルに対してより高いFPSを実現することが多い。以下のような高スループット・アプリケーションの場合 トラフィックモニタリングYOLOv7推論最適化は有利だ。

エコシステムとユーザビリティ

PP-YOLOE+は、PaddlePaddleのフレームワークに深く根ざしている。PP-YOLOE+はPaddlePaddle フレームワークに深く根ざしている。PP-YOLOE+はPaddlePaddleフレームワークに深く根ざしているため、強力ではあるが、主にPyTorchいるチームにとっては学習曲線が急になる可能性がある。YOLOv7 PyTorchネイティブであるため、一般的に幅広い研究コミュニティがよりアクセスしやすくなっている。

しかし、どちらのモデルも、現代の標準と比較すると、トレーニングや微調整が複雑になる可能性がある。YOLOv7 複雑なアンカー計算とハイパーパラメータ感度を必要とし、PP-YOLOE+はパドル検出設定をナビゲートする必要がある。

Ultralytics 優位性アップグレードする理由

PP-YOLOE+とYOLOv7 優れたモデルだが、AIの分野は急速に進歩している。例えば YOLOv8や最先端の YOLO11のようなウルトラリティクス・モデルは、次世代の視覚AIを代表するものであり、以前のアーキテクチャーに見られた使いやすさと効率性の課題の多くに対処している。

優れたユーザー体験とエコシステム

Ultralytics 使いやすさを優先しています。他のフレームワークでしばしば必要とされる複雑な設定ファイルとは異なり、Ultralytics モデルは、わずか数行のPython コードまたは簡単なCLI コマンドで学習、検証、デプロイすることができます。

  • 統一されたAPI: オブジェクト検出インスタンス分割分類姿勢推定OBBなどのタスクをシームレスに切り替えられます。
  • 整備されたエコシステム:頻繁なアップデート、盛んなコミュニティ、問題を迅速に解決するための豊富なドキュメントの恩恵を受けることができます。
  • 統合:実験追跡(MLflow、Comet)、データセット管理、ONNX、TensorRT、CoreMLフォーマットへの簡素化されたモデルエクスポートのネイティブサポート。

パフォーマンスと効率

Ultralytics モデルは、最適なパフォーマンスバランスになるように設計されている。多くの場合、YOLOv7 低い計算オーバーヘッドで高い精度を達成する。さらに、メモリ効率が高くなるように設計されているため、必要となる CUDAメモリを必要としないように設計されています。このトレーニング効率により、より高速な反復が可能になり、クラウドコンピューティングのコストが削減されます。

コード例シンプルな動作

従来のワークフローと比較して、最新のUltralytics モデルのトレーニングがいかに簡単かをご覧ください:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (recommended for best performance)
model = YOLO("yolo11n.pt")

# Train the model on a dataset (e.g., COCO8)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX format for deployment
model.export(format="onnx")

プロジェクトの将来性

Ultralytics フレームワークを採用することで、単なるモデルではなく、進化するプラットフォームを使用することができます。最新の Pythonバージョンとハードウェアアクセラレータのサポートにより、技術的負債を減らし、AIソリューションの長期的な保守性を確保します。

結論

PP-YOLOE+は、堅牢なアンカーフリーアーキテクチャを提供し、PaddlePaddle エコシステムに投資している人々にとって強力な選択肢であり続ける。YOLOv7 、生のGPU スループットを必要とするプロジェクトにとって、引き続き強力な選択肢です。YOLOv7は、GPUスループットを必要とするプロジェクトでは引き続き強力な選択肢となりますが、汎用性が高く、ユーザーフレンドリーで、コンピュータビジョンタスクの全領域をカバーする高性能なソリューションを求める開発者には、YOLOv7は最適な選択肢となります、 Ultralytics YOLO11をお勧めします。

その他のモデルを見る

これらの比較により、物体検出の状況について理解を深めてください:


コメント