PP-YOLOE+ 対 YOLOv9: 現代の物体検出に関する技術的な深掘り

リアルタイムコンピュータビジョンの領域は絶えず変化しており、研究者や開発者は精度と推論速度の限界を常に押し広げています。PP-YOLOE+YOLOv9を比較する場合、モデルアーキテクチャとエコシステム設計における2つの異なる哲学に着目する必要があります。

この包括的な技術比較では、アーキテクチャの革新、パフォーマンス指標、トレーニング手法、および理想的なユースケースを分析し、次回の導入に最適な物体検出モデルを選択する一助とします。

モデルの系統と技術的基盤

これらのモデルの起源とアーキテクチャ上の選択を理解することは、コンピュータビジョンプロジェクトへの適合性を判断する上で不可欠です。

PP-YOLOE+ 概要

BaiduのPaddlePaddleチームによって開発されたPP-YOLOE+は、2022年4月2日に導入されました。これはPaddleDetectionフレームワーク内の以前の反復に基づいて構築されており、高性能な物体検出を実現します。

PP-YOLOE+は堅牢なアンカーフリーアーキテクチャを導入しており、PaddlePaddleエコシステム内でのデプロイに大きく最適化されています。修正されたCSPRepResNetバックボーンとET-headを利用して、特徴抽出とバウンディングボックス回帰を改善します。高いmAP (mean Average Precision)を実現する一方で、PaddlePaddleフレームワークへの依存は、PyTorchやTensorFlowに慣れた開発者にとって統合上の障壁となる場合があります。

PP-YOLOE+の詳細はこちら

YOLOv9の概要

台湾の中央研究院情報科学研究所のChien-Yao Wang氏とHong-Yuan Mark Liao氏によって導入されたYOLOv9は、ディープラーニングの情報ボトルネックを効率的に処理する上で大きな飛躍を示しています。

  • 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
  • 組織: 台湾 中央研究院 情報科学研究所
  • 日付: 2024-02-21
  • Arxiv: 2402.13616
  • GitHub: WongKinYiu/yolov9

YOLOv9の主要なブレークスルーは、深層ニューラルネットワークを通る際の特徴量データ損失を防ぐProgrammable Gradient Information (PGI)です。Generalized Efficient Layer Aggregation Network (GELAN)と組み合わせることで、YOLOv9はパラメータ効率と計算フローを最大化します。さらに、Ultralyticsエコシステムにネイティブ統合されており、研究および商用アプリケーションの両方で極めて利用しやすくなっています。

YOLOv9の詳細はこちら

その他のUltralyticsモデル

最先端の選択肢を検討している場合は、Transformerベースの精度とリアルタイムのエッジパフォーマンスのバランスを提供するYOLO11RT-DETRにも興味があるかもしれません。

パフォーマンスとメトリクスの比較

生パフォーマンスを分析すると、YOLOv9は並外れたパラメータ効率を示します。より少ないパラメータとFLOPsで同等またはそれ以上の精度を達成しており、これはモデルトレーニング中のVRAM要件の低下につながります。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

表に見られるように、YOLOv9cは、比較対象のPP-YOLOE+l (52.2M)よりも大幅に少ないパラメータ数(25.3M)で、53.0 mAPという強力なスコアを達成しています。このメモリ使用量の少なさは、GPUリソースが限られた環境で開発を行う開発者にとって、YOLOv9を優れた選択肢としています。

エコシステム、汎用性、および使いやすさ

YOLOv9の決定的な利点は、適切に保守されたUltralyticsエコシステムとのシームレスな統合にあります。PP-YOLOE+は複雑なPaddlePaddle設定ファイルを扱う必要がありますが、YOLOv9は合理化されたPython APIの恩恵を受けています。

Ultralytics Python APIを使用すると、開発者は最小限のボイラープレートコードで、学習済み重みのロード、データ拡張の管理、およびトレーニングの開始を行うことができます。

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to ONNX format
model.export(format="onnx")

さらに、Ultralyticsエコシステムは比類のない汎用性を提供します。バウンディングボックス検出を超えて、このフレームワークはインスタンスセグメンテーション姿勢推定、および方向付きバウンディングボックス (OBB)検出をネイティブでサポートしています。これにより、複雑な現実世界のパイプラインへモデルを適応させることが非常に効率的になります。

エクスポートオプション

Ultralyticsフレームワークを使用してトレーニングされたモデルは、TensorRTOpenVINOを含む複数の形式にエクスポートでき、多様なハードウェア間で高度に最適化された推論を保証します。

ユースケースと推奨事項

PP-YOLOE+とYOLOv9の選択は、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みに依存します。

PP-YOLOE+を選択すべき時

PP-YOLOE+が適しているケース:

  • PaddlePaddleエコシステム統合: BaiduのPaddlePaddleフレームワークとツールの上に構築された既存のインフラストラクチャを持つ組織。
  • Paddle Liteエッジ展開: Paddle LiteまたはPaddle推論エンジン向けに特別に高度に最適化された推論カーネルを持つハードウェアへの展開。
  • 高精度のサーバーサイド検出: フレームワークの依存関係が懸念されない強力なGPUサーバーで、最大の検出精度を優先するシナリオ。

YOLOv9を選択すべき場合

YOLOv9は以下の場合に推奨されます:

  • 情報のボトルネック研究: プログラマブル勾配情報 (PGI) および Generalized Efficient Layer Aggregation Network (GELAN) アーキテクチャを研究する学術プロジェクト。
  • 勾配フロー最適化の研究: 学習中の深層ネットワーク層における情報の損失を理解し、軽減することに焦点を当てた研究。
  • 高精度検出のベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要なシナリオ。

Ultralytics (YOLO26) を選択すべき場合

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:

  • NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
  • 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。

未来へ:YOLO26の利点

PP-YOLOE+とYOLOv9はいずれも強力ですが、新たにリリースされたYOLO26は、本番環境に向けた決定的な次の一歩を体現しています。2026年1月にリリースされたYOLO26は、エッジコンピューティングとクラウドデプロイの新しい標準を確立します。その画期的な革新性により、すべての新しいコンピュータビジョンプロジェクトにYOLO26を強く推奨します:

  • エンドツーエンドのNMS不要設計: YOLO26はネイティブでエンドツーエンドであり、非最大値抑制 (NMS) 後処理の必要性を完全に排除します。これにより、デプロイパイプラインが大幅に簡素化され、遅延が低減されます。
  • 最大43%高速なCPU推論: アーキテクチャをエッジコンピューティング向けに特化して最適化することで、YOLO26は専用GPUを持たないハードウェア上でも大幅に高速です。
  • DFLの削除: Distribution Focal Lossが削除されたことで、エクスポートがよりシンプルになり、低電力エッジデバイスとの互換性が劇的に向上しました。
  • MuSGDオプティマイザー: 大規模言語モデルのトレーニング手法(Moonshot AIのKimi K2など)に着想を得たこのSGDとMuonのハイブリッドは、非常に安定したトレーニングダイナミクスと迅速な収束を保証します。
  • ProgLoss + STAL: これらの高度な損失関数は、航空写真ロボティクスにとって不可欠なアップグレードである、小さな物体の認識において顕著な改善をもたらします。
  • タスク固有の改善: YOLO26には、セグメンテーション用のマルチスケールプロトや、姿勢推定用のResidual Log-Likelihood Estimation (RLE)など、特定のタスク向けのカスタマイズされたアーキテクチャが含まれています。

データセットのアノテーション、クラウドトレーニング、およびモデル監視のためのオールインワンソリューションであるUltralytics Platformを通じて、YOLO26モデルを簡単にトレーニングおよびデプロイできます。

実世界の応用例

これらのアーキテクチャを選択する際は、多くの場合、ターゲットとするデプロイ環境に基づいて決定されます。

**PP-YOLOE+**は、PaddlePaddleの統合とBaiduのハードウェアスタックがエンタープライズインフラに深く組み込まれている地域を中心に、工業製造センターで頻繁に導入されています。絶対的な精度が厳格なリアルタイムの制約よりも優先される静止画像分析において優れた性能を発揮します。

YOLOv9は、迅速なリアルタイム推論が求められる動的な環境で優れた性能を発揮します。その優れたパラメータ効率により、自律型ドローンのナビゲーションやエッジベースのセキュリティシステムに最適です。さらに、その低いVRAM消費量は、一般的なGPUでトレーニングを行う研究者にとっての参入障壁を下げています。

スマートシティの交通管理や高速ロボティクス全体において最高のパフォーマンスを発揮するには、NMSボトルネックのオーバーヘッドなしでエンドツーエンドの効率を提供する新しいYOLO26が比類のない選択肢となります。

コメント