コンテンツにスキップ

PP-YOLOE+ vs.YOLOv9:現代的な物体検出技術への深い考察

リアルタイムコンピュータビジョンの分野は絶えず変化しており、研究者や開発者は精度と推論速度の限界を絶えず押し広げている。PP-YOLOE+とYOLOv9を比較する際、我々はモデルアーキテクチャとエコシステム設計における二つの異なる哲学を検証している。

この包括的な技術比較では、各モデルのアーキテクチャ上の革新性、性能指標、トレーニング手法、および最適なユースケースを分析し、次回の導入に最適な物体検出モデルを選択するお手伝いをします。

モデル系譜と技術的基盤

これらのモデルの起源とアーキテクチャ上の選択を理解することは、コンピュータビジョンプロジェクトにおける適合性を判断する上で極めて重要です。

PP-YOLOE+の概要

BaiduのPaddlePaddle開発者によって開発されたPP-YOLOE+は、2022年4月2日に発表されました。これはPaddleDetectionフレームワーク内の以前のイテレーションを基盤としており、高性能な物体検出を実現します。

PP-YOLOE+は、PaddlePaddle 内での展開を大幅に最適化した、頑健なアンカーフリーアーキテクチャを導入する。改良版CSPRepResNetバックボーンとETヘッドを活用し、特徴抽出と境界ボックス回帰を改善する。高い平均精度(mAP)を達成する一方で、PaddlePaddle への依存性により、PyTorch TensorFlowに慣れた開発者にとって統合上の摩擦が生じる場合がある。

PP-YOLOE+の詳細について。

YOLOv9の概要

台湾・中央研究院情報科学研究所の王建耀(Chien-Yao Wang)と廖宏源(Hong-Yuan Mark Liao)によって発表されたYOLOv9 、深層学習における情報ボトルネックの効率的な処理において画期的な飛躍をYOLOv9 。

  • 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
  • 組織: Institute of Information Science, Academia Sinica, Taiwan
  • 日付: 2024-02-21
  • Arxiv:2402.13616
  • GitHub:WongKinYiu/yolov9

YOLOv9なYOLOv9プログラマブル勾配情報(PGI)であり、これは特徴量が深層ニューラルネットワークを通過する際にデータ損失を防ぐ。汎用効率的層集約ネットワーク(GELAN)と組み合わせることで、YOLOv9 パラメータ効率と計算フローYOLOv9 。さらに、Ultralytics 統合されているため、研究用途と商用アプリケーションの両方で高いアクセス性を実現している。

YOLOv9について詳しくはこちら

Ultralytics

最先端の選択肢を探しているなら、以下の情報も参考になるかもしれません YOLO11 および RT-DETRもご検討ください。これらは、トランスフォーマーベースの高精度とリアルタイムエッジ性能のバランスをそれぞれ提供します。

パフォーマンスとメトリクスの比較

生の性能を分析すると、YOLOv9 卓越したパラメータ効率YOLOv9 。同等以上の精度を達成しつつ、より少ないパラメータとFLOPsを必要とし、モデル訓練時のVRAM要件の低減につながる。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

表が示すように、YOLOv9cは53.0 mAPという強力な性能を、同等のPP-YOLOE+l(52.2M)よりも大幅に少ないパラメータ(25.3M)で達成しています。この低いメモリ使用量により、YOLOv9は制約のあるGPUリソースで作業する開発者にとって優れた選択肢となります。

エコシステム、汎用性、使いやすさ

YOLOv9 決定的な利点は、整備Ultralytics とのシームレスなYOLOv9 。PP-YOLOE+がPaddlePaddle 操作を必要とする一方で、YOLOv9 合理化Python YOLOv9 。

Ultralytics Python 、開発者が事前学習済み重みをロードし、データ拡張を管理し、最小限の定型コードで学習を開始することを可能にします。

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to ONNX format
model.export(format="onnx")

さらに、Ultralytics 汎用性を提供します。バウンディングボックス検出に加え、このフレームワークはインスタンスセグメンテーション姿勢推定オリエンテッドバウンディングボックス(OBB)検出をネイティブにサポートしています。これにより、複雑な実世界のパイプラインへのモデルの適応が驚くほど効率的になります。

エクスポートオプション

Ultralytics を使用してトレーニングされたモデルは、以下の形式を含む複数の形式にエクスポートできます。 TensorRTOpenVINOなど、多様なハードウェアで高度に最適化された推論を保証します。

ユースケースと推奨事項

PP-YOLOE+とYOLOv9の選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

PP-YOLOE+を選択するタイミング

PP-YOLOE+は以下に最適です:

  • PaddlePaddleエコシステム統合: BaiduのPaddlePaddleフレームワークとツールに基づいて既存のインフラストラクチャを構築している組織。
  • Paddle Lite Edgeデプロイメント: Paddle LiteまたはPaddle推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
  • 高精度サーバーサイドdetect: フレームワークの依存関係が問題とならない、強力なGPUサーバー上での最大限のdetect精度を優先するシナリオ。

YOLOv9を選択すべき時

YOLOv9 以下に推奨YOLOv9 :

  • 情報ボトルネック研究: プログラマブル勾配情報(PGI)および汎用効率的層集約ネットワーク(GELAN)アーキテクチャを研究する学術プロジェクトです。
  • 勾配フロー最適化研究: トレーニング中の深層ネットワーク層における情報損失の理解と軽減に焦点を当てた研究。
  • 高精度detectベンチマーク: YOLOv9の強力なCOCOベンチマーク性能が、アーキテクチャ比較の参照点として必要とされるシナリオ。

Ultralytics YOLO26)を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

  • NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
  • 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

展望:YOLO26の優位性

YOLOv9 はいずれもYOLOv9 、新たにリリースされたYOLO26は実稼働環境における決定的な次の一歩を象徴します。2026年1月にリリースされたYOLO26は、エッジコンピューティングとクラウド展開における新たな基準を確立しました。画期的な革新技術により、すべての新規コンピュータビジョンプロジェクトにYOLO26を強く推奨します:

  • エンドツーエンドのNMSフリー設計: YOLO26はネイティブにエンドツーエンドであり、Non-Maximum Suppression (NMS) の後処理の必要性を完全に排除します。これによりデプロイメントパイプラインが大幅に簡素化され、レイテンシが低減されます。
  • 最大43%高速なCPU推論: エッジコンピューティング向けにアーキテクチャを特別に最適化することで、YOLO26 は専用 GPU を持たないハードウェアで大幅に高速化されます。
  • DFLの削除: Distribution Focal Lossが削除されたことで、エクスポートが簡素化され、低消費電力エッジデバイスとの互換性が大幅に向上します。
  • MuSGDオプティマイザ: 大規模言語モデルの学習技術 (Moonshot AIのKimi K2など) に触発されたこのSGDとMuonのハイブリッドは、非常に安定した学習ダイナミクスと迅速な収束を保証します。
  • ProgLoss + STAL: これらの高度な損失関数は、航空画像ロボティクスにとって不可欠なアップグレードである小物体認識において、顕著な改善をもたらします。
  • タスク固有の改善: YOLO26は、segmentationのためのマルチスケールプロトやポーズ推定のためのResidual Log-Likelihood Estimation (RLE) など、特定のタスク向けにカスタマイズされたアーキテクチャを含んでいます。

Ultralytics を通じて、YOLO26モデルのトレーニングとデプロイを簡単に行えます。これは、データセットの注釈付け、クラウド上でのトレーニング、モデル監視を包括的にサポートするオールインワンソリューションです。

現実世界のアプリケーション

これらのアーキテクチャの選択は、多くの場合、ターゲットとなるデプロイ環境が決め手となります。

PP-YOLOE+は、産業製造センターで頻繁に導入されており、特にPaddlePaddleの統合とBaiduのハードウェアスタックが企業インフラに深く組み込まれている地域で顕著です。厳密なリアルタイム制約よりも絶対的な精度が優先される静止画像分析において優れた性能を発揮します。

YOLOv9は、迅速なリアルタイム推論を必要とする動的な環境で優れています。その優れたパラメータ効率は、自律型ドローンナビゲーションやエッジベースのセキュリティシステムに最適です。さらに、VRAM消費量が少ないため、コンシューマーグレードGPUでトレーニングを行う研究者にとって参入障壁を低くします。

スマートシティ交通管理および高速ロボット工学全体で最高のパフォーマンスを得るには、新しいYOLO26は比類なく、NMSボトルネックのオーバーヘッドなしでエンドツーエンドの効率を提供します。


コメント