コンテンツにスキップ

PP-YOLOE+ vs.YOLOv9:現代的な物体検出技術への深い考察

リアルタイムコンピュータビジョンの分野は絶えず変化しており、研究者や開発者は精度と推論速度の限界を絶えず押し広げている。PP-YOLOE+とYOLOv9を比較する際、我々はモデルアーキテクチャとエコシステム設計における二つの異なる哲学を検証している。

この包括的な技術比較では、各モデルのアーキテクチャ上の革新性、性能指標、トレーニング手法、および最適なユースケースを分析し、次回の導入に最適な物体検出モデルを選択するお手伝いをします。

モデル系譜と技術的基盤

これらのモデルの起源とアーキテクチャ上の選択を理解することは、コンピュータビジョンプロジェクトにおける適合性を判断する上で極めて重要です。

PP-YOLOE+の概要

百度のPaddlePaddle によって開発されたPP-YOLOE+は、2022年4月2日に発表されました。これはPaddleDetectionフレームワーク内の過去のバージョンを基盤とし、高性能な物体検出を実現します。

PP-YOLOE+は、PaddlePaddle 内での展開を大幅に最適化した、頑健なアンカーフリーアーキテクチャを導入する。改良版CSPRepResNetバックボーンとETヘッドを活用し、特徴抽出と境界ボックス回帰を改善する。高い平均精度(mAP)を達成する一方で、PaddlePaddle への依存性により、PyTorch TensorFlowに慣れた開発者にとって統合上の摩擦が生じる場合がある。

PP-YOLOE+の詳細について。

YOLOv9の概要

台湾・中央研究院情報科学研究所の王建耀(Chien-Yao Wang)と廖宏源(Hong-Yuan Mark Liao)によって発表されたYOLOv9 、深層学習における情報ボトルネックの効率的な処理において画期的な飛躍をYOLOv9 。

  • 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
  • 組織: Institute of Information Science, Academia Sinica, Taiwan
  • 日付: 2024-02-21
  • Arxiv:2402.13616
  • GitHub:WongKinYiu/yolov9

YOLOv9なYOLOv9プログラマブル勾配情報(PGI)であり、これは特徴量が深層ニューラルネットワークを通過する際にデータ損失を防ぐ。汎用効率的層集約ネットワーク(GELAN)と組み合わせることで、YOLOv9 パラメータ効率と計算フローYOLOv9 。さらに、Ultralytics 統合されているため、研究用途と商用アプリケーションの両方で高いアクセス性を実現している。

YOLOv9について詳しくはこちら

Ultralytics

最先端の選択肢を探しているなら、以下の情報も参考になるかもしれません YOLO11 および RT-DETRもご検討ください。これらは、トランスフォーマーベースの高精度とリアルタイムエッジ性能のバランスをそれぞれ提供します。

パフォーマンスとメトリクスの比較

生の性能を分析すると、YOLOv9 卓越したパラメータ効率YOLOv9 。同等以上の精度を達成しつつ、より少ないパラメータとFLOPsを必要とし、モデル訓練時のVRAM要件の低減につながる。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

表に示す通り、YOLOv9cは比較対象となるPP-YOLOE+l(52.2M)よりも大幅に少ないパラメータ数(25.3M)mAP 53.0mAP 高い性能を達成している。この低いメモリ使用量は、GPU 制約のある環境で開発を行う開発者にとって、YOLOv9 優れたYOLOv9 理由である。

エコシステム、汎用性、そして使いやすさ

YOLOv9 決定的な利点は、整備Ultralytics とのシームレスなYOLOv9 。PP-YOLOE+がPaddlePaddle 操作を必要とする一方で、YOLOv9 合理化Python YOLOv9 。

Ultralytics Python 、開発者が事前学習済み重みをロードし、データ拡張を管理し、最小限の定型コードで学習を開始することを可能にします。

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to ONNX format
model.export(format="onnx")

さらに、Ultralytics 汎用性を提供します。バウンディングボックス検出に加え、このフレームワークはインスタンスセグメンテーション姿勢推定オリエンテッドバウンディングボックス(OBB)検出をネイティブにサポートしています。これにより、複雑な実世界のパイプラインへのモデルの適応が驚くほど効率的になります。

エクスポートオプション

Ultralytics を使用してトレーニングされたモデルは、以下の形式を含む複数の形式にエクスポートできます。 TensorRTOpenVINOなど、多様なハードウェアで高度に最適化された推論を保証します。

ユースケースと推奨事項

YOLOv9 、具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの選好YOLOv9 。

PP-YOLOE+を選択するタイミング

PP-YOLOE+は以下に最適です:

  • PaddlePaddle 統合: 百度のPaddlePaddleフレームワークとツール群を基盤に既存インフラを構築している組織。
  • Paddle Lite Edge Deployment:Paddle Lite または Paddle 推論エンジン向けに高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
  • 高精度サーバーサイド検出:フレームワーク依存を気にせず、高性能GPU 上で最大検出精度を優先するシナリオ。

YOLOv9を選択すべき時

YOLOv9 以下に推奨YOLOv9 :

  • 情報ボトルネック研究:プログラマブル勾配情報(PGI)および汎用効率的層集約ネットワーク(GELAN)アーキテクチャを研究する学術プロジェクト。
  • 勾配フロー最適化研究:深層ネットワーク層における学習中の情報損失の理解と軽減に焦点を当てた研究。
  • 高精度検出ベンチマーク: YOLOv9強力なCOCO 性能が、アーキテクチャ比較の基準点として必要とされるシナリオ。

Ultralytics YOLO26)を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:

  • NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
  • CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
  • 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。

展望:YOLO26の優位性

YOLOv9 はいずれもYOLOv9 、新たにリリースされたYOLO26は実稼働環境における決定的な次の一歩を象徴します。2026年1月にリリースされたYOLO26は、エッジコンピューティングとクラウド展開における新たな基準を確立しました。画期的な革新技術により、すべての新規コンピュータビジョンプロジェクトにYOLO26を強く推奨します:

  • エンドツーエンドNMS設計:YOLO26はネイティブにエンドツーエンドであり、ノンマキシマムサプレッション(NMS)後処理を完全に不要とします。これにより、デプロイメントパイプラインが大幅に簡素化され、レイテンシが低減されます。
  • 最大43%CPU :エッジコンピューティング向けにアーキテクチャを最適化したことで、YOLO26は専用GPUを搭載していないハードウェア上で大幅な高速化を実現しました。
  • DFLの削除:ディストリビューション・フォーカル・ロス(DFL)が削除され、エクスポートが簡素化され、低電力エッジデバイスとの互換性が大幅に向上しました。
  • MuSGDオプティマイザ:大規模言語モデル訓練技術(Moonshot AIのKimi K2など)に着想を得た、SGD ミューオンのハイブリッド手法であり、極めて安定した学習ダイナミクスと高速収束を保証する。
  • ProgLoss + STAL:これらの高度な損失関数は、航空画像や ロボティクスにとって不可欠なアップグレードである小物体認識において顕著な改善をもたらす。
  • タスク特化型改良:YOLO26には、セグメンテーション用のマルチスケールプロトや姿勢推定用の残差対数尤度推定(RLE)など、特定のタスク向けにカスタマイズされたアーキテクチャが含まれています。

Ultralytics を通じて、YOLO26モデルのトレーニングとデプロイを簡単に行えます。これは、データセットの注釈付け、クラウド上でのトレーニング、モデル監視を包括的にサポートするオールインワンソリューションです。

現実世界のアプリケーション

これらのアーキテクチャの選択は、多くの場合、対象となるデプロイ環境によって決まります。

PP-YOLOE+は、特にPaddlePaddle 百度のハードウェアスタックが企業インフラに深く組み込まれている地域において、工業製造拠点で頻繁に導入されています。厳密なリアルタイム制約よりも絶対的な精度が優先される静止画像分析において、その真価を発揮します。

YOLOv9 動的な環境下での高速リアルタイム推論に優れています。優れたパラメータ効率により、自律ドローンのナビゲーションやエッジベースのセキュリティシステムに最適です。さらに、VRAM消費量が少ないため、民生用GPUでトレーニングを行う研究者にとって参入障壁が低くなります。

スマートシティの交通管理と高速ロボティクスにおいて最高のパフォーマンスを実現するには、最新のYOLO26が比類なく優れており、NMS オーバーヘッドなしにエンドツーエンドの効率性を提供します。


コメント