YOLOv9 PP-YOLOE+の比較:技術的な比較
最適な物体検出アーキテクチャを選択することは、コンピュータビジョンエンジニアにとって極めて重要な決断であり、高精度の必要性と計算上の制約とのバランスをとる必要がある。この包括的なガイドでは YOLOv9と、PaddlePaddle フレームワーク用に最適化されたロバストな検出器であるPP-YOLOE+を比較しています。アーキテクチャの革新性、ベンチマークの性能、導入の適性を分析し、コンピュータ・ビジョン・アプリケーションに最適なものを判断できるようにします。
YOLOv9:学習効果を高めるプログラム可能な勾配情報
YOLOv9は、リアルタイム物体検出器の進化における大きな飛躍を意味する。2024年初頭にリリースされたYOLOv9は、ディープニューラルネットワークにおける情報損失に関する根本的な問題に対処し、精度とパラメータ効率に関する新たなベンチマークを設定する。
著者Chien-Yao Wang and Hong-Yuan Mark Liao
Organization:Institute of Information Science, Academia Sinica, Taiwan
Date:2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Documentationultralytics
このアーキテクチャは2つの画期的なコンセプトを導入している:プログラム可能な勾配情報(PGI)と一般化された効率的なレイヤー集約ネットワーク(GELAN)である。ネットワークが深くなるにつれて、損失関数を計算するために不可欠なデータが失われることがある。PGIは、補助的な可逆分岐を経由して信頼性の高い勾配を生成することでこの現象を解決し、深い特徴が重要な情報を保持することを保証します。同時に、GELANはパラメータ利用を最適化し、深さ方向の畳み込みに基づくアーキテクチャと比較して、より少ない計算資源で優れた精度を達成することを可能にする。
Ultralytics エコシステムに統合されたYOLOv9 、複雑なワークフローを簡素化するユーザー中心の設計が特徴です。開発者は、トレーニング、検証、デプロイメントに統一されたPython APIを活用することができ、プロトタイプから製品化までの時間を大幅に短縮することができます。この統合はまた、幅広いデータセットとエクスポートフォーマットとの互換性を保証します。
PP-YOLOE+: PaddlePaddleエコシステム内での高精度
PP-YOLOE+は、バイドゥがPaddleDetectionスイートの一部として開発したPP-YOLOEの進化版である。で効率的に動作するように特別に設計されている。 PaddlePaddleフレームワーク上で効率的に動作するように特別に設計されており、産業用アプリケーション向けに速度と精度の強力なバランスを提供している。
著者 PaddlePaddle Authors
Organization:Baidu
Date:2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
DocumentationPaddlePaddle
PP-YOLOE+はアンカーフリーのメカニズムを採用し、あらかじめ定義されたアンカーボックスの必要性を排除することで、ハイパーパラメータのチューニングプロセスを簡素化します。PP-YOLOE+のバックボーンには通常CSPRepResNetが使用され、Task Alignment Learning (TAL)によるユニークなヘッドデザインが特徴です。このアプローチは分類とローカライゼーションのタスクを整列させ、検出結果の質を向上させる。PP-YOLOE+は高い能力を持つ一方で、PaddlePaddle エコシステムと緊密に結合しているため、PyTorchに標準化されたチームにとっては学習曲線となる可能性がある。 PyTorchやTensorFlow標準化されているチームにとっては学習曲線となる。
生態系への依存
PP-YOLOE+は競争力のあるパフォーマンスを提供する一方で、PaddlePaddle フレームワークに依存しているため、欧米の研究コミュニティで一般的に使用されている幅広いPyTorchツールやライブラリとの相互運用性が制限される可能性がある。
性能分析:速度、精度、効率
この2つのアーキテクチャを比較すると YOLOv9は、パラメータ効率とピーク精度の両方において明らかな優位性を示している。GELANの統合により、YOLOv9 視覚データをより効率的に処理できるようになり、その結果、COCO データセットの 平均平均精度(mAP)スコアが高くなる一方、レイテンシが低く維持されることが多い。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
主なポイント
- パラメータ効率: YOLOv9モデルは、PP-YOLOE+tモデルの4.85Mよりも大幅に少ない2.0Mのパラメータしか使用せずに、より大きなモデルに匹敵する性能を達成しています。このため、YOLOv9 、ストレージが限られたエッジAIデバイスに特に適しています。
- ピーク精度:YOLOv9、約40%少ないパラメータ(57.3M対98.42M)にもかかわらず、最大のPP-YOLOE+xモデル(54.7%mAP)を上回る、驚くべき55.6%mAP達成した。これは、特徴抽出能力を最大化するGELANのアーキテクチャ上の優位性を浮き彫りにしている。
- 推論速度:T4 GPUでは、PP-YOLOE+sが未加工レイテンシでわずかに優位を示すが、YOLOv9 モデルは一般的にトレードオフが優れており、同程度の計算コストで大幅に高い精度を実現する。例えば、YOLOv9、高速(7.16ms対8.36ms)かつ軽量でありながら、精度(53.0%対52.9%)でPP-YOLOE+lを上回っています。
トレーニング方法と使いやすさ
開発者のエクスペリエンスは2つのモデルで大きく異なるが、その主な要因は基盤となるフレームワークとエコシステムのサポートである。
Ultralytics エコシステムの優位性
選択 YOLOv9Ultralytics 経由することで、機械学習のライフサイクルを合理化するために設計された包括的なツール群にアクセスできます。
- シンプルなAPI:モデルのトレーニングに必要なコードは数行のみで、複雑な定型文は抽象化されている。
- メモリ効率: Ultralytics YOLO モデルは、トランスフォーマーベースのアーキテクチャと比較して、トレーニング中のメモリ使用量が少なくなるように最適化されているため、コンシューマーグレードのハードウェアでより大きなバッチサイズを実行できます。
- 汎用性:検出だけでなく、Ultralytics フレームワークはインスタンスのセグメンテーション、ポーズ推定、分類をサポートし、多様なタスクに統一されたインターフェースを提供します。
- 効率的なトレーニング:高度なデータ増強と、すぐに利用可能な事前学習済みの重みにより、開発者はより早く収束を達成し、貴重なGPU 時間を節約することができます。
Ultralyticsワークフローの合理化
自動化されたハイパーパラメータ・チューニングと実験追跡のための堅牢なUltralytics エンジンを活用し、わずか数行のPython YOLOv9 モデルをロード、トレーニング、検証することができます。
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
PaddlePaddle 環境
PP-YOLOE+はPaddleDetectionライブラリを必要とする。PP-YOLOE+は強力ですが、Baiduのエコシステムに精通している必要があります。環境のセットアップ、データセットの必要なフォーマットへの変換、および展開のためのモデルのエクスポートは、PaddlePaddle インフラストラクチャにまだ組み込まれていないユーザーにとっては、より複雑な作業となる可能性があります。
理想的なユースケース
各モデルの長所を理解することは、特定の実世界のアプリケーションに適したツールを選択するのに役立つ。
YOLOv9選ぶとき
- 自律システム:精度を最大限に高めることが安全にとって重要な自動運転車やロボット工学にとって、YOLOv9Eの優れたmAP 必要な信頼性を提供します。
- エッジ展開:軽量なYOLOv9、Raspberry PiやNVIDIA Jetsonデバイスに搭載し、人数のカウントやスマート小売分析などのタスクに最適です。
- 研究開発: 整備されたエコシステムとPyTorch サポートにより、新しいコンピュータビジョンソリューションのプロトタイピングやオブジェクトトラッキング機能の統合を行う研究者に最適です。
- リソースに制約のある環境限られたVRAMで高いパフォーマンスを必要とするアプリケーションは、YOLOv9効率的なアーキテクチャと低いメモリフットプリントから恩恵を受けます。
PP-YOLOE+を選ぶとき
- PaddlePaddle ユーザー:すでに百度のインフラを利用している企業にとって、PP-YOLOE+はシームレスな統合とネイティブな最適化を提供します。
- 工業検査(中国):アジア市場での採用率が高いため、特定のパドル推論ハードウェアに依存する製造パイプラインでよく見られる。
結論
どちらのモデルも、物体検出の分野では手ごわい競争相手だ、 YOLOv9は、グローバルな開発者や企業の大多数にとって、より優れた選択肢として浮上しています。その革新的なプログラマブル勾配情報(PGI)の使用は、顕著な効率で最先端の精度を実現し、大幅に少ないパラメータを使用しながら、主要な指標でPP-YOLOE+を凌駕しています。
さらに、Ultralytics エコシステムは、比類のない使いやすさ、広範なドキュメント、活気あるコミュニティを提供することで、YOLOv9 向上させます。セキュリティアラームシステムの構築、医療画像の分析、スマートシティインフラの開発など、YOLOv9 成功に必要なパフォーマンスバランスと汎用性を提供します。
検討すべきその他のモデル
最先端のビジョンAIをお探しなら、Ultralytics他の強力なモデルもご検討ください:
- YOLO11:YOLO シリーズの最新の進化形。最先端アプリケーションのために、さらなる高速化と高精度を実現。
- YOLOv8:検出、セグメンテーション、ポーズ、OBBタスクをサポートする汎用性の高い業界標準。
- RT-DETR:CNNベースのアーキテクチャに代わる、精度に優れたリアルタイム変換器ベースの検出器。