YOLOv9 . PP-YOLOE+:現代的な物体検出技術への深い考察
リアルタイム物体検出の技術は急速に進歩を続け、コンピュータービジョンエンジニアにエッジおよびクラウドインフラ上で高精度モデルを展開するための多様な選択肢を提供している。この分野で特に注目される2つのモデルは YOLOv9とPP-YOLOE+である。両モデルとも精度と速度の限界を押し広げているが、異なる研究系統とソフトウェアエコシステムから生まれたものである。
この包括的な技術比較では、両者のアーキテクチャ、トレーニング手法、パフォーマンス指標、および理想的な実世界での応用例を探ります。さらに、より広範なUltralytics 、使いやすさ、メモリ効率、多様なデプロイメントを優先する開発者にどのような大きな利点をもたらすかも検証します。
モデル起源と技術仕様
これらのモデルの背景を理解することは、そのアーキテクチャ上の決定やフレームワーク依存関係を文脈化するのに役立ちます。
YOLOv9: 情報のボトルネックを解決する
2024年初頭に発表されたYOLOv9 、深層ニューラルネットワークを通過する情報に伴うデータ損失YOLOv9 。これはパラメータ効率を最大化するように設計された、高度に最適化された畳み込みニューラルネットワークである。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- 日付: 2024年2月21日
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
- ドキュメント:Ultralytics YOLOv9 ドキュメント
PP-YOLOE+:パドル・エコシステムの進化
2022年に百度が発表したPP-YOLOE+は、PP-YOLOv2を反復的に改良したモデルである。アンカーフリーパラダイムを採用し、動的ラベル割り当て戦略を導入することで、PaddlePaddle での収束性と精度を向上させている。
- 著者: PaddlePaddle Authors
- 組織: Baidu
- 日付:2022年4月2日
- Arxiv:2203.16250
- GitHub:PaddleDetection
- ドキュメント:PP-YOLOE+ 設定
アーキテクチャの比較
プログラマブル勾配情報 vs. CSPRepResStage
YOLOv9 となる革新はプログラマブル勾配情報(PGI) YOLOv9 。PGIは補助的な監督フレームワークとして機能し、重要な勾配情報が保持され、学習中に浅い層へ正確に伝播されることを保証する。これと組み合わされるのが汎用効率的層集約ネットワーク(GELAN)であり、CSPNetとELANの強みを融合することで高精度を実現しつつ、計算コスト(FLOPs)を大幅に削減する。
PP-YOLOE+は、特殊なバックボーンと呼ばれるものに依存しています。 CSPRepResStage. これは再パラメータ化技術(RepVGGで見られるものと類似)を活用し、デプロイ時に畳み込み層を統合することで推論を高速化する。さらに、分類と回帰タスクのバランスを取るために効率的なタスク整合ヘッド(ET-head)を採用している。
PP-YOLOE+は堅牢である一方、YOLOv9キYOLOv9通常、学習時と推論時の両方でより少ないメモリ使用量を必要とするため、エッジAIデバイスに特に適している。
パフォーマンス比較
モデルを実運用向けに評価する際には、mAP 平均精度)、推論速度、モデルサイズの間でのトレードオフが極めて重要である。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
分析
- パラメータ効率: YOLOv9 著しく高い効率YOLOv9 。例えば、YOLOv9cはわずかmAP .mAP する一方、PP-YOLOe+lは5220万個という倍以上のパラメータを必要とし、わずかにmAP .mAP 達成できない。YOLOv9メモリ要件が大幅に低減される。
- 推論速度: YOLOv9 、TensorRTなどのハードウェアアクセラレータ向けに優れた最適化を実現しています。 TensorRTなどのハードウェアアクセラレータ向けに優れた最適化を実現し、リアルタイム推論に不可欠なNVIDIA GPU上で競争力のある推論速度を達成します。
トレーニング方法論とエコシステム
これらのモデル間の選択は、往々にしてソフトウェアのエコシステムに帰着する。
PP-YOLOE+とPaddlePaddle
PP-YOLOE+はPaddleDetectionスイートと緊密に連携しています。強力な機能を備える一方、設定が複雑でコマンドライン駆動の環境をユーザーが操作する必要があります。PyTorchエコシステムに深く組み込まれたチームにとっては PyTorch または TensorFlow エコシステムに深く組み込まれているチームにとって、PaddlePaddle 移行は大きな摩擦と急峻な学習曲線PaddlePaddle 。
Ultralytics :効率化されたワークフロー
対照的に、YOLOv9 高度に洗練Ultralytics 内でYOLOv9 。開発者と研究者を対象に設計されたUltralytics 、卓越した使いやすさをUltralytics 。Python 複雑な定型コードを完全に抽象化している。
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for production deployment
model.export(format="onnx")
このワークフローは、Ultralytics 優れたトレーニング効率を強調します。データ拡張、分散トレーニング、およびWeights & Biasesなどのプラットフォームへの自動ロギングに対するネイティブサポートにより、 Weights & BiasesやMLflowなどのプラットフォームへの自動ロギングが標準でサポートされています。
最新のビジョンAIを探求する
YOLOv9 卓越した性能YOLOv9 、新たにリリースされた Ultralytics を強く推奨します。YOLO26はネイティブなNMS設計を採用し、デプロイを大幅に簡素化します。DFL除去(ディストリビューションフォーカルロスを除去し、エクスポートを簡素化するとともにエッジ/低電力デバイスとの互換性を向上)により、エッジコンピューティング向け CPU 最大43%高速化します。MuSGDオプティマイザーを搭載し、安定したトレーニングと高速収束を保証します。 さらに、ProgLoss + STALにより損失関数が改善され、IoT・ロボティクス・航空画像処理で重要な小物体認識性能が顕著に向上しています。
汎用性とタスクサポート
現代のコンピュータビジョンプロジェクトは、単純な境界ボックスで終わることはほとんどない。
PP-YOLOE+は主に標準的な物体検出向けに設計されています。他のタスクにそのアーキテクチャを適応させるには、大規模なカスタムエンジニアリングが必要です。
逆に、Ultralytics はマルチタスクの強力なツールです。統一されたAPIを活用することで、開発者は標準的な物体検出から複雑なインスタンスセグメンテーション、高精度な姿勢推定、航空写真向けのオリエンテッドバウンディングボックス(OBB)検出、画像分類へとシームレスに切り替えられます。この比類なき汎用性こそが、企業チームUltralytics YOLOv9 Ultralytics YOLO11、YOLO26といったUltralyticsモデルを継続的に選択する理由です。
理想的なユースケースとアプリケーション
- スマートシティ分析と交通管理:YOLOv9 (および後継のYOLO26)は、制約のあるエッジハードウェア(NVIDIA デバイスなど)への展開に最適であり、交通流や都市の安全監視に活用できる。
- 小売在庫管理システム:棚上の小型物品の密集配置を検出するため、YOLOv9PGIYOLOv9微細な空間的詳細を効果的に維持し、小型物体検出タスクにおいてPP-YOLOE+を上回る性能を発揮する。
- レガシー環境での導入:PP-YOLOE+は、既存のレガシーインフラにおいてPaddlePaddle スタックの使用が明示的に義務付けられているチームに限り、有効な選択肢として残されています。
トランスフォーマーベースのアーキテクチャを研究する開発者向けに、Ultralytics ネイティブで RT-DETR をネイティブでサポートしており、特定のデプロイ要件に最適なモデルを常に利用できるようにします。