PP-YOLOE+ vs RTDETRv2:技術比較
適切な物体検出モデルの選択には、精度、推論速度、および計算コストの重要なトレードオフが伴います。このページでは、Baiduが開発した2つの強力なモデル、高効率なCNNベースの検出器であるPP-YOLOE+と、最先端のトランスフォーマーベースのモデルであるRTDETRv2の詳細な技術的比較を提供します。どちらも同じ組織から生まれたものですが、異なるアーキテクチャの哲学を表しており、異なるアプリケーションニーズに適しています。
この比較では、コアアーキテクチャ、パフォーマンス指標、理想的なユースケースを検証し、お客様のコンピュータビジョンプロジェクトに最適なモデルを選択できるよう支援します。また、Ultralytics YOLOシリーズのモデルが、よりバランスの取れたユーザーフレンドリーな代替手段をどのように提供できるかについても説明します。
PP-YOLOE+:効率的なCNNベースの検出
PP-YOLOE+ (Practical PaddlePaddle You Only Look One-level Efficient Plus) は、BaiduがPaddleDetectionフレームワークの一部として開発した、高性能なシングルステージ物体検出器です。これは、いくつかの重要な改善を加え、定評のあるYOLOアーキテクチャを基盤として、精度と効率の強力なバランスを提供するように設計されています。
- 著者: PaddlePaddle Authors
- 組織: Baidu
- Date: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Docs: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
アーキテクチャと主な機能
PP-YOLOE+はアンカーフリーな検出器であり、事前定義されたアンカーボックスの必要性をなくし、ハイパーパラメータの調整を減らすことで、検出パイプラインを簡素化します。そのアーキテクチャは、Convolutional Neural Networks(CNN)を基盤としており、いくつかの最新のコンポーネントが含まれています。
- 効率的なバックボーンとネック: 通常、特徴抽出にはResNetまたはCSPRepResNet バックボーンを使用し、複数のスケールにわたる効果的な特徴融合にはPath Aggregation Network (PAN) を使用します。
- Decoupled Head: モデルは検出ヘッドで分類タスクと回帰タスクを分離します。これは、2つのタスク間の干渉を防ぐことで精度を向上させることが知られている手法です。
- Task Alignment Learning (TAL): PP-YOLOE+は、分類スコアとローカリゼーション精度をより適切に調整するために、Task Alignment Learningと呼ばれる特殊な損失関数を採用しており、より正確な検出につながります。
長所と短所
長所:
- 優れた速度と精度のバランス: パフォーマンスと推論速度の間で競争力のあるトレードオフを提供し、多くの実際のアプリケーションに適しています。
- Anchor-Free Simplicity: アンカーフリー設計は、モデルの複雑さを軽減し、トレーニングプロセスを簡素化します。
- PaddlePaddleエコシステム: PaddlePaddle深層学習フレームワーク向けに深く統合され、最適化されています。
弱点:
- フレームワークの依存関係: PaddlePaddleに最適化されているため、PyTorchのようなより一般的なフレームワークを使用する開発者にとって、統合の課題が生じる可能性があります。
- 汎用性の制限: PP-YOLOE+は主に物体検出器であり、Ultralyticsのようなフレームワークにあるセグメンテーションやポーズ推定のような他のビジョンタスクに対する組み込みサポートがありません。
RTDETRv2:Transformerコアによる高精度
RTDETRv2(Real-Time Detection Transformer version 2)は、Baiduによるもう1つの最先端モデルですが、Vision Transformer(ViT)を組み込むことで、異なるアーキテクチャアプローチを採用しています。リアルタイム性能を維持しながら、精度の限界を押し広げることを目指しています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織: Baidu
- 日付: 2023-04-17 (オリジナルのRT-DETR), 2024-07-17 (RT-DETRv2)
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- ドキュメント: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
アーキテクチャと主な機能
RTDETRv2は、CNNとTransformerの強みを組み合わせたハイブリッドアーキテクチャを備えています。この設計により、ローカルな特徴とグローバルなコンテキストの両方を効果的に捉えることができます。
- ハイブリッドバックボーン: このモデルは、CNNバックボーンを使用して初期特徴マップを抽出し、その後、Transformerエンコーダーに入力します。
- Transformerエンコーダ: Transformerレイヤーのセルフアテンション機構により、モデルは画像内のオブジェクト間の長距離依存関係と関係性を理解し、優れたコンテキスト理解を可能にします。
- Anchor-Free Queries: DETRベースのモデルと同様に、一連の学習可能なオブジェクトクエリを使用してオブジェクトを検出し、推論中のNon-Maximum Suppression (NMS)のような複雑な後処理ステップの必要性を排除します。
長所と短所
長所:
- 最先端の精度: Transformerアーキテクチャにより、卓越した特徴抽出が可能になり、特に多数の物体が存在する複雑なシーンにおいて、より高いmAPスコアが得られることがよくあります。
- 優れた文脈理解: グローバルな文脈が重要な、雑然とした環境でのオブジェクト検出に優れています。
- リアルタイム最適化: RTDETRv2は、その複雑さにもかかわらず、高い精度とリアルタイムの推論速度のバランスを取るように最適化されています。
弱点:
- Computational Complexity: Transformerベースのモデルは、本質的にCNNモデルよりも複雑で、リソースを多く消費します。
- 高いメモリ使用量: RTDETRv2のトレーニングは通常、Ultralytics YOLOシリーズのような効率的なCNNモデルと比較して、大幅に多くのCUDAメモリとより長いトレーニング時間を必要とします。
性能の直接対決:精度 vs. 速度
PP-YOLOE+とRTDETRv2を比較すると、主なトレードオフは、純粋なCNN設計のバランスの取れた効率と、ハイブリッドトランスフォーマーアーキテクチャのピーク精度との間にあります。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
表から、以下を観察できます。
- 精度: RTDETRv2モデルは一般に、同程度のサイズのPP-YOLOE+モデルよりも高いmAPスコアを達成しています(例:RTDETRv2-lの53.4 mAP vs. PP-YOLOE+lの52.9 mAP)。最大のPP-YOLOE+xモデルはRTDETRv2-xをわずかに上回っていますが、パラメータ数は多くなっています。
- 速度: PP-YOLOE+モデル、特に小型のバリアントは、より高速な推論速度を示します。たとえば、PP-YOLOE+sは、どのRTDETRv2モデルよりも大幅に高速です。
- 効率性: PP-YOLOE+モデルは、多くの場合、より少ないパラメータとFLOPsでその性能を達成し、リソースが限られたハードウェアへの展開をより効率的にします。
Ultralyticsの利点:比較を超えて
PP-YOLOE+とRTDETRv2はいずれも強力ですが、開発者はモデルだけでなく、包括的でユーザーフレンドリーなエコシステムを必要とすることがよくあります。そこで、YOLOv8や最新のYOLO11のようなUltralyticsモデルが優れています。
- 使いやすさ: Ultralyticsは、効率化されたpython API、豊富なドキュメント、およびシンプルなCLIコマンドを提供し、モデルのトレーニング、検証、デプロイを非常に容易にします。
- 優れたメンテナンス体制: Ultralyticsフレームワークは、GitHub上での強力なコミュニティサポートと、シームレスなMLOpsのためのUltralytics HUBのようなツールとの統合により、活発に開発されています。
- パフォーマンスのバランス: Ultralytics YOLOモデルは、速度と精度の並外れたバランスで定評があり、エッジデバイスからクラウドサーバーまで、あらゆる用途に適しています。
- メモリ効率: Ultralytics YOLOモデルはメモリ効率が高くなるように設計されており、通常、RTDETRv2のようなTransformerベースのモデルと比較して、トレーニングおよび推論に必要なCUDAメモリが少なくなります。
- 多様性: 検出に焦点を当てているPP-YOLOE+やRTDETRv2とは異なり、YOLO11のようなモデルは、インスタンスセグメンテーション、分類、ポーズ推定、傾斜物体検出など、複数のタスクをすぐにサポートします。
- Training Efficiency: すぐに利用できる事前学習済みウェイトと効率的なトレーニングプロセスにより、開発者はより迅速に最先端の結果を達成できます。
結論: どのモデルが最適か?
PP-YOLOE+とRTDETRv2のどちらを選択するかは、プロジェクト固有の優先順位に大きく依存します。
-
PaddlePaddleエコシステム内で作業しており、速度が重要な要素となる汎用的な物体検出タスクに、高効率でバランスの取れたCNNベースの検出器が必要な場合は、PP-YOLOE+を選択してください。スマートリテールや産業オートメーションなどのアプリケーションに最適です。
-
特に複雑な視覚シーンで、最大の精度を達成することが主な目標であり、より要求の厳しいアーキテクチャを処理するための計算リソースがある場合は、RTDETRv2を選択してください。自動運転車や高度なロボティクスなどの重要なアプリケーションに適しています。
しかし、ほとんどの開発者や研究者にとって、YOLO11のようなUltralytics YOLOモデルは、最も魅力的なオプションとなります。優れたパフォーマンス、汎用性、および使いやすさの組み合わせを提供し、すべてが堅牢で活発にメンテナンスされているエコシステムによって支えられており、開発ライフサイクル全体を加速します。