PP-YOLOE+とRTDETRv2の比較:技術的な比較
最新の物体検出モデルを使いこなすには、確立された畳み込みニューラルネットワーク(CNN)アーキテクチャーと、新しいトランスフォーマーベースの設計のどちらかを選択する必要があります。この技術比較では、PP-YOLOE+と RTDETRv2というBaidu発の2つの高性能モデルを検証する。PP-YOLOE+がPaddlePaddle エコシステム内の効率的なアンカーフリーCNNの進化を表しているのに対して、RTDETRv2(Real-Time Detection Transformer version 2)は視覚トランスフォーマーを使用して精度の限界を押し広げます。
この分析では、コンピュータビジョンプロジェクトに適したツールを選択するために、アーキテクチャの革新性、パフォーマンス指標、理想的な導入シナリオを分析します。
PP-YOLOE+:効率的なアンカーフリーCNN
PP-YOLOE+は、PaddlePaddle チームによって開発された最先端の産業用物体検出器です。PP-YOLOEのアップグレード版として、学習効率、推論速度、検出精度のバランスに焦点を当てています。YOLO (You Only Look Once)ファミリーの原理に基づいて構築され、実用的で実世界での展開に最適化された、合理的でアンカーのないアーキテクチャを実現しています。
- 著者: PaddlePaddle Authors
- 組織百度
- Date: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- ドキュメントパドル検出 PP-YOLOE+ README
アーキテクチャとコア機能
PP-YOLOE+はスケーラブルなCSPResNetバックボーンを採用し、複数のスケールで効率的に特徴を抽出する。このアーキテクチャの特徴は、CSPPAN(Cross Stage Partial Path Aggregation Network)ネックを採用し、特徴融合を強化していることです。重要な技術革新は、ET-Head(Efficient Task-aligned Head)であり、分類タスクとローカライズタスクを切り離すと同時に、TAL(Task Alignment Learning)による学習中に両タスクのアライメントを確保する。このアプローチにより、繊細なアンカーボックスのハイパーパラメータのチューニングが不要になる。
強みと限界
PP-YOLOE+の最大の強みは、その推論速度にある。サーバグレードのGPUからエッジデバイスまで、様々なハードウェア上で極めて高速に動作するように設計されており、精度を大きく犠牲にすることはない。アンカーフリーの設計により、学習パイプラインが簡素化され、新しいデータセットへの適応が容易になります。
しかし、その頼みの綱は PaddlePaddleフレームワークへの依存は PyTorchやTensorFlow エコシステムに深く統合されているチームにとってはハードルとなる。モデルを移植したり、Baiduのスイート以外で互換性のあるデプロイツールを見つけることは、摩擦を引き起こす可能性がある。
RTDETRv2:トランスフォーマーパワーハウス
RTDETRv2は、もともと自然言語処理用に設計されたTransformerアーキテクチャを、競争力のある速度でビジョンタスクに適応させることに成功し、リアルタイムの物体検出における大きな飛躍を表しています。RT-DETR 2は、一般的にTransformerに関連する高い計算コストに対処し、オリジナルのRT-DETR ベースラインを強化する "Bag-of-Freebies "を提供します。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織百度
- 日付:2023-04-17(オリジナル)、2024-07-24(v2リリース)
- Arxiv:https://arxiv.org/abs/2304.08069RT-DETR),https://arxiv.org/abs/2407.17140RT-DETRv2)
- GitHubRT-DETR GitHub リポジトリ
- ドキュメントRT-DETRv2 ドキュメント
アーキテクチャとコア機能
RTDETRv2は、マルチスケール特徴を効率的に処理するハイブリッドエンコーダを利用し、イントラスケールの相互作用をクロススケールの融合から切り離す。この設計により、CNNの局所的な受容野よりもはるかに効果的に、画像の離れた部分間の関係である大域的な文脈を捉えることができる。また、IoUクエリ選択メカニズムを採用し、オブジェクトクエリを初期化することで、学習を安定させ、最終的な検出品質を向上させている。v2アップデートでは、柔軟なデコーダが導入され、ユーザは再トレーニングすることなく、デコーダ層を変更することで推論速度を調整することができる。
強みと限界
RTDETRv2の際立った特徴は、複雑なシーン、特に物体が隠されていたり、視覚的に明確な特徴がないシーンでの精度である。自己注意メカニズムにより、モデルはシーンについてグローバルに「推論」することができる。
資源強度
RTDETRv2のようなTransformerベースのモデルは、一般的にCNNよりもリソースを消費します。一般的に、学習時にかなり多くのCUDA メモリを必要とし、FLOPも高くなるため、YOLOような効率的なCNNに比べて、メモリに制約のあるエッジデバイスでの展開が複雑になる可能性がある。
性能分析:速度 vs. 精度
これら2つのモデルの選択は、多くの場合、展開環境の特定の制約に帰着する。下の表は、平均平均精度(mAP)と推論レイテンシを比較し、トレードオフを示したものです。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
重要なポイント
- 小型モデルの効率: PP-YOLOE+sは、RTDETRv2-sの2倍近い速度(2.62ms vs 5.03ms)を出す一方で、使用するパラメータは大幅に少ない(7.93M vs 20M)。
- ピーク精度:RTDETRv2は、一般的に、ミッドレンジ(Mおよび Lモデル)において、パラメータあたりの精度が高い。しかし、最大のPP-YOLOE+xは、RTDETRv2-xの精度(54.7mAP対54.3mAP)にほぼ一致するか、わずかに上回ります。
- 計算負荷:RTDETRv2モデルは一貫して高いFLOPsカウントを示し、組み込みシステムのバッテリ寿命と発熱に影響する計算負荷の重さを示しています。
現実世界のアプリケーション
PP-YOLOE+を選ぶとき
- 高速製造:ミリ秒単位のレイテンシーが重要な、高FPSの品質管理を必要とする組立ライン向け。
- エッジ・デバイス:ドローンやポータブルスキャナーなど、電力バジェットが限られているハードウェアに導入する場合、FLOP数とパラメータ数が少ないことが重要です。
- PaddlePaddle エコシステム:既存のインフラがBaiduのPaddlePaddle フレームワークを中心にすでに構築されている場合。
RTDETRv2を選択するタイミング
- 複雑なシナリオ 自律走行や交通監視では、物体の検出と同じくらい、物体間の関係(コンテキスト)を理解することが重要です。
- 混雑したシーンオクルージョンの多い監視アプリケーションでは、トランスフォーマーのグローバルな注意メカニズムは、純粋なCNNよりも追跡と検出の一貫性を維持するのに役立つ。
Ultralytics 優位性YOLO11 際立つ理由
PP-YOLOE+とRTDETRv2は手ごわいモデルだが、 Ultralytics YOLO11は説得力のある代替案を提供し、多くの開発者や研究者にとって優れた選択肢となることが多い。
- 使いやすさ: Ultralytics 開発者の使いやすさを最優先しています。シンプルなPython APIとCLI、数分でモデルのトレーニング、検証、デプロイが可能です。PaddleDetectionやRT-DETRような研究コードベースにしばしば必要とされる複雑な設定とは異なり、Ultralytics YOLO モデルは "箱から出してすぐに "動作します。
- 整備されたエコシステム: Ultralytics エコシステムは活気に満ちており、活発に更新されている。データアノテーション、実験トラッキング(MLflowやComet)、デプロイメントのためのツールとのシームレスな統合が含まれています。
- パフォーマンス・バランスYOLO11は、速度と精度の最適なトレードオフを提供するように設計されています。CNNのスピードとメモリー効率を維持しながら、トランスフォーマーモデルの精度に匹敵するか、それを上回ることがよくあります。
- メモリ効率: YOLO11 重要な利点の一つは、メモリフットプリントが小さいことです。RTDETRv2のようなトランスフォーマーベースのモデルをトレーニングするには、大量のGPU VRAMが必要になることがあります。YOLO11 、コンシューマーグレードのハードウェアで効率的にトレーニングできるように最適化されています。
- 汎用性:バウンディングボックスのみに焦点を当てた多くの競合他社とは異なり、YOLO11 単一モデル・アーキテクチャは、オブジェクト検出、インスタンス・セグメンテーション、姿勢推定、分類、および指向性オブジェクト検出(OBB)をサポートします。
例Python YOLO11 トレーニング
次の例は、より複雑なフレームワークのセットアップと比較して、Ultralytics ワークフローがシンプルであることを示しています:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
結論
PP-YOLOE+と RTDETRv2はどちらも、コンピュータビジョンの急速な進歩を示しています。PP-YOLOE+は、PaddlePaddle エコシステムに深く組み込まれ、生の効率性を必要とする場合に最適な選択肢であり、RTDETRv2はトランスフォーマーの高精度の可能性を示しています。
しかし、多機能で使いやすく、コミュニティがサポートするソリューションを求める開発者にとっては、パフォーマンスに妥協することはありません、 Ultralytics YOLO11が推奨される標準であることに変わりはない。メモリ使用量の少なさ、高速性、マルチタスク機能のバランスにより、AIソリューションをプロトタイプから製品化するための最も実用的な選択肢となっている。