コンテンツにスキップ

PP-YOLOE+ 対 RTDETRv2: ディープラーニング物体検出比較

物体検出アーキテクチャの進展は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースモデル間の激しい競争によって特徴づけられてきた。この流れにおける二つの重要なマイルストーンは、PaddlePaddle 生まれた改良型CNNベース検出器「PP-YOLOE+」と、最先端のリアルタイム検出トランスフォーマー「RTDETRv2」である。

この技術比較では、各モデルのアーキテクチャ、性能指標、および導入適性を評価し、研究者やエンジニアが特定のコンピュータビジョンアプリケーションに最適なモデルを選択する手助けをします。

概要

YOLO 頂点を代表し、純粋なCNNフレームワーク内でアンカーフリー機構とラベル割り当て戦略の洗練に焦点を当てています。PaddlePaddle 深く統合された環境では優れた性能を発揮しますが、他のエコシステムへ移植する際には摩擦が生じる可能性があります。

RTDETRv2(リアルタイム検出トランスフォーマーv2)、柔軟で調整可能なデコーダーを導入し、ハイブリッドエンコーダーを最適化することで限界を押し広げます。トランスフォーマーのグローバルアテンション機能を活用することで、後処理における一般的なボトルネックである非最大抑制(NMS)の必要性を排除することに成功しています。

しかし、CNNの高速性とNMSトランスフォーマーの利便性を兼ね備え、かつ膨大な計算オーバーヘッドを伴わない統合ソリューションを求める開発者にとって、Ultralytics 優れた代替案を提供する。ネイティブのエンドツーエンド設計と最大43%CPU により、YOLO26は高性能サーバーとエッジデバイス間のギャップを埋める。

PP-YOLOE+: アンカーフリーCNNの強力なモデル

2022年にリリースされたPP-YOLOE+は、PP-YOLOEの強化版として、強力なバックボーンと動的ラベル割り当てを組み込み、競争力のある精度を達成している。

著者: PaddlePaddle
組織:Baidu
日付:2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection

アーキテクチャのハイライト

PP-YOLOE+は、CSPNetの勾配伝播の利点とRepVGGに見られる再パラメータ化技術を組み合わせたバックボーンであるCSPRepResStageを採用している。これにより、モデルは複雑な学習ダイナミクスを持ちつつ、推論時には単純な畳み込みに収束するため、デプロイメントの高速化が実現される。

本モデルはアンカーフリーヘッドとタスクアラインメント学習(TAL)戦略を採用する。事前定義されたボックスに依存する従来のアンカーベース手法とは異なり、PP-YOLOE+は物体の中心位置と境界ボックスエッジまでの距離を予測する。これによりハイパーパラメータ探索が簡素化され、以下のような多様なデータセットにおける汎化性能が向上する COCOなどの多様なデータセットにおける汎化性能を向上させます。

レガシー制約

PP-YOLOE+は高い性能を発揮しますが、PaddlePaddle 依存度が高いため、ONNX PyTorch 標準とするデプロイメントパイプラインを複雑化させる可能性があります。ユーザーはモデルをエッジプラットフォームに移行するために、専用のコンバーターを必要とすることが多いです。

PP-YOLOE+の詳細について。

RTDETRv2: Transformerの進化

RTDETRv2は、RT-DETR成功を基盤とし、トランスフォーマーがリアルタイムシナリオにおいてYOLOを凌駕し得ることを実証することを目的としています。標準的なビジョントランスフォーマー(ViT)の高い計算コストに対処するため、マルチスケール特徴を効率的に処理するハイブリッドエンコーダーを採用しています。

著者:Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
組織:Baidu
日付:2023-04-17 (オリジナル), 2024-07-24 (v2 リリース)
Arxiv:2304.08069
GitHub:RT-DETR

アーキテクチャのハイライト

RTDETRv2の中核となる革新は、ハイブリッドエンコーダ IoUクエリ選択である。従来型トランスフォーマーは高解像度特徴マップ処理時に、アテンション機構の二次的な計算複雑性に苦戦する。RTDETRv2はスケール内相互作用とスケール間融合を分離することでこれを緩和し、メモリ使用量を大幅に削減する。

重要な点として、RTDETRv2はエンドツーエンド検出器である。学習時にはハンガリアン・マッチャーを用いて予測結果を真値データと一対一で対応付ける。これによりNMS 不要となり、YOLO 遅延の急増やパラメータ調整を回避できる。

RTDETRの詳細について。

パフォーマンス比較

以下の表は両アーキテクチャの性能を比較したものである。PP-YOLOE+はパラメータ数が少ない場合に優れた性能を示す一方、RTDETRv2はより大規模なサイズにおいて優れたスケーラビリティを示すが、計算量(FLOPs)は高くなる。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Ultralyticsの利点:なぜYOLO26を選ぶのか?

RTDETRv2はNMSの利点をもたらしたが、その代償として、学習に時間がかかりGPU での展開が困難な重いトランスフォーマーブロックの使用を伴った。Ultralytics 純粋なCNNアーキテクチャを用いてエンドツーエンドNMS検出を実現し、この状況に革命をもたらす。

トレーニング中に一貫した二重アサインメント(CDA)戦略を採用することで、YOLO26は内部で重複するボックスを抑制することを学習する。これにより、トランスフォーマーの遅延ペナルティをNMS 推論オーバーヘッドを排除できる。

YOLO26の主な利点

  1. MuSGDオプティマイザー:Moonshot AIのKimi K2のようなLLMトレーニングの革新に着想を得たMuSGDオプティマイザーは、SGD 組み合わせることで収束を加速し、安定したトレーニングを実現します。これはYOLO26世代に特有の機能です。
  2. エッジ最適化効率:分布型焦点損失(DFL)と複雑なアテンション層を排除したYOLO26は、従来モデルと比較して最大43%CPU を実現。これにより、RTDETRが苦戦するラズベリーパイやモバイルデバイスでの実行に最適です。
  3. タスクの汎用性:主に検出器であるPP-YOLOE+とは異なり、YOLO26は単一のライブラリで姿勢推定インスタンスセグメンテーション、およびOBBをネイティブにサポートしている。
  4. ProgLoss + STAL:新たな損失関数が、多くのトランスフォーマーモデルにおける重大な弱点である小物体検出を改善し、航空画像解析においてYOLO26を優位な存在とする。

Ultralytics による効率化されたワークフロー

複雑な設定ファイルは不要です。Ultralytics を通じて、YOLO26モデルのトレーニング、バージョン管理、デプロイを直接実行できます。データセットのTensorRT、CoreML、TFLiteワンクリックエクスポートまで、エコシステムがすべてを処理します。

コード例: YOLO26の始め方

Ultralytics Python を使えば、最新の最先端モデルを実行するのは驚くほど簡単です:

from ultralytics import YOLO

# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for simplified deployment
model.export(format="onnx")

YOLO26についてさらに詳しく

理想的なユースケース

PP-YOLOE+の使用タイミング

  • レガシーPaddleシステム:既存のインフラが完全にPaddlePaddle構築されている場合、PP-YOLOE+はフレームワークを変更せずにネイティブなアップグレードパスを提供します。
  • サーバーサイドCNN: GPU 、デプロイ環境でトランスフォーマーのサポート(例:TensorRT )が不足しているシナリオ向け。

RTDETRv2の利用シーン

  • 混雑したシーン:トランスフォーマーのグローバル注意機構は、CNNが重なり合う物体の分離に苦労する可能性のある重度のオクルージョンが存在するシーンにおいて有効である。
  • 固定ハードウェア:高性能GPU(NVIDIA やA100など)に適しており、トランスフォーマーの行列乗算オーバーヘッドは精度向上と比較して無視できる。

Ultralytics YOLO26の使用タイミング

  • エッジ&モバイルAI:低メモリ消費と高速CPU により、YOLO26Android や組込みシステムにおける最適な選択肢です。
  • リアルタイム動画解析: 交通監視や製造ラインなど高FPSを必要とするアプリケーションにおいて、NMS設計により確定的な遅延が保証されます。
  • 研究と迅速なプロトタイピング:豊富なドキュメントと活発なコミュニティサポートにより、研究者は単純な境界ボックス検出を超えた多様なタスクにおいて事前学習済み重みを活用し、迅速に反復作業を進められます。

結論

PP-YOLOE+とRTDETRv2はいずれもコンピュータビジョン分野に大きく貢献した。PP-YOLOE+はPaddleエコシステム内におけるCNNの限界を押し広げ、RTDETRv2はリアルタイムタスクにおけるトランスフォーマーの実用性を実証した。Ultralytics これらの進歩を統合した存在である:CNNのアーキテクチャの簡潔さと速度を提供しつつ、トランスフォーマーのエンドツーエンドでNMS洗練性を兼ね備えている。堅牢Ultralytics と組み合わせることで、現代のAI開発において最も汎用性の高いツールとして位置づけられる。


コメント