PP-YOLOE+ vs RTDETRv2: リアルタイム物体検出アーキテクチャの包括的ガイド
コンピュータビジョン分野は近年、特にリアルタイム物体検出の領域で劇的な進化を遂げてきた。適切なアーキテクチャを選択することは、動作が鈍くメモリを大量に消費するアプリケーションと、高度に最適化された応答性の高いシステムとの差を意味する。 本技術比較では、百度の代表的な2モデル、CNNベースのPP-YOLOE+とトランスフォーマーベースのRTDETRv2を検証する。両モデルのアーキテクチャ、性能指標、最適なユースケースを分析するとともに、最先端Ultralytics プラットフォームとの比較も行う。
PP-YOLOE+: CNNパラダイムの進化
その前身のイテレーションとして開発されたPP-YOLOE+は、従来の畳み込みニューラルネットワーク(CNN)が物体検出で達成できる限界を押し広げます。これは、YOLOシリーズの基本的なメカニズムを基盤としつつ、PaddlePaddleエコシステムに特化した最適化を導入した、非常に高性能なアンカーフリー検出器です。
モデル詳細:
- 著者: PaddlePaddle Authors
- 組織:Baidu
- 日付: 2022-04-02
- Arxiv: 2203.16250
- GitHub:PaddleDetection リポジトリ
- ドキュメント: PP-YOLOE+ ドキュメント
アーキテクチャと手法
PP-YOLOE+は、高度に最適化されたバックボーンとカスタマイズされた特徴ピラミッドネットワークにより、多階層の特徴を効果的に集約します。アンカーボックス生成に通常必要なヒューリスティックな調整プロセスを簡素化するアンカーフリー設計を採用しています。さらに、その学習手法には高度なラベル割り当て戦略が含まれており、学習フェーズにおいて予測結果と実測ボックスをより良く一致させます。
強みとユースケース
PP-YOLOE+の主な強みは、標準的なサーバーハードウェアでの堅牢な性能と、百度のツール群との深い統合性にあります。ハードウェア制約が過度に厳しくない製造環境における静的欠陥検出など、従来の産業ワークフローに最適です。
エコシステムに関する考慮事項
PP-YOLOE+は高い精度を提供しますが、ネイティブのエコシステム外で展開する場合、追加の変換ステップが必要になることがあります。これは、最新のUltralytics で容易に入手可能なネイティブエクスポート形式とは異なります。
RTDETRv2: リアルタイム検出トランスフォーマー
純粋なCNNから脱却したRTDETRv2(リアルタイム検出トランスフォーマー第2版)は、コンピュータビジョン課題における注意機構への飛躍的進化を示す。トランスフォーマーのグローバルな文脈理解能力と、実世界アプリケーションに求められる低遅延性を融合させる試みである。
モデル詳細:
- 著者:Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv: 2407.17140
- GitHub:RT-DETRv2
- ドキュメント: RTDETRv2 README
アーキテクチャと手法
RTDETRv2はハイブリッドアーキテクチャを採用し、特徴抽出用のCNNバックボーンと効率化されたトランスフォーマーエンコーダ-デコーダを組み合わせている。RTDETRv2の決定的な特徴は、従来の非最大抑制(NMS)後処理を省略するネイティブなエンドツーエンド設計である。また、自己注意機構を用いて遠方の物体間の空間的関係を理解し、マルチスケール検出や複雑なシーン処理といった機能を導入している。
強みとユースケース
トランスフォーマーアーキテクチャにより、RTDETRv2はグローバルコンテキストの理解が重要なシナリオにおいて高い効果を発揮する。ただし、トランスフォーマーモデルは軽量CNNと比較して、トレーニング時と推論時の両方で大幅にCUDA 必要とする傾向がある。強力GPU 上で動作するクラウドベースの動画解析など、ハードウェア制約のない環境に最適である。
パフォーマンスとメトリクスの比較
これらのモデルを評価する際には、平均精度(mAP)と計算コスト(FLOPsおよび推論遅延で測定)のトレードオフが極めて重要である。下表は、PP-YOLOE+とRTDETRv2の両方について、様々なスケールにおける主要な指標をまとめたものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
RTDETRv2は高いパラメータ数とFLOPsを犠牲mAP 優れたmAP を示す一方、制約のあるエッジデバイスへの展開を目指す開発者は、トランスフォーマー層に典型的な重いメモリ要件によるボトルネックに直面することが多い。
ユースケースと推奨事項
PP-YOLOE+とRT-DETRの選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。
PP-YOLOE+を選択するタイミング
PP-YOLOE+は以下に最適です:
- PaddlePaddleエコシステム統合: BaiduのPaddlePaddleフレームワークとツールに基づいて既存のインフラストラクチャを構築している組織。
- Paddle Lite Edgeデプロイメント: Paddle LiteまたはPaddle推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
- 高精度サーバーサイドdetect: フレームワークの依存関係が問題とならない、強力なGPUサーバー上での最大限のdetect精度を優先するシナリオ。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
- 柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
- 大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
Ultralytics :YOLO26のご紹介
PP-YOLOE+とRTDETRv2はいずれも重要なマイルストーンではあるが、現代の開発者は、究極の性能と合理化された使いやすさを完璧に両立させるエコシステムを必要としている。Ultralytics YOLO26 Ultralytics は、まさにこれを実現するものである。
2026年1月にリリースされたYOLO26は、エッジファースト型ビジョンAIの新たな基準を確立します。従来のアーキテクチャに伴う導入上の課題を洗練された方法で解決すると同時に、速度と精度の両面でそれらを凌駕します。
アーキテクチャの革新
YOLO26は、従来のCNNや重厚なトランスフォーマーを凌駕する数々の先駆的な改良を導入しています:
- エンドツーエンドのNMSフリー設計: RTDETRv2と同様に、YOLO26はネイティブにエンドツーエンドです。非最大抑制(NMS)後処理を排除することで、レイテンシのジッターを低減し、より高速でシンプルなデプロイを実現し、リアルタイムロボティクスや自律システムに最適です。
- 最大43%高速なCPU推論: 徹底的なアーキテクチャ最適化により、YOLO26はディスクリートGPUを持たないエッジデバイスで競合モデルを大幅に上回り、IoTおよびスマートシティアプリケーションの最有力候補となっています。
- MuSGD オプティマイザ: LLMトレーニングイノベーションから着想を得て、YOLO26はSGDとMuonのハイブリッドを採用しています。これにより、より安定したトレーニング軌道と著しく高速な収束が実現し、GPUトレーニング時間を大幅に削減します。
- ProgLoss + STAL: これらの高度な損失関数は、PP-YOLOE+のようなモデルが歴史的に苦戦してきた小物体認識において顕著な改善をもたらし、航空画像やドローンアプリケーションにとって極めて重要であることを証明しています。
- DFLの削除: Distribution Focal Lossの削除によりエクスポートプロセスが簡素化され、さまざまなエッジデバイスおよび低消費電力デバイスとのシームレスな互換性が確保されます。
タスク特化型の汎用性
YOLO26は、特定の物体検出器とは異なり、インスタンスセグメンテーション、姿勢推定、分類、およびオリエンテッドバウンディングボックス(OBB)をサポートする高い汎用性を備えています。姿勢推定用のRLEやOBB用の専用角度損失関数など、特化した強化機能が含まれています。
比類のない使いやすさ
RTDETRv2のような複雑なアーキテクチャを採用する際の最大の欠点の一つは、急峻な学習曲線と断片的な統合プロセスである。Ultralytics 、直感的なPython 包括的なWebベースプラットフォームを通じて、これらの複雑性を完全に抽象化する。
カスタムデータセットのトレーニングでも、迅速な推論の実行でも、プロセスはシームレスです:
from ultralytics import RTDETR, YOLO
# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()
# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)
YOLO 典型的な低いメモリ要件により、トランスフォーマーベースのモデルと比較して、より高速なトレーニングと低コストなハードウェアへのデプロイが可能です。さらに、活発な開発と世界クラスのドキュメントにより、本番環境のパイプラインの安定性が保証されます。
代替案を検討しているチームにとって、YOLO11はエコシステム内で引き続き高くサポートされ、非常に有能な前身モデルであり、レガシーハードウェア統合のための優れたベースラインを提供します。また、YOLO11 vs RTDETRに関する比較記事も役立つかもしれません。
概要
PP-YOLOE+とRTDETRv2は、それぞれ高度なCNNパイプラインとリアルタイムトランスフォーマーの実用性を実証し、コンピュータビジョンの進化に大きく貢献してきた。 しかし、2026年に堅牢で汎用性が高く高度に最適化されたコンピュータビジョンアプリケーションを展開しようとする組織にとって、Ultralytics 比類のないソリューションを提供する。そのネイティブにNMSアーキテクチャ、大幅に高速化CPU 、そして合理化されたエコシステムにより、開発者はこれまで以上に迅速に構想からスケーラブルな本番環境への移行を実現できる。