PP-YOLOE+ vs RTDETRv2: リアルタイム物体検出アーキテクチャの包括的ガイド
コンピュータビジョン分野は近年、特にリアルタイム物体検出の領域で劇的な進化を遂げてきた。適切なアーキテクチャを選択することは、動作が鈍くメモリを大量に消費するアプリケーションと、高度に最適化された応答性の高いシステムとの差を意味する。 本技術比較では、百度の代表的な2モデル、CNNベースのPP-YOLOE+とトランスフォーマーベースのRTDETRv2を検証する。両モデルのアーキテクチャ、性能指標、最適なユースケースを分析するとともに、最先端Ultralytics プラットフォームとの比較も行う。
PP-YOLOE+: CNNパラダイムの進化
PP-YOLOE+は、従来モデルを反復的に改良して開発され、物体検出における従来の畳み込みニューラルネットワーク(CNN)の限界を押し広げます。これは、YOLO 基盤的な仕組みを継承しつつ、PaddlePaddle 特化した最適化を導入した、高性能なアンカーフリー検出器です。
モデル詳細:
- 著者: PaddlePaddle Authors
- 組織:Baidu
- 日付: 2022-04-02
- Arxiv:2203.16250
- GitHub:PaddleDetection リポジトリ
- ドキュメント:PP-YOLOE+ ドキュメント
アーキテクチャと方法論
PP-YOLOE+は、高度に最適化されたバックボーンとカスタマイズされた特徴ピラミッドネットワークにより、多階層の特徴を効果的に集約します。アンカーボックス生成に通常必要なヒューリスティックな調整プロセスを簡素化するアンカーフリー設計を採用しています。さらに、その学習手法には高度なラベル割り当て戦略が含まれており、学習フェーズにおいて予測結果と実測ボックスをより良く一致させます。
強みとユースケース
PP-YOLOE+の主な強みは、標準的なサーバーハードウェアでの堅牢な性能と、百度のツール群との深い統合性にあります。ハードウェア制約が過度に厳しくない製造環境における静的欠陥検出など、従来の産業ワークフローに最適です。
エコシステムに関する考慮事項
PP-YOLOE+は高い精度を提供しますが、ネイティブのエコシステム外で展開する場合、追加の変換ステップが必要になることがあります。これは、最新のUltralytics で容易に入手可能なネイティブエクスポート形式とは異なります。
RTDETRv2: リアルタイム検出トランスフォーマー
純粋なCNNから脱却したRTDETRv2(リアルタイム検出トランスフォーマー第2版)は、コンピュータビジョン課題における注意機構への飛躍的進化を示す。トランスフォーマーのグローバルな文脈理解能力と、実世界アプリケーションに求められる低遅延性を融合させる試みである。
モデル詳細:
- 著者:呂文宇、趙一安、常琴耀、黄奎、王冠中、劉毅
- 組織:Baidu
- 日付: 2024年7月24日
- Arxiv:2407.17140
- GitHub:RT-DETRv2
- ドキュメント:RTDETRv2 README
アーキテクチャと方法論
RTDETRv2はハイブリッドアーキテクチャを採用し、特徴抽出用のCNNバックボーンと効率化されたトランスフォーマーエンコーダ-デコーダを組み合わせている。RTDETRv2の決定的な特徴は、従来の非最大抑制(NMS)後処理を省略するネイティブなエンドツーエンド設計である。また、自己注意機構を用いて遠方の物体間の空間的関係を理解し、マルチスケール検出や複雑なシーン処理といった機能を導入している。
強みとユースケース
トランスフォーマーアーキテクチャにより、RTDETRv2はグローバルコンテキストの理解が重要なシナリオにおいて高い効果を発揮する。ただし、トランスフォーマーモデルは軽量CNNと比較して、トレーニング時と推論時の両方で大幅にCUDA 必要とする傾向がある。強力GPU 上で動作するクラウドベースの動画解析など、ハードウェア制約のない環境に最適である。
パフォーマンスとメトリクスの比較
これらのモデルを評価する際には、平均精度(mAP)と計算コスト(FLOPsおよび推論遅延で測定)のトレードオフが極めて重要である。下表は、PP-YOLOE+とRTDETRv2の両方について、様々なスケールにおける主要な指標をまとめたものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
RTDETRv2は高いパラメータ数とFLOPsを犠牲mAP 優れたmAP を示す一方、制約のあるエッジデバイスへの展開を目指す開発者は、トランスフォーマー層に典型的な重いメモリ要件によるボトルネックに直面することが多い。
ユースケースと推奨事項
RT-DETR 、プロジェクトの具体的な要件、デプロイメントの制約、およびエコシステムの選好によってRT-DETR 。
PP-YOLOE+を選択するタイミング
PP-YOLOE+は以下に最適です:
- PaddlePaddle 統合: 百度のPaddlePaddleフレームワークとツール群を基盤に既存インフラを構築している組織。
- Paddle Lite Edge Deployment:Paddle Lite または Paddle 推論エンジン向けに高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
- 高精度サーバーサイド検出:フレームワーク依存を気にせず、高性能GPU 上で最大検出精度を優先するシナリオ。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
Ultralytics :YOLO26のご紹介
PP-YOLOE+とRTDETRv2はいずれも重要なマイルストーンではあるが、現代の開発者は、究極の性能と合理化された使いやすさを完璧に両立させるエコシステムを必要としている。Ultralytics YOLO26 Ultralytics は、まさにこれを実現するものである。
2026年1月にリリースされたYOLO26は、エッジファースト型ビジョンAIの新たな基準を確立します。従来のアーキテクチャに伴う導入上の課題を洗練された方法で解決すると同時に、速度と精度の両面でそれらを凌駕します。
アーキテクチャの革新
YOLO26は、従来のCNNや重厚なトランスフォーマーを凌駕する数々の先駆的な改良を導入しています:
- エンドツーエンドNMS設計:RTDETRv2と同様に、YOLO26はネイティブにエンドツーエンドです。非最大抑制(NMS)後処理を排除することで、より高速でシンプルなデプロイメントを実現し、レイテンシのジッターを低減します。リアルタイムロボティクスや自律システムに最適です。
- 最大43%高速CPU :深いアーキテクチャ最適化により、YOLO26はディスクリートGPUを持たないエッジデバイスにおいて競合モデルを大幅に上回り、IoTおよびスマートシティアプリケーションにおける最良の選択肢となっています。
- MuSGDオプティマイザ:LLMトレーニングの革新に着想を得たYOLO26は、SGD ミューオンのハイブリッド手法を採用。これにより、より安定した学習軌跡と著しく高速な収束を実現し、GPU 時間を大幅に削減します。
- ProgLoss + STAL:これらの先進的な損失関数は、PP-YOLOE+などのモデルが従来苦戦してきた小規模物体認識において顕著な改善をもたらし、航空画像やドローン応用において極めて重要であることが実証されている。
- DFL除去:ディストリビューション・フォーカル・ロス(DFL)を除去することで、エクスポートプロセスが簡素化され、様々なエッジデバイスや低消費電力デバイス間でシームレスな互換性が確保されます。
タスク特化型の汎用性
YOLO26は、特定の物体検出器とは異なり、インスタンスセグメンテーション、姿勢推定、分類、およびオリエンテッドバウンディングボックス(OBB)をサポートする高い汎用性を備えています。姿勢推定用のRLEやOBB用の専用角度損失関数など、特化した強化機能が含まれています。
比類のない使いやすさ
RTDETRv2のような複雑なアーキテクチャを採用する際の最大の欠点の一つは、急峻な学習曲線と断片的な統合プロセスである。Ultralytics 、直感的なPython 包括的なWebベースプラットフォームを通じて、これらの複雑性を完全に抽象化する。
カスタムデータセットのトレーニングでも、迅速な推論の実行でも、プロセスはシームレスです:
from ultralytics import RTDETR, YOLO
# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()
# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)
YOLO 典型的な低いメモリ要件により、トランスフォーマーベースのモデルと比較して、より高速なトレーニングと低コストなハードウェアへのデプロイが可能です。さらに、活発な開発と世界クラスのドキュメントにより、本番環境のパイプラインの安定性が保証されます。
代替案を検討中のチームへ、 YOLO11 はエコシステム内で高い支持を得ており、非常に優れた能力を持つ前身モデルとして、レガシーハードウェア統合のための優れた基盤を提供します。YOLO11 比較記事も参考になるかもしれません。
概要
PP-YOLOE+とRTDETRv2は、それぞれ高度なCNNパイプラインとリアルタイムトランスフォーマーの実用性を実証し、コンピュータビジョンの進化に大きく貢献してきた。 しかし、2026年に堅牢で汎用性が高く高度に最適化されたコンピュータビジョンアプリケーションを展開しようとする組織にとって、Ultralytics 比類のないソリューションを提供する。そのネイティブにNMSアーキテクチャ、大幅に高速化CPU 、そして合理化されたエコシステムにより、開発者はこれまで以上に迅速に構想からスケーラブルな本番環境への移行を実現できる。