PP-YOLOE+ 対 RTDETRv2: リアルタイム物体検出アーキテクチャの包括的ガイド
コンピュータビジョンの分野は近年、特にリアルタイム物体検出の領域において劇的な進化を遂げてきました。導入するアーキテクチャの選択は、動作が重くメモリを大量に消費するアプリケーションになるか、高度に最適化された応答性の高いシステムになるかの分かれ目となります。この技術比較では、Baiduによる2つの主要なモデル、CNNベースのPP-YOLOE+とTransformerベースのRTDETRv2を探求します。両者のアーキテクチャ、パフォーマンス指標、理想的な使用例を分析するとともに、最先端の Ultralytics YOLO26 プラットフォームとの比較も行います。
PP-YOLOE+: CNNパラダイムの推進
前身モデルの反復として開発されたPP-YOLOE+は、従来の畳み込みニューラルネットワーク(CNN)が物体検出において達成可能な境界を押し広げました。これはYOLOシリーズの基礎となる仕組みの上に構築された非常に有能なアンカーフリー検出器であり、PaddlePaddleエコシステム向けに特定の最適化が導入されています。
モデルの詳細:
- 作成者:PaddlePaddle作成者
- 組織: Baidu
- 日付:2022年4月2日
- Arxiv: 2203.16250
- GitHub:PaddleDetectionリポジトリ
- ドキュメント:PP-YOLOE+ ドキュメント
アーキテクチャと手法
PP-YOLOE+は、高度に最適化されたバックボーンと、マルチスケールの特徴を効果的に集約するためのカスタマイズされた特徴ピラミッドネットワークに依存しています。アンカーフリー設計を採用しており、通常アンカーボックス生成に必要なヒューリスティックな調整プロセスを簡素化します。さらに、そのトレーニング手法には、学習フェーズにおいて予測とグラウンドトゥルースボックスをより良く一致させるための高度なラベル割り当て戦略が含まれています。
強みと使用例
PP-YOLOE+の主な強みは、標準的なサーバーハードウェアでの堅牢なパフォーマンスと、Baiduツールとの深い統合にあります。これは、ハードウェア制約があまり厳しくない製造環境における静的な 欠陥検出 のような、従来型の産業ワークフローに適しています。
PP-YOLOE+は高い精度を提供しますが、最新のUltralyticsパイプラインで利用可能なネイティブエクスポート形式とは異なり、ネイティブエコシステムの外で導入する場合、追加の変換ステップが必要になることがあります。
RTDETRv2:リアルタイム検出トランスフォーマー
純粋なCNNから脱却したRTDETRv2(Real-Time Detection Transformer version 2)は、コンピュータビジョンのタスクにおけるアテンションベースのメカニズムへの飛躍を表しています。これは、Transformerのグローバルなコンテキスト理解と、現実世界のアプリケーションに求められる低レイテンシを両立させようとするものです。
モデルの詳細:
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETRv2 Repository
- ドキュメント: RTDETRv2 README
アーキテクチャと手法
RTDETRv2は、特徴抽出用のCNNバックボーンと合理化されたTransformerエンコーダ・デコーダを組み合わせたハイブリッドアーキテクチャを活用しています。RTDETRv2の決定的な特徴は、従来のNon-Maximum Suppression (NMS) 後処理をバイパスするネイティブなエンドツーエンド設計です。また、マルチスケール検出や複雑なシーン処理などの機能も導入しており、セルフアテンションを利用して離れたオブジェクト間の空間的関係を理解します。
強みと使用例
Transformerアーキテクチャにより、RTDETRv2はグローバルなコンテキスト理解が重要なシナリオで非常に効果的です。しかし、Transformerモデルは通常、軽量なCNNと比較して、トレーニングと推論の両方で大幅に多くのCUDAメモリを必要とします。そのため、強力なGPUサーバー上で実行されるクラウドベースの ビデオ解析 など、制約のないハードウェア環境に最適です。
パフォーマンスとメトリクスの比較
これらのモデルを評価する際、平均適合率 (mAP) と計算コスト (FLOPsおよび推論レイテンシで測定) のトレードオフが最も重要です。以下の表は、PP-YOLOE+とRTDETRv2の両方のさまざまなスケールにおける主要なメトリクスを概説しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
RTDETRv2は高いパラメータ数とFLOPsを代償として強力なmAPを示しますが、制約のあるエッジデバイスへの導入を目指す開発者は、Transformer層に典型的な重いメモリ要件によるボトルネックに直面することがよくあります。
ユースケースと推奨事項
PP-YOLOE+とRT-DETRの選択は、特定のプロジェクト要件、導入の制約、およびエコシステムの優先順位によって決まります。
PP-YOLOE+を選択すべき時
PP-YOLOE+が適しているケース:
- PaddlePaddleエコシステム統合: BaiduのPaddlePaddleフレームワークとツールの上に構築された既存のインフラストラクチャを持つ組織。
- Paddle Liteエッジ展開: Paddle LiteまたはPaddle推論エンジン向けに特別に高度に最適化された推論カーネルを持つハードウェアへの展開。
- 高精度のサーバーサイド検出: フレームワークの依存関係が懸念されない強力なGPUサーバーで、最大の検出精度を優先するシナリオ。
RT-DETRを選ぶべき場面
RT-DETRは次の場合に推奨されます:
- Transformerベースの検出研究: NMSなしでのエンドツーエンドの物体検出に向けて、アテンションメカニズムとTransformerアーキテクチャを研究するプロジェクト。
- レイテンシを柔軟に調整できる高精度シナリオ: 検出精度が最優先であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体の検出: 主に中型から大型の物体が含まれるシーン。Transformerのグローバルアテンションメカニズムが自然な利点をもたらします。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
Ultralyticsの利点:YOLO26の紹介
PP-YOLOE+とRTDETRv2はどちらも重要なマイルストーンですが、現代の開発者は、極限のパフォーマンスと合理化された使いやすさを完全にバランスさせたエコシステムを必要としています。Ultralytics Platform と画期的な YOLO26 モデルは、まさにこれを提供します。
2026年1月にリリースされたYOLO26は、エッジファーストなビジョンAIの新しい基準を確立します。これは、古いアーキテクチャに関連する導入のハードルをエレガントに解決すると同時に、速度と精度の両面でそれらを凌駕します。
アーキテクチャの革新
YOLO26は、従来のCNNや重いTransformerを凌駕するいくつかの先駆的な強化を導入しています:
- エンドツーエンドのNMSフリー設計: RTDETRv2と同様に、YOLO26はネイティブなエンドツーエンドです。Non-Maximum Suppression (NMS) 後処理を排除することで、レイテンシのジッターを抑えた、より高速でシンプルな導入を実現し、リアルタイムの ロボティクス や自律システムに最適です。
- CPU推論が最大43%高速化: 深いアーキテクチャの最適化により、YOLO26はディスクリートGPUを持たないエッジデバイスで競合モデルを大幅に上回り、IoTや スマートシティ アプリケーションにおいて最高クラスの選択肢となります。
- MuSGDオプティマイザ: LLMトレーニングの革新に触発され、YOLO26はSGDとMuonのハイブリッドを採用しています。これにより、より安定したトレーニング軌道と驚異的に高速な収束が実現し、GPUのトレーニング時間を大幅に削減します。
- ProgLoss + STAL: これらの高度な損失関数は、PP-YOLOE+のようなモデルが歴史的に苦戦してきた小物体認識において顕著な改善をもたらし、 航空画像 やドローンアプリケーションにとって不可欠なものとなります。
- DFL削除: Distribution Focal Lossを削除することでエクスポートプロセスが簡素化され、さまざまなエッジデバイスや低電力デバイス間でのシームレスな互換性が保証されます。
特殊な物体検出器とは異なり、YOLO26は非常に汎用性が高く、 インスタンスセグメンテーション、 姿勢推定、 分類、および 指向性バウンディングボックス (OBB) をサポートしています。これには、Pose用のRLEやOBB用の特殊な角度損失などの調整された強化が含まれています。
比類のない使いやすさ
RTDETRv2のような複雑なアーキテクチャを採用する最大の欠点の1つは、急峻な学習曲線と分断された統合プロセスです。Ultralyticsエコシステムは、直感的なPython APIと包括的なウェブベースのプラットフォームを通じて、これらの複雑さを完全に抽象化します。
カスタムデータセットのトレーニング を行う場合でも、迅速な推論を実行する場合でも、プロセスはシームレスです:
from ultralytics import RTDETR, YOLO
# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()
# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)Ultralytics YOLOモデルに典型的な低いメモリ要件は、Transformerベースのモデルと比較して、より高速なトレーニングと、より安価なハードウェアでの導入が可能であることを意味します。さらに、活発な開発と世界クラスのドキュメントにより、本番パイプラインの安定性が保証されます。
代替案を模索しているチームにとって、 YOLO11 はエコシステム内で非常にサポートが手厚く、極めて優れた能力を持つ前身モデルであり、レガシーハードウェア統合のための優れたベースラインを提供します。また、 YOLO11 vs RTDETR に関する比較記事も併せてお読みいただくと役立つかもしれません。
まとめ
PP-YOLOE+とRTDETRv2は、コンピュータビジョンの進化に大きく貢献し、それぞれ高度なCNNパイプラインとリアルタイムTransformerの実現可能性を実証してきました。しかし、2026年に堅牢で汎用性が高く、高度に最適化されたコンピュータビジョンアプリケーションの導入を検討している組織にとって、 Ultralytics YOLO26 は比類のないソリューションを提供します。そのネイティブなNMSフリーアーキテクチャ、大幅に高速化されたCPU推論、そして合理化されたエコシステムにより、開発者はこれまで以上に迅速に、アイデア出しからスケーラブルな本番環境への移行が可能になります。