Link to this sectionPP-YOLOE+ と RTDETRv2 の比較#
コンピュータビジョンの分野は近年、特にリアルタイム物体検出の領域において劇的な進化を遂げてきました。導入するモデルのアーキテクチャを選択することは、動作が重くメモリを大量に消費するアプリケーションになるか、高度に最適化されたレスポンスの良いシステムになるかの分かれ目となります。この技術比較では、Baiduが開発した2つの著名なモデル、CNNベースのPP-YOLOE+とTransformerベースのRTDETRv2を取り上げます。両者のアーキテクチャ、性能指標、理想的なユースケースを分析するとともに、最先端の Ultralytics YOLO26 プラットフォームとの比較も行います。
Link to this sectionPP-YOLOE+: CNNパラダイムの進化#
先行モデルの反復として開発されたPP-YOLOE+は、従来の畳み込みニューラルネットワーク(CNN)が物体検出において達成可能な領域を押し広げました。これは、YOLOシリーズの基盤となるメカニズムを継承しつつ、PaddlePaddleエコシステム向けに特定の最適化を導入した、非常に高性能なアンカーフリー(anchor-free)検出器です。
モデル詳細:
- 著者: PaddlePaddle Authors
- 組織: Baidu
- 日付: 2022-04-02
- Arxiv: 2203.16250
- GitHub: PaddleDetection リポジトリ
- ドキュメント: PP-YOLOE+ ドキュメント
Link to this sectionアーキテクチャと手法#
PP-YOLOE+は、高度に最適化されたバックボーンと、マルチスケールの特徴を効果的に集約するためのカスタムされた特徴ピラミッドネットワーク(feature pyramid network)に依存しています。アンカーフリー設計を採用しているため、通常はアンカーボックス生成に必要なヒューリスティックな調整プロセスが簡素化されています。さらに、その学習手法には、学習フェーズにおいて予測とGround Truthボックスをより適切にマッチングさせるための高度なラベル割り当て戦略が含まれています。
Link to this section強みとユースケース#
PP-YOLOE+の主な強みは、標準的なサーバーハードウェアでの堅牢な性能と、Baiduのツールとの深い統合にあります。ハードウェアの制約がそれほど厳しくない製造環境における静的な 欠陥検出 のような、従来の産業ワークフローに適しています。
PP-YOLOE+は高い精度を提供しますが、ネイティブなエコシステム外で展開する場合、最新のUltralyticsパイプラインで容易に利用できるネイティブなエクスポート形式とは異なり、追加の変換ステップが必要になることがあります。
Link to this sectionRTDETRv2: リアルタイム検出Transformer#
純粋なCNNから離れ、RTDETRv2(Real-Time Detection Transformer version 2)は、コンピュータビジョンタスクにおけるアテンションベースのメカニズムへの飛躍を象徴しています。これは、Transformerのグローバルな文脈理解能力と、実世界のアプリケーションに必要な低レイテンシを両立させようとするものです。
モデル詳細:
- 著者:Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
- 組織:Baidu
- 日付:2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETRv2 Repository
- ドキュメント: RTDETRv2 README
Link to this sectionアーキテクチャと手法#
RTDETRv2はハイブリッドアーキテクチャを活用しており、特徴抽出のためのCNNバックボーンと、合理化されたTransformerエンコーダ・デコーダを組み合わせています。RTDETRv2の決定的な特徴は、従来型の非最大値抑制(NMS)後処理をバイパスするネイティブなエンドツーエンド設計です。また、マルチスケール検出や複雑なシーンへの対応といった機能も導入されており、自己アテンション(self-attention)を利用して、離れた物体間の空間的な関係性を理解します。
Link to this section強みとユースケース#
Transformerアーキテクチャにより、RTDETRv2はグローバルな文脈理解が重要なシナリオで非常に効果を発揮します。しかし、Transformerモデルは通常、軽量なCNNと比較して、学習および推論の両方で大幅に多くのCUDAメモリを必要とします。そのため、強力なGPUサーバー上で実行されるクラウドベースの 動画解析 のような、ハードウェアの制約が少ない環境に最適です。
Link to this sectionパフォーマンスと指標の比較#
これらのモデルを評価する際、平均適合率(mAP)と計算コスト(FLOPsおよび推論レイテンシで測定)のトレードオフは極めて重要です。以下の表は、PP-YOLOE+とRTDETRv2の様々なスケールにおける主要な指標をまとめたものです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
RTDETRv2は高いmAPを示す一方で、パラメータ数とFLOPsの増加という代償を伴います。制約のあるエッジデバイスへの導入を目指す開発者は、Transformer層特有の大きなメモリ要件によりボトルネックに直面することがよくあります。
Link to this sectionユースケースと推奨事項#
PP-YOLOE+とRT-DETRの選択は、特定のプロジェクトの要件、導入の制約、およびエコシステムの好みによって決まります。
Link to this sectionPP-YOLOE+ を選ぶべき場面#
PP-YOLOE+ は以下の場合に強力な選択肢となります:
- PaddlePaddle エコシステムへの統合: Baidu の PaddlePaddle フレームワークとツールを使用して構築された既存のインフラストラクチャを持つ組織。
- Paddle Lite エッジデプロイメント: Paddle Lite または Paddle 推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
- 高精度サーバーサイド検出: フレームワークの依存関係が懸念事項とならない、強力な GPU サーバー上での最大の検出精度を優先するシナリオ。
Link to this sectionRT-DETRを選択すべき時#
RT-DETRが推奨される場合:
- Transformerベースの検出研究: NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
- 高い精度が求められ、レイテンシに柔軟性があるシナリオ: 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
- 大きな物体の検出: 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。
Link to this sectionUltralytics (YOLO26) を選択すべき時#
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。
- NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
- 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。
Link to this sectionUltralyticsの優位性:YOLO26の紹介#
PP-YOLOE+とRTDETRv2はどちらも重要なマイルストーンですが、現代の開発者は極端な性能と合理化された使いやすさを完全にバランスさせるエコシステムを必要としています。Ultralytics Platform と画期的な YOLO26 モデルは、まさにこれを提供します。
2026年1月にリリースされたYOLO26は、エッジファーストなビジョンAIの新たな基準を打ち立てました。これは、古いアーキテクチャに伴う導入の障壁をエレガントに解決し、速度と精度の両面でそれらを凌駕しています。
Link to this sectionアーキテクチャの革新#
YOLO26は、従来のCNNや重量級Transformerを凌駕するいくつかの先駆的な強化を導入しています。
- エンドツーエンドのNMSフリー設計: RTDETRv2と同様に、YOLO26はネイティブなエンドツーエンド設計です。非最大値抑制(NMS)の後処理を排除することで、より高速かつシンプルな導入を実現し、レイテンシのジッターを低減します。これはリアルタイムの ロボティクス や自律システムに最適です。
- 最大43%高速なCPU推論: 徹底したアーキテクチャの最適化により、YOLO26はディスクリートGPUを搭載していないエッジデバイス上でも競合モデルを大幅に上回る性能を発揮し、IoTや スマートシティ アプリケーションにとって最高の選択肢となっています。
- MuSGDオプティマイザー: LLM学習の革新から着想を得たYOLO26は、SGDとMuonのハイブリッドを採用しています。これにより、より安定した学習軌跡と驚異的な高速収束を実現し、GPUの学習時間を大幅に短縮します。
- ProgLoss + STAL: これらの高度な損失関数は、PP-YOLOE+のようなモデルが歴史的に苦戦してきた小物体認識において顕著な改善をもたらし、航空画像 やドローンアプリケーションにおいて極めて重要となります。
- DFLの削除: Distribution Focal Loss(DFL)を削除することでエクスポートプロセスが簡素化され、様々なエッジデバイスや低電力デバイス間でのシームレスな互換性が保証されます。
特化型の物体検出器とは異なり、YOLO26は非常に汎用性が高く、インスタンスセグメンテーション、姿勢推定、分類、そして 回転境界ボックス (OBB) をサポートしています。これには、Pose向けのRLEやOBB向けの専門的な角度損失といった調整済みの強化機能が含まれています。
Link to this section比類なき使いやすさ#
RTDETRv2のような複雑なアーキテクチャを採用する上での最大の欠点の1つは、習得の難易度が高く、統合プロセスが分断されていることです。Ultralyticsのエコシステムは、直感的なPython APIと包括的なWebベースのプラットフォームを通じて、これらの複雑さを完全に抽象化しています。
カスタムデータセットの学習 を行う場合でも、迅速な推論を実行する場合でも、プロセスはシームレスです。
from ultralytics import RTDETR, YOLO
# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()
# Export for edge deployment in one line
model_yolo.export(format="engine", quantize=16)Ultralytics YOLOモデルに典型的な低いメモリ要件により、Transformerベースのモデルと比較して、より高速に学習し、より安価なハードウェアにデプロイできます。さらに、活発な開発と世界クラスのドキュメントにより、運用パイプラインが安定し続けることが保証されます。
代替案を検討しているチームにとって、YOLO11 は依然としてエコシステム内で高度にサポートされた、非常に優秀な前世代モデルであり、レガシーハードウェアとの統合において優れたベースラインとなります。また、YOLO11 vs RTDETR の比較記事も参考になるでしょう。
Link to this section要約#
PP-YOLOE+とRTDETRv2は、それぞれ高度なCNNパイプラインとリアルタイムTransformerの有効性を実証し、コンピュータビジョンの進化に多大な貢献をしてきました。しかし、2026年に堅牢で汎用性が高く、高度に最適化されたコンピュータビジョンアプリケーションをデプロイしようとしている組織にとって、Ultralytics YOLO26 は比類のないソリューションを提供します。ネイティブなNMSフリーのアーキテクチャ、大幅に高速なCPU推論、そして合理化されたエコシステムにより、開発者はアイデア出しからスケーラブルな本番環境への移行をかつてないほど迅速に行うことができます。