RTDETRv2 対 PP-YOLOE+:物体検出モデルの技術的比較
急速に進化するコンピュータビジョン分野では、複雑なリアルタイム物体検出課題の解決に向け、多様なアーキテクチャアプローチが生み出されている。特に注目すべき近年の進展として、RTDETRv2とPP-YOLOE+が挙げられる。これらは視覚認識に根本的に異なる設計思想でアプローチする強力なモデルである。両モデルとも高性能な検出を提供することを目指しているが、その基盤となるメカニズム、学習パラダイム、および理想的な展開シナリオは大きく異なる。
この包括的なガイドでは、両モデルの技術的な微妙な差異を掘り下げ、アーキテクチャ、パフォーマンス指標、エコシステムサポートを比較することで、開発者や研究者が特定のデプロイメント要件に最適なソリューションを選択できるよう支援します。
モデルの概要
性能データを分析する前に、各モデルの起源と設計目標を理解することが重要です。両モデルとも百度の研究チームに起源を持ちますが、物体検出の系統樹において異なる分岐を表しています。
RTDETRv2
RTDETRv2は、トランスフォーマーベースのビジョンアーキテクチャにおいて画期的な飛躍を遂げた。オリジナルのリアルタイム検出トランスフォーマーを基盤とし、柔軟なビジョントランスフォーマーバックボーンと効率的なハイブリッドエンコーダーを組み合わせている。その最大の特徴は、ネイティブにエンドツーエンド予測を実現する能力にあり、後処理における非最大抑制(NMS)を完全に不要とする。
著者: 呂文宇, 趙一安, 張勤耀, 黄奎, 王冠中, 劉毅
所属機関: Baidu
日付: 2024-07-24
Arxiv:2407.17140
GitHub:RT-DETR
PP-YOLOE+
PP-YOLOE+YOLO 高度な進化形であり、高性能産業用途向けに大幅に最適化されています。アンカーフリー検出ヘッドを備えたスケーラブルなCNNアーキテクチャを特徴とし、卓越した速度と精度のトレードオフを実現するよう設計されています。ET-headや汎用化された焦点損失関数といった強力な技術を導入し、微小物体検出の精度向上を図っています。
著者:PaddlePaddle
組織: Baidu
日付: 2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection リポジトリ
エコシステム統合
両モデルとも独立した研究リポジトリを有していますが、Ultralytics Python 内で直接RTDETRv2を簡単に試すことができ、統一されたAPIと合理化されたエクスポートオプションの恩恵を受けられます。
アーキテクチャの違い
これら二つのモデルの基本的な違いは、視覚的文脈を処理し予測を生成する方法にある。
PP-YOLOE+は、従来型でありながら高度に最適化された畳み込みニューラルネットワーク(CNN)バックボーンを採用しています。局所受容野に依存して特徴を抽出するため、標準的な展開において非常に高速かつ効率的です。ただし、重複するバウンディングボックスをフィルタリングするには標準的なNMS が必要であり、密集したシーンでは遅延のボトルネックが生じる可能性があります。
一方、RTDETRv2はハイブリッドエンコーダとトランスフォーマーデコーダを採用している。これによりモデルは画像全体のグローバルコンテキストを同時に捕捉できる。アテンション機構が物体間の関係を本質的に理解するため、NMS最終的なバウンディングボックスを直接出力可能となる。このエンドツーエンドアプローチにより、検出物体数に関わらず安定した推論遅延が保証される。
パフォーマンス指標と比較
YOLO 評価する際には、精度(mAP)と計算コスト(FLOPs)、推論速度のバランスを取ることが極めて重要です。以下の表は、両モデルの様々なサイズにおける性能を比較したものです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
COCO PP-YOLOE+xがわずかに高いmAPval54.7%を達成する一方、RTDETRv2モデルはNMSによる一貫したレイテンシという追加利点と共に、概ね競争力のある精度を提供する。ただし、小規模モデルにおいてはPP-YOLOE+がパラメータ数とFLOPsにおいて明確な優位性を維持しており、エッジ展開において極めて効率的である。
Ultralyticsの利点: YOLO26の登場
RTDETRv2とPP-YOLOE+はそれ自体が非常に優れているものの、最先端技術は進化を続けています。速度、精度、エコシステムサポートの究極のバランスを求める開発者にとって、Ultralytics 新たな業界標準を体現しています。
YOLO26はCNNとトランスフォーマーの両方の優れた側面を統合しています。現代的なアーキテクチャが先駆けたNMSを採用し、後処理のボトルネックを効果的に解消します。さらに、LLMトレーニングの革新に着想を得たハイブリッド手法である画期的なMuSGDオプティマイザーを導入し、極めて安定したトレーニングと迅速な収束を保証します。
エッジ向けに最適化
従来の重いトランスフォーマーモデルがCUDA 必要とするのとは異なり、YOLO26はDFL除去(分布焦点損失)を採用し、エッジコンピューティング向けに特別に最適化されています。これにより、前世代と比較して最大43%高速CPU を実現します。
さらに、YOLO26は単純な物体検出に限定されません。ネイティブに汎用性が高く、インスタンスセグメンテーション、姿勢推定、方向付き境界ボックス(OBB)を標準でサポートしています。一方、PP-YOLOE+は主に境界ボックス検出に焦点を当てています。
トレーニング方法論とエコシステム
トレーニング効率と使いやすさにおいて、Ultralytics はスタンドアロンの研究リポジトリと比較して真価を発揮します。PP-YOLOE+はPaddlePaddle に依存し、RTDETRv2は複雑な環境設定を必要とすることが多いのに対し、Ultralytics 介したモデルの統合はシームレスな体験Ultralytics 。
Ultralytics を利用すると、トレーニング時のメモリ要件の低減、データセット処理の自動化、ハイパーパラメータ調整の簡素化といったメリットが得られます。さらに、モデルをONNXなどの本番環境フォーマットにデプロイすることも可能です。 ONNX や TensorRT といった本番環境向けフォーマットへのモデルデプロイも、単一のコマンドで実現できます。
コード例:効率化された推論
以下は、Ultralytics Python を使用して、推奨されるYOLO26モデルとRTDETRv2をいかに簡単に併用できるかを示すデモです:
from ultralytics import RTDETR, YOLO
# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()
# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")
# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")
実世界の応用とユースケース
これらのアーキテクチャの選択は、多くの場合、特定のハードウェアとアプリケーションの要件によって決まります。
- RTDETRv2はサーバーサイド環境と複雑なシーン理解において優れた性能を発揮する。そのグローバルアテンション機構により、群衆管理や高密度医療画像解析において極めて効果的であり、これらの分野では物体の重なりが標準的なNMS 失敗を招くのが一般的である。
- PP-YOLOE+は、高速産業用検査やPaddlePaddle への投資が集中している環境に極めて適しています。小規模スケールでのパラメータ数が少ないため、特定のロボティクス用途にも適用可能です。
- Ultralytics 、包括的な商用展開において広く推奨されるソリューションです。強化されたProgLoss + STAL機能により、ドローン運用やスマートシティの交通監視において重要な小規模物体認識能力を劇的に向上させます。
ユースケースと推奨事項
RT-DETR プロジェクトの具体的な要件、デプロイメント上の制約、およびエコシステムの選好によって決まります。
RT-DETRを選択すべきタイミング
RT-DETR 以下に最適RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
PP-YOLOE+を選択するタイミング
PP-YOLOE+は以下の方におすすめです:
- PaddlePaddle 統合: 百度のPaddlePaddleフレームワークとツール群を基盤に既存インフラを構築している組織。
- Paddle Lite Edge Deployment:Paddle Lite または Paddle 推論エンジン向けに高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
- 高精度サーバーサイド検出:フレームワーク依存を気にせず、高性能GPU 上で最大検出精度を優先するシナリオ。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
結論
RTDETRv2とPP-YOLOE+の両モデルは、コンピュータビジョンにおける可能性の限界を押し広げ、トランスフォーマーと高度に最適化されたCNNアーキテクチャ双方の実現可能性を証明した。しかし、断片化された研究コードベースのデプロイの複雑さは、生産スケジュールを阻害する可能性がある。
現代のAIエンジニアにとって、Ultralytics を活用することは比類のない優位性をもたらします。シームレスに統合されたモデル(例: YOLO11 や最先端のYOLO26といったシームレスに統合されたモデルへ移行することで、チームはメモリ要件と開発オーバーヘッドを大幅に削減しつつ、可能な限り最高の精度対速度比を実現できます。