RTDETRv2 対 PP-YOLOE+：物体検出モデルの技術的比較

急速に進化するコンピュータビジョン分野では、複雑なリアルタイム物体検出課題の解決に向け、多様なアーキテクチャアプローチが生み出されている。特に注目すべき近年の進展として、RTDETRv2とPP-YOLOE+が挙げられる。これらは視覚認識に根本的に異なる設計思想でアプローチする強力なモデルである。両モデルとも高性能な検出を提供することを目指しているが、その基盤となるメカニズム、学習パラダイム、および理想的な展開シナリオは大きく異なる。

この包括的なガイドでは、両モデルの技術的な微妙な差異を掘り下げ、アーキテクチャ、パフォーマンス指標、エコシステムサポートを比較することで、開発者や研究者が特定のデプロイメント要件に最適なソリューションを選択できるよう支援します。

モデルの概要

パフォーマンスデータを分析する前に、各モデルの起源とアーキテクチャ上の目標を理解することが重要です。両者ともBaiduの研究チームに由来しますが、物体検出の系統樹においては異なる分岐を代表しています。

RTDETRv2

RTDETRv2は、トランスフォーマーベースのビジョンアーキテクチャにおいて画期的な飛躍を遂げた。オリジナルのリアルタイム検出トランスフォーマーを基盤とし、柔軟なビジョントランスフォーマーバックボーンと効率的なハイブリッドエンコーダーを組み合わせている。その最大の特徴は、ネイティブにエンドツーエンド予測を実現する能力にあり、後処理における非最大抑制（NMS）を完全に不要とする。

著者：Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
所属：Baidu 日付：2024-07-24 Arxiv：2407.17140
GitHub：RT-DETR Repository

RTDETRv2の詳細について。

PP-YOLOE+

PP-YOLOE+YOLO 高度な進化形であり、高性能産業用途向けに大幅に最適化されています。アンカーフリー検出ヘッドを備えたスケーラブルなCNNアーキテクチャを特徴とし、卓越した速度と精度のトレードオフを実現するよう設計されています。ET-headや汎用化された焦点損失関数といった強力な技術を導入し、微小物体検出の精度向上を図っています。

著者：PaddlePaddle Authors
所属：Baidu
日付：2022-04-02
Arxiv：2203.16250
GitHub：PaddleDetectionリポジトリ

PP-YOLOE+の詳細について。

エコシステム統合

両モデルとも独立した研究リポジトリを有していますが、Ultralytics Python 内で直接RTDETRv2を簡単に試すことができ、統一されたAPIと合理化されたエクスポートオプションの恩恵を受けられます。

アーキテクチャの違い

これら二つのモデルの基本的な違いは、視覚的文脈を処理し予測を生成する方法にある。

PP-YOLOE+は、従来型でありながら高度に最適化された畳み込みニューラルネットワーク（CNN）バックボーンを採用しています。局所受容野に依存して特徴を抽出するため、標準的な展開において非常に高速かつ効率的です。ただし、重複するバウンディングボックスをフィルタリングするには標準的なNMS が必要であり、密集したシーンでは遅延のボトルネックが生じる可能性があります。

対照的に、RTDETRv2はハイブリッドエンコーダとTransformerデコーダを採用しています。これにより、モデルは画像全体のグローバルコンテキストを同時に捉えることができます。アテンションメカニズムはオブジェクト間の関係を本質的に理解し、NMSなしで最終的なバウンディングボックスを直接出力することを可能にします。このエンドツーエンドのアプローチにより、検出されるオブジェクトの数に関係なく、安定した推論レイテンシが保証されます。

パフォーマンス指標と比較

YOLO 評価する際には、精度（mAP）と計算コスト（FLOPs）、推論速度のバランスを取ることが極めて重要です。以下の表は、両モデルの様々なサイズにおける性能を比較したものです。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

COCO PP-YOLOE+xがわずかに^高いmAPval54.7%を達成する一方、RTDETRv2モデルはNMSによる一貫したレイテンシという追加利点と共に、概ね競争力のある精度を提供する。ただし、小規模モデルにおいてはPP-YOLOE+がパラメータ数とFLOPsにおいて明確な優位性を維持しており、エッジ展開において極めて効率的である。

Ultralyticsの利点: YOLO26の登場

RTDETRv2とPP-YOLOE+はそれ自体が非常に優れているものの、最先端技術は進化を続けています。速度、精度、エコシステムサポートの究極のバランスを求める開発者にとって、Ultralytics 新たな業界標準を体現しています。

YOLO26はCNNとトランスフォーマーの両方の優れた側面を統合しています。現代的なアーキテクチャが先駆けたNMSを採用し、後処理のボトルネックを効果的に解消します。さらに、LLMトレーニングの革新に着想を得たハイブリッド手法である画期的なMuSGDオプティマイザーを導入し、極めて安定したトレーニングと迅速な収束を保証します。

エッジ向けに最適化

従来の重いトランスフォーマーモデルがCUDA 必要とするのとは異なり、YOLO26はDFL除去（分布焦点損失）を採用し、エッジコンピューティング向けに特別に最適化されています。これにより、前世代と比較して最大43%高速CPU を実現します。

さらに、YOLO26は単純な物体検出に限定されません。PP-YOLOE+が主にバウンディングボックス検出に焦点を当てているのに対し、YOLO26はインスタンスセグメンテーション、姿勢推定、指向性バウンディングボックス (OBB)をそのままサポートする、ネイティブに多用途なモデルです。

YOLO26についてさらに詳しく

トレーニング方法論とエコシステム

トレーニング効率と使いやすさにおいて、Ultralytics はスタンドアロンの研究リポジトリと比較して真価を発揮します。PP-YOLOE+はPaddlePaddle に依存し、RTDETRv2は複雑な環境設定を必要とすることが多いのに対し、Ultralytics 介したモデルの統合はシームレスな体験Ultralytics 。

Ultralytics を利用すると、トレーニング時のメモリ要件の低減、データセット処理の自動化、ハイパーパラメータ調整の簡素化といったメリットが得られます。さらに、モデルをONNXなどの本番環境フォーマットにデプロイすることも可能です。 ONNX や TensorRT といった本番環境向けフォーマットへのモデルデプロイも、単一のコマンドで実現できます。

コード例: 効率化された推論

以下は、Ultralytics pythonパッケージを使用して、推奨されるYOLO26モデルとRTDETRv2をいかに簡単に利用できるかを示すデモンストレーションです。

from ultralytics import RTDETR, YOLO

# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()

# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")

# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")

実世界の応用とユースケース

これらのアーキテクチャの選択は、多くの場合、特定のハードウェアおよびアプリケーション要件に依存します。

RT-DETRv2は、サーバーサイド環境と複雑なシーン理解において優れています。そのグローバルアテンションメカニズムは、重なり合うオブジェクトが通常、標準的なNMSアルゴリズムの失敗を引き起こすような状況で、群衆管理と高密度な医用画像解析に非常に効果的です。
PP-YOLOE+は、高速産業検査やPaddlePaddleエコシステムに多額の投資が行われている環境に非常に適しています。小規模モデルでのパラメータ数の少なさは、特定のロボットアプリケーションにとって実行可能にします。
Ultralytics YOLO26 は、包括的な商用デプロイメントに普遍的に推奨されるソリューションです。強化されたProgLoss + STAL機能により、航空ドローン運用やスマートシティ交通監視に不可欠な小さなオブジェクトの認識を劇的に改善します。

ユースケースと推奨事項

RT-DETRとPP-YOLOE+の選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

RT-DETRを選択すべきタイミング

RT-DETR 以下に最適RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

PP-YOLOE+を選択するタイミング

PP-YOLOE+は以下の方におすすめです：

PaddlePaddleエコシステム統合: BaiduのPaddlePaddleフレームワークとツールに基づいて既存のインフラストラクチャを構築している組織。
Paddle Lite Edgeデプロイメント: Paddle LiteまたはPaddle推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
高精度サーバーサイドdetect: フレームワークの依存関係が問題とならない、強力なGPUサーバー上での最大限のdetect精度を優先するシナリオ。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

結論

RTDETRv2とPP-YOLOE+は両方ともコンピュータビジョンで可能なことの限界を押し広げ、トランスフォーマーと高度に最適化されたCNNアーキテクチャの両方の実現可能性を証明しました。しかし、断片化された研究コードベースのデプロイの複雑さは、生産のタイムラインを妨げる可能性があります。

現代のAIエンジニアにとって、Ultralytics Platformを活用することは、比類のない利点をもたらします。YOLO11や最先端のYOLO26のようなシームレスに統合されたモデルに移行することで、チームは、メモリ要件と開発オーバーヘッドを大幅に削減しながら、可能な限り最高の精度対速度比を達成できます。