Link to this sectionRTDETRv2 と PP-YOLOE+ の比較#

急速に進化するコンピュータビジョンの分野では、複雑なリアルタイム物体検出の課題を解決するために、多様なアーキテクチャアプローチが生み出されています。最近の注目すべき進歩の中でも、RTDETRv2 と PP-YOLOE+ は、根本的に異なる設計哲学から視覚認識に取り組む、2つの強力なモデルです。どちらのモデルも高性能な検出を提供することを目的としていますが、その基礎となるメカニズム、学習パラダイム、および理想的なデプロイシナリオは大きく異なります。

この包括的なガイドでは、両モデルの技術的なニュアンスを深掘りし、そのアーキテクチャ、パフォーマンス指標、およびエコシステムサポートを比較することで、開発者や研究者が特定のデプロイニーズに最適なソリューションを選択できるように支援します。

Link to this sectionモデルの概要#

パフォーマンスデータを分析する前に、各モデルの起源とアーキテクチャ上の目標を理解することが重要です。どちらも Baidu の研究チームに由来しますが、物体検出の系譜において異なる枝を表しています。

Link to this sectionRTDETRv2#

RTDETRv2 は、Transformerベースの視覚アーキテクチャにおける大きな飛躍を意味します。オリジナルの Real-Time Detection Transformer に基づき、柔軟な Vision Transformer バックボーンと効率的なハイブリッドエンコーダーを組み合わせています。その最も明確な特徴は、ネイティブなエンドツーエンドの予測能力であり、後処理中の非最大値抑制（NMS）の必要性を完全に排除している点です。

著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
組織: Baidu 日付: 2024-07-24 Arxiv: 2407.17140
GitHub: RT-DETR Repository

RTDETRv2の詳細はこちら

Link to this sectionPP-YOLOE+#

PP-YOLOE+ は YOLO シリーズの高度な反復モデルであり、高性能な産業用アプリケーション向けに大幅に最適化されています。スケーラブルな CNN アーキテクチャとアンカーフリーの検出ヘッドを備えています。優れた速度と精度のトレードオフを提供するように設計されており、小さな物体検出を改善するための ET-head や汎用的なフォーカルロス関数などの強力な手法が導入されています。

著者: PaddlePaddle Authors
組織: Baidu
日付: 2022-04-02
Arxiv: 2203.16250
GitHub: PaddleDetection Repository

PP-YOLOE+の詳細はこちら

エコシステムの統合

どちらのモデルにも独立した研究用リポジトリがありますが、Ultralytics Python パッケージ内で RTDETRv2 を直接利用して実験することができ、統一された API と合理化されたエクスポートオプションを活用できます。

Link to this sectionアーキテクチャの違い#

これら2つのモデルの根本的な違いは、視覚的コンテキストを処理し、予測を生成する方法にあります。

PP-YOLOE+ は、従来の、しかし高度に最適化された畳み込みニューラルネットワーク（CNN）バックボーンを利用します。局所受容野に依存して特徴を抽出するため、標準的なデプロイにおいて非常に高速かつ効率的です。ただし、重複するバウンディングボックスをフィルタリングするために標準的な NMS 後処理が必要であり、密集したシーンではレイテンシのボトルネックが生じる可能性があります。

逆に、RTDETRv2 はハイブリッドエンコーダーと Transformer デコーダーを採用しています。これにより、モデルは画像全体にわたるグローバルなコンテキストを同時にキャプチャできます。アテンションメカニズムが本質的にオブジェクト間の関係を理解するため、NMS なしで最終的なバウンディングボックスを直接出力できます。このエンドツーエンドのアプローチにより、検出されるオブジェクトの数に関係なく、安定した推論レイテンシが保証されます。

Link to this sectionパフォーマンス指標と比較#

YOLO パフォーマンス指標を評価する際は、精度（mAP）と計算コスト（FLOPs）、および推論速度のバランスを取ることが重要です。以下の表は、様々なサイズにおける両モデルのパフォーマンスを示しています。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	パラメータ ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

PP-YOLOE+x は COCO データセットで 54.7% というわずかに高い mAP^val を達成しますが、RTDETRv2 モデルは NMS フリー設計による一貫したレイテンシという利点を持ち、概して競争力のある精度を提供します。ただし、PP-YOLOE+ は、より小さなモデルにおいてパラメータ数と FLOPs の点で明確な優位性を維持しており、エッジデプロイにおいて非常に効率的です。

Link to this sectionUltralyticsの利点: YOLO26の登場#

RTDETRv2 と PP-YOLOE+ はそれ自体で非常に強力ですが、最先端技術は進化を続けています。速度、精度、エコシステムサポートの究極のバランスを求める開発者にとって、Ultralytics YOLO26 は新しい業界標準を体現しています。

YOLO26 は、CNN と Transformer の両方の長所を統合しています。現代のアーキテクチャの先駆けである End-to-End NMS-Free 設計を採用し、後処理のボトルネックを効果的に排除しています。さらに、LLM 学習の革新に触発されたハイブリッドアプローチである革新的な MuSGD Optimizer を導入しており、非常に安定した学習と迅速な収束を保証します。

エッジ向けに最適化

多大な CUDA メモリを必要とする重い Transformer モデルとは異なり、YOLO26 は DFL Removal（Distribution Focal Loss）を備えており、エッジコンピューティング用に特に最適化されています。これにより、前世代と比較して 最大 43% 高速な CPU 推論 を実現します。

さらに、YOLO26 は単純な物体検出に限定されません。ネイティブに多目的であり、インスタンスセグメンテーション、姿勢推定、および回転バウンディングボックス (OBB) を標準でサポートしています。一方、PP-YOLOE+ は主にバウンディングボックス検出に焦点を当てています。

YOLO26の詳細はこちら

Link to this sectionトレーニング方法論とエコシステム#

学習効率と使いやすさの面で、Ultralytics エコシステムは、スタンドアロンの研究用リポジトリと比較して真価を発揮します。PP-YOLOE+ は PaddlePaddle フレームワークに依存し、RTDETRv2 はしばしば複雑な環境設定を必要としますが、Ultralytics を通じてモデルを統合することでシームレスな体験が提供されます。

Ultralytics API を使用すると、学習中のメモリ要件の削減、自動データセット処理、簡素化されたハイパーパラメータチューニングの恩恵を受けることができます。さらに、ONNX や TensorRT などのプロダクションフォーマットへのモデルデプロイは、単一のコマンドで実行できます。

Link to this sectionコード例: 合理化された推論#

以下は、Ultralytics Python パッケージを使用して、推奨される YOLO26 モデルとともに RTDETRv2 をいかに簡単に利用できるかを示すデモンストレーションです：

from ultralytics import RTDETR, YOLO

# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()

# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")

# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")

Link to this section現実世界への応用とユースケース#

これらのアーキテクチャの選択は、多くの場合、特定のハードウェアとアプリケーションの要件に依存します。

RTDETRv2 は、サーバーサイド環境や複雑なシーン理解において優れています。そのグローバルアテンションメカニズムは、群衆管理や、標準的な NMS アルゴリズムが失敗しやすい密集した医療画像分析に非常に効果的です。
PP-YOLOE+ は、高速な産業用検査や、PaddlePaddle エコシステムに多額の投資を行っている環境に最適です。小規模スケールでの低いパラメータ数は、特定のロボット工学アプリケーションに活用可能です。
Ultralytics YOLO26 は、包括的な商用デプロイにおいて普遍的に推奨されるソリューションです。強化された ProgLoss + STAL 機能により、空撮ドローン運用やスマートシティ交通監視に不可欠な小物体認識を劇的に改善します。

Link to this sectionユースケースと推奨事項#

RT-DETR と PP-YOLOE+ の選択は、特定のプロジェクト要件、デプロイの制約、およびエコシステムの優先順位によって異なります。

Link to this sectionRT-DETRを選択すべき時#

RT-DETRは以下のような場合に強力な選択肢です。

Transformerベースの検出研究： NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
高い精度が求められ、レイテンシに柔軟性があるシナリオ： 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
大きな物体の検出： 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。

Link to this sectionPP-YOLOE+ を選ぶべき場面#

PP-YOLOE+ は以下の場合に推奨されます:

PaddlePaddle エコシステムへの統合: Baidu の PaddlePaddle フレームワークとツールを使用して構築された既存のインフラストラクチャを持つ組織。
Paddle Lite エッジデプロイメント: Paddle Lite または Paddle 推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
高精度サーバーサイド検出: フレームワークの依存関係が懸念事項とならない、強力な GPU サーバー上での最大の検出精度を優先するシナリオ。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

NMSフリーのエッジ展開： Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
CPUのみの環境： GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
小さな物体の検出： aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this section結論#

RTDETRv2 と PP-YOLOE+ はどちらもコンピュータビジョンで可能なことの境界を押し広げ、Transformer と高度に最適化された CNN アーキテクチャの両方の有用性を証明しました。しかし、断片化された研究コードベースのデプロイの複雑さが、本番環境への移行スケジュールを妨げる可能性があります。

現代の AI エンジニアにとって、Ultralytics Platform を活用することは比類のない利点をもたらします。YOLO11 や最先端の YOLO26 のようにシームレスに統合されたモデルへ移行することで、チームは可能な限り最高の精度対速度比を達成しながら、メモリ要件と開発オーバーヘッドを劇的に削減できます。

貢献者

GLglenn-jocher¹⁴ PDpderrenger¹

作成日 2025年1月27日更新日 3 週間前