RTDETRv2 vs. YOLOX:リアルタイム物体検出の進化を深く掘り下げる
物体検出の分野はここ数年で急速に進化し、アンカーベースのアーキテクチャからアンカーフリー設計へ、そして最近ではトランスフォーマーベースのハイブリッドモデルへと移行してきた。 この進化の過程における二つの重要なマイルストーンが RTDETRv2とYOLOXである。YOLOXは2021年にアンカーとNMS 排除することでYOLO 能力を再定義した一方、RTDETRv2(2024年発表)は複雑なシーンにおける精度向上のためにビジョントランスフォーマー(ViT)を統合することでさらなる限界を押し広げた。
このガイドでは、これら2つの影響力のあるモデルについて包括的な技術比較を行い、アーキテクチャ、性能指標、および理想的なユースケースを分析し、コンピュータビジョンプロジェクトに適したツールを選択するお手伝いをします。
RTDETRv2: トランスフォーマーベースの挑戦者
RTDETRv2(リアルタイム検出トランスフォーマー第2版)は、トランスフォーマーアーキテクチャをリアルタイムシナリオに適用する上で大きな飛躍を遂げた。従来のトランスフォーマーは強力だが処理速度が遅かったが、RTDETRv2はこのトレードオフを最適化し、競争力のある速度で最先端の精度を実現する。
主要なアーキテクチャ機能
RTDETRv2は、RT-DETR基盤とし、ハイブリッドなエンコーダ-デコーダ構造を採用しています。CNNバックボーン(通常はResNetまたはHGNetv2)を用いて効率的に特徴量を抽出した後、トランスフォーマーエンコーダで画像全体にわたる長距離依存関係を捕捉します。
- ビジョン・トランスフォーマーの統合:純粋なCNNベースのモデルとは異なり、RTDETRv2は自己注意機構を用いて画像内の離れた部分間の関係性を理解するため、遮蔽や混雑したシーンの処理に特に優れている。
- エンドツーエンド予測:検出パイプラインの効率化を目的としているが、一部の実装では最適化の余地が残されている。
- 動的スケールスケーリング:このアーキテクチャは、従来の設計よりも効果的にマルチスケール特徴を処理するよう設計されている。
著者:Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
所属:Baidu
日付:2023年4月17日 (v1), 2024年7月 (v2)
リンク:Arxiv|GitHub
YOLOX: アンカーフリーの先駆者
2021年に発表されたYOLOXは、アンカーフリー機構と分離型ヘッドを採用することでYOLO (YOLOv3、v4、v5)から分岐した画期的な手法であった。
主要なアーキテクチャ機能
YOLOXは事前定義されたアンカーボックスの必要性を排除することで検出プロセスを簡素化した。アンカーボックスは特定のデータセット向けに経験則に基づく調整を必要とすることが多かった。
- アンカーフリー機構:物体の中心位置とサイズを直接予測することで、YOLOXは設計の複雑さを低減し、多様なデータセットにおける汎化性能を向上させた。
- 分離型ヘッド:分類タスクと回帰タスクをネットワークヘッドの別々の分岐に分離することで、収束性と精度が向上した。
- SimOTAラベル割り当て:この高度なラベル割り当て戦略は、学習プロセスを最適輸送問題として扱い、収束の高速化と動的なラベル割り当ての精度向上を実現した。
著者:Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
所属:Megvii
日付:2021年7月18日
リンク:Arxiv|GitHub
技術的パフォーマンス比較
モデルを本番環境で選択する際には、生のメトリクスが極めて重要です。COCO 性能の詳細な比較を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
指標の分析
データは明らかな世代間格差を示している。RTDETRv2は、同等のモデルサイズにおいてYOLOXを精度(mAP)で一貫して上回っている。例えば、RTDETRv2-lは53.mAPを達成し、YOLOX-lの49.7%を大幅に上回っている。一方で、GPU 上での推論速度は同等レベルを維持している。
ただし、YOLOXは超軽量カテゴリにおいて優位性を維持している。YOLOX-NanoおよびTinyのバリエーションは極めて小型(0.91Mパラメータから)であり、メモリ容量が1キロバイト単位で重要なレガシーエッジコンピューティングハードウェアでの実用性を可能にしている。
Transformerのメモリ使用量
RTDETRv2は高い精度を提供する一方で、YOLOXのような純粋なCNNアーキテクチャと比較すると、トランスフォーマーベースのモデルは通常、学習時および推論時において大幅に多くのVRAMを消費します。この高いメモリ要件は、CUDA 限られているコンシューマー向けGPUでの学習時にボトルネックとなる可能性があります。
Ultralyticsの利点
YOLOXやRTDETRv2といった歴史的モデルを分析することは研究上価値があるものの、現代の開発には使いやすさ、整備されたエコシステム、優れた効率性を提供するツールが求められている。
Ultralytics 、以下を含む YOLOv8 や最先端のYOLO26を含むUltralyticsモデルは、高性能と開発者体験の間のギャップを埋めるように設計されています。
- 合理化されたAPI:モデル間の切り替えはたった1行のコードで実現できます。
- 汎用性:純粋に検出に特化したYOLOXとは異なり、Ultralytics セグメンテーション、姿勢推定、および方向付き境界ボックス(OBB)検出をネイティブにUltralytics 。
- トレーニング効率: Ultralytics 、より少ないメモリオーバーヘッドで高速に学習するよう最適化されており、産業用グレードのハードウェアがなくてもハイエンドAIを利用可能にします。
次世代のパフォーマンス: YOLO26
2026年に最高のパフォーマンスを求める開発者には、YOLO26をお勧めします。これはCNNとトランスフォーマーの両方の優れた特徴を取り入れつつ、それぞれの弱点を排除しています。
- エンドツーエンドNMS:YOLO26はネイティブにエンドツーエンドであり、非最大抑制(NMS)が不要です。これにより、YOLOXと比較してデプロイメントパイプラインが大幅に簡素化されます。
- MuSGDオプティマイザー:LLMトレーニングの革新技術(Moonshot AIに着想を得た)を活用し、YOLO26は安定した高速収束を実現するためMuSGDオプティマイザーを採用している。
- エッジ最適化:ディストリビューション焦点損失(DFL)の除去により、YOLO26は CPU において最大43%高速化され、高性能GPUを欠くエッジデバイスにおいてRTDETRv2を大幅に凌駕する性能を実現した。
実際のユースケース
これらのアーキテクチャの選択は、具体的な導入環境に大きく依存します。
RTDETRv2に最適
- 密集監視:トランスフォーマー注意機構は、物体(人)が重なり合う密集管理シナリオにおいて特に優れている。
- 複雑なシーン理解: 自律走行車のナビゲーションなど、文脈認識を必要とするアプリケーションは、トランスフォーマーのグローバルな受容野の恩恵を受ける。
YOLOX に最適
- レガシーエッジデバイス:古いRaspberry Piやマイクロコントローラーなど、非常に制約の多いデバイス向けに、YOLOX-Nanoは軽量な選択肢であり、トランスフォーマーが設置できない場所にも適合します。
- 学術的ベースライン:YOLOXは、分離されたヘッドとアンカーフリー設計により、研究において基本的な物体検出メカニズムを研究するための人気のベースラインであり続けている。
コード例:Ultralytics
Ultralytics を利用する最大の利点の一つは、統一されたインターフェースです。RT-DETR のようなトランスフォーマーベースのモデルを使用する場合でもRT-DETR CNNベースのYOLO RT-DETR 、コードは一貫して同じままです。
Python を使用してロードおよび推論を実行する方法は以下の通りです:
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display results
results_yolo[0].show()
実験追跡
Ultralytics はMLflowやWeights& BiasesなどのツールとシームレスにUltralytics 。 Weights & Biasesなどのツールとシームレスに連携し、トレーニングスクリプトを変更することなく、異なるtrack 並行してtrack 。
結論
RTDETRv2とYOLOXはともに、コンピュータビジョン分野に大きく貢献した。YOLOXはアンカーフリー設計が極めて有効であることを証明し、RTDETRv2はトランスフォーマーがリアルタイムで動作可能であることを示した。
しかし、2026年の実用的なアプリケーションの大半において、Ultralytics モデルは最もバランスの取れたソリューションを提供します。そのNMS、小規模オブジェクト向けのProgLoss関数、CPU により、「両方の長所を兼ね備えた」シナリオを実現します——トランスフォーマーの膨大な計算コストを伴わずに高い精度を達成するのです。スマート製造向けであれ農業モニタリング向けであれ、よく整備Ultralytics は、プロジェクトが将来にわたって通用することを保証します。
さらに詳しく調べるには、RT-DETR YOLO11RT-DETR 比較や、YOLO26とYOLOv10の具体的な利点について掘り下げてみるのも興味深いかもしれません。