YOLOX対RT-DETRv2:従来型アーキテクチャとトランスフォーマー技術の革新のバランス
最適な物体検出アーキテクチャの選択は、コンピュータビジョンプロジェクトのレイテンシ、精度、スケーラビリティに影響を与える重要な決定です。本技術分析では、2021年に発表された頑健なアンカーフリーCNNベースラインであるYOLOXとRT-DETRv2(リアルタイムアプリケーション向けに最適化された最先端のトランスフォーマーベースモデル)を比較検討する。
両モデルはそれぞれ発売当時において画期的な進歩を遂げたものの、現代のワークフローでは高性能と導入の容易さを両立するソリューションがますます求められています。本比較では、最先端Ultralytics 、NMS推論といった各アーキテクチャの優れた特徴を単一の効率的なフレームワークに統合する手法についても検証します。
パフォーマンスベンチマーク
以下の表は主要指標の直接比較を示しています。RT-DETRv2 平均精度(mAP)が高いものの、FLOPs数からも明らかなように、計算リソースを大幅に多く必要とする点に留意してください。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOX: アンカーフリーの先駆者
YOLOX は2021年にMegviiの研究者によって導入され、YOLO (YOLOv5)で主流だったアンカーベースの仕組みからの転換を示した。アンカーボックスを排除し、分類と位置特定タスクを分離して収束性を高める「分離型ヘッド」を導入することで設計を合理化した。
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織: Megvii
- 日付: 2021年7月18日
- Arxiv:YOLOX: 2021年にYOLOシリーズを超える
- GitHub:Megvii-BaseDetection/YOLOX
アーキテクチャと強み
YOLOXはSimOTA(Simplified Optimal Transport Assignment)ラベル割り当て戦略を採用しており、正例を実体オブジェクトに動的に割り当てます。これにより、モデルはIoU閾値よりも効果的に遮蔽やオブジェクトスケールの変動に対処できます。
このアーキテクチャの簡潔さは、学術研究における定番の基盤モデルとなっている。分類と回帰の特徴量を別々のブランチで処理する「分離ヘッド」設計により、学習の安定性と精度が向上する。
レガシー互換性
YOLOXは、2021年頃のコードベースを基盤とするレガシーシステムや、新たな理論的構成要素を検証するためのクリーンでアンカーフリーなCNNベースラインを必要とする研究者にとって、依然として有力な選択肢である。
しかし、現代の反復処理と比較すると、YOLOXは後処理に非最大抑制(NMS)に依存している。このステップは遅延変動をもたらし、最新のエンドツーエンドモデルと比較して、厳密なリアルタイム産業用途において予測可能性が低くなる。
RT-DETRv2: リアルタイムトランスフォーマー
RT-DETRv2 (リアルタイム検出トランスフォーマー v2) は、百度が開発したオリジナルの RT-DETR を進化させたものです。効率的なハイブリッドエンコーダーを用いてマルチスケールの特徴を高速に処理することで、ビジョン・トランスフォーマー(ViT)に通常伴う高い計算コストの問題に対処します。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Changら
- 組織: Baidu
- 日付:2023年4月17日(v1)、2024年7月24日(v2)
- Arxiv:RT-DETRv2: Bag-of-Freebiesで改善されたベースライン
- GitHub:lyuwenyu/RT-DETR
アーキテクチャとイノベーション
RT-DETRv2 決定的な特徴RT-DETRv2 NMS推論 RT-DETRv2 。オブジェクトクエリを備えたトランスフォーマーデコーダーを活用することで、モデルは固定されたバウンディングボックスのセットを直接予測する。NMS不要となり、デプロイメントパイプラインが簡素化され、シーン内のオブジェクト数にかかわらず一貫した推論時間を保証する。
RT-DETRv2 、柔軟なハイブリッドエンコーダと最適化された不確実性定量化により前世代モデルをRT-DETRv2 、COCO においてより高い精度(最大54.3%mAP)を達成する。
リソース強度
RT-DETRv2トランスフォーマーブロックは正確ではあるものの、メモリを大量に消費する。トレーニングには通常、CNNベースのモデルよりもはるかにCUDA が必要であり、GPU (標準的なCPUなど)での推論速度は、注意機構の複雑さにより遅くなる可能性がある。
Ultralyticsの利点:なぜYOLO26を選ぶのか?
YOLOXが信頼性の高い研究基盤として機能し、RT-DETRv2 トランスフォーマーの精度限界をRT-DETRv2 一方で、Ultralytics 両者の長所を両立させたソリューションを提供します。Ultralytics 、実験的なリポジトリの複雑さを伴わずに最先端の性能を必要とする開発者のために設計されています。
ネイティブなエンドツーエンドかつNMSフリー
YNMS26は、 YOLOv10RT-DETR これを高効率なCNNアーキテクチャ内で実装しています。これにより、複雑な後処理ロジックを必要とRT-DETRv2簡素化されたデプロイメントと、CNNの純粋な処理速度を両立させることが可能です。
エッジコンピューティングにおける比類なき効率性
RT-DETRv2の重いトランスフォーマーブロックとは異なり、YOLO26は多様なハードウェア向けに最適化されている。
- DFL除去:ディストリビューション・フォーカル・ロスを除去することで、モデル構造が簡素化され、エッジアクセラレータや低消費電力デバイスとの互換性が向上します。
- CPU :YOLO26はCPU上で従来世代比最大43%高速な推論を実現し、GPUが利用できないエッジAI展開において最適な選択肢となります。
高度なトレーニングダイナミクス
YOLO26は、大規模言語モデル(LLM)の訓練に着想を得たMuSGDオプティマイザーを統合しています。SGD 。この革新により、大規模言語モデル訓練の安定性がコンピュータビジョンにもたらされ、収束速度の向上とより頑健な重みを実現しました。さらに、ProgLossやSTALといった改良された損失関数は、YOLOXなどの旧式モデルに共通する弱点である微小物体検出の性能を大幅に向上させます。
Ultralytics によるシームレスなワークフロー
おそらく最大のUltralytics 。YOLORT-DETRv2 断片化されたGitHubコードベースを操作する必要があるRT-DETRv2 、Ultralytics 統一されたインターUltralytics 。モデル名を変更するだけで、検出、セグメンテーション、姿勢推定、分類、OBBといったタスク間を簡単に切り替えられます。
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
結論
純粋なCNNベースラインを必要とする学術研究においては、YOLOXは依然として有効な選択肢である。十分なGPU 確保され、最高精度が唯一の指標となるシナリオでは、 RT-DETRv2 が有力な候補となる。しかし、速度・精度・保守性のバランスが求められる実世界の生産システムにおいては、Ultralytics 最良の選択肢として君臨する。次世代のエンドツーエンド機能を提供しつつ、現代的な展開に必要な効率性を兼ね備えている。
参考資料
Ultralytics 他の高性能モデルについては、以下をご覧ください:
- YOLO11:幅広い視覚タスクをサポートする堅牢な汎用モデル。
- YOLOv10:リアルタイムのエンドツーエンド物体検出を導入した最初のYOLO 。
- RT-DETR:トランスフォーマーベースのアーキテクチャを好む方々のための、リアルタイム検出トランスフォーマーの実装。